CN115049944B - 一种基于多任务优化的小样本遥感图像目标检测方法 - Google Patents
一种基于多任务优化的小样本遥感图像目标检测方法 Download PDFInfo
- Publication number
- CN115049944B CN115049944B CN202210626275.0A CN202210626275A CN115049944B CN 115049944 B CN115049944 B CN 115049944B CN 202210626275 A CN202210626275 A CN 202210626275A CN 115049944 B CN115049944 B CN 115049944B
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- target
- remote sensing
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 78
- 238000005457 optimization Methods 0.000 title claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000005520 cutting process Methods 0.000 claims abstract description 13
- 238000012360 testing method Methods 0.000 claims abstract description 9
- 230000000903 blocking effect Effects 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 35
- 238000009826 distribution Methods 0.000 claims description 26
- 230000004913 activation Effects 0.000 claims description 20
- 238000011176 pooling Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000003993 interaction Effects 0.000 claims description 7
- 230000002776 aggregation Effects 0.000 claims description 6
- 238000004220 aggregation Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000002401 inhibitory effect Effects 0.000 claims description 3
- 230000008685 targeting Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 230000004927 fusion Effects 0.000 claims description 2
- 230000006798 recombination Effects 0.000 claims description 2
- 238000005215 recombination Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 238000002679 ablation Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000791900 Selene vomer Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- AFEHBIGDWIGTEH-AQRCPPRCSA-N semax Chemical compound C([C@H](NC(=O)[C@H](CCC(O)=O)NC(=O)[C@@H](N)CCSC)C(=O)N[C@@H](CC=1C=CC=CC=1)C(=O)N1[C@@H](CCC1)C(=O)NCC(=O)N1[C@@H](CCC1)C(O)=O)C1=CNC=N1 AFEHBIGDWIGTEH-AQRCPPRCSA-N 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Remote Sensing (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多任务优化的小样本遥感图像目标检测方法,属于无人机图像处理领域,具体为,将采集的历史航空遥感图像划分为训练集与测试集;然后,通过重叠分块将训练集的每张图像进行切割,同时将分组注意力嵌入到骨干网络中,对每张图像进行特征提取,获得各图像的局部特征图组成的支持图像集;同理,选取测试集图像B,经过上述骨干网络得到局部特征图作为查询图像;接着,将利用双分支结构,从显著性和综合性两个方面计算图像与每类支持图像的EMD距离,得到查询图像的归属类别。最后,从归属类别场景中分别对查询图像中的目标进行检测;本发明分为小样本遥感图像场景分类和目标检测,提升了检测效果。
Description
技术领域
本发明属于无人机图像处理领域,具体涉及一种基于多任务优化的小样本遥感图像目标检测方法。
背景技术
近年来,航空遥感及无人机技术发展迅速。航空遥感图像作为一种有效的信息载体,具有丰富的形状、纹理及场景语义信息,被广泛应用于情报侦察、环境监测、自然灾害预防、及水资源保护等应用研究中。然而,航拍生成的海量高清遥感图像数据已经超出了人工实时判读和理解的能力范畴,难以及时准确地获取相关信息。作为计算机视觉领域研究的热点之一,遥感图像信息提取与分析对数据所蕴含的场景及语义信息理解意义重大,是后续项目开展及军事行动的重要依据。
和自然场景下的目标检测任务相比,遥感图像特征信息更为复杂、数据获取和标注成本更高,同时无人机由于自身特点其任务场景多变,部分应用场景不具备长时间采集遥感图像数据的客观条件,致使遥感图像目标检测在实际应用中面临样本数据较少的问题,因此,由于先验信息有限,基于深度学习的遥感图像目标检测方法实现难度较大、性能大幅下降。
基于少量数据样本构建泛化能力较强的遥感图像目标检测模型,是该领域亟待突破的实际问题。同时,遥感图像的特殊性主要体现在:1)无关对象的干扰:遥感图像是俯视视角,不可避免地包含众多与场景语义类别无关的对象。2)类内差异大:遥感地物复杂多样,遥感图像会受到多种成像条件的影响。3)类间相似性:不同场景图像或许包含着相似的地物类型。4)场景目标依存性:遥感图像中场景与目标之间具有一定的依赖关系。
因此,针对遥感图像特点,研究小样本遥感图像目标检测算法,对于推动小样本遥感图像分析理解算法的发展具有重要意义。
发明内容
与场景分类相比,目标检测需要同时完成目标定位和分类任务,小样本条件下先验信息不足的问题将更加明显。然而遥感图像与通用场景图像相比的特殊性在于,遥感图像中目标与场景具有较强的相互依赖性。针对上述问题,本发明提出一种基于多任务优化的小样本遥感图像目标检测方法,将遥感图像场景相似度融入到检测任务中,具体实现过程分为小样本遥感图像场景分类和小样本遥感图像目标检测两个任务,其中场景分类任务为目标检测任务提供场景约束,用以提升检测效果。
所述的基于多任务优化的小样本遥感图像目标检测方法,具体步骤如下:
步骤一、采集历史的航空遥感图像数据集,采用元学习的策略,对数据集进行任务划分,得到类别互不相同的训练集与测试集图像。
采集的每张遥感图像,分别有各自的对应类别;
步骤二、通过重叠分块将训练集的每张图像进行切割,同时将分组注意力嵌入到骨干网络中,对每张图像进行特征提取,获得各图像的局部特征图,组成支持图像集;
具体过程为:
首先、针对当前图像A进行重叠分块,得到该图像A的所有切割图像块;
所述重叠分块是指:将图像按左上角,左下角,右上角,右下角和中心区域等各重点区域的方形切割后保留;切割的方形尺寸根据实际需求人为设定。
然后、将切割的所有图像块向量组成该图像A的矩阵,输入到神经网络,经过若干层的下采样,形成特征图X;特征图X经过嵌入了分组注意力的骨干网络中,最终输出该图像A的局部图分布特征;
所述分组注意力模块包括:特征分组、通道注意力、空间注意力和子特征聚合四部分;
1):特征分组;
对于尺度为C×H×W的特征图X,首先沿通道数将该图像分为G组,即X=[X1,…,XG],Xk∈RC/G×H×W;然后,将每组图像按照通道再次分成两个组Xk1和Xk2,每个组的通道数变为了C/2G,形成两个分支分别进行通道和空间注意力处理。
C表示特征图X的通道数;H表示特征图X的高;W表示特征图X的宽;
2):通道注意力的输出特征Xk1′计算为:
X′k1=sigmoid[(w1c+b1)·Xk1]
w1表示全连接层的第一权重系数,b1表示第一偏置,sigmoid表示激活函数,c表示全局平均池化的输出;计算如下:
fchannel表示通道级别的全局平均池化运算;
3):空间注意力输出Xk2′:
X′k2=sigmoid[(w2GN(Xk2)+b2)·Xk2]
w2表示全连接层的第二权重系数,b2表示第二偏置,GN表示组归一化;
4):子特征聚合是指,将两个分支得到的特征向量进行拼接,通道数变为C/G,并通过通道重组的方式进行特征融合,组成图像A的局部特征图。
同理,得到训练集中每张图像的局部特征图,组成支持图像集;
步骤三、针对测试集中的航空图像B,经过重叠分块的切割以及特征提取,得到该图像B的局部特征图,作为查询图像;
步骤四、将查询图像的局部特征图,与支持图像集中局部特征图的平均特征向量分别输入双分支结构,从显著性和综合性两个方面计算查询图像与各支持图像类别的EMD距离,得到查询图像的归属类别。
具体为:
首先,支持图像集中的所有局部特征图,分别有各自的对应类别;针对每个类别,将该类别的所有支持图像的局部特征图进行向量平均;
然后,逐一将每个类别对应的平均向量与查询图像的局部特征图向量,分别输入双支结构,得到各类别与查询图像的双支EDM距离;
所述的双支结构是指:对每个局部特征图做全局池化,得到各图的局部特征向量;全局池化包括并行的全局最大池化和全局平均池化两个分支,分别得到图像的显著性局部特征向量和综合性局部特征向量。同时,在两分支内分别添加基于通道注意力的SE模块,形成双分支判别网络结构;
针对当前类别与查询图像的双支EDM距离分别为:
EMD(Rmax_s,Rmax_q)
EMD(Ravg_s,Ravg_q)
Rmax_s表示支持图像集中所有图像的显著性分布特征;Rmax_q表示查询图像的显著性分布特征,Ravg_s表示支持图像集所有图像的综合性分布特征,Rayg_q表示查询图像的综合性分布特征。
最后,取双支EDM距离的平均值,作为当前类别与查询图像的EMD距离。
计算公式为:
同理,计算每个类别与查询图像的EMD距离,选择最小EMD距离对应的类别即为查询图像的归属类别;
步骤五、针对查询图像对应的归属类别场景,分别对查询图像中的目标进行检测;
具体步骤如下:
步骤501、针对该类别场景中的各支持图像,每个图像中的每个目标都已经人为标注;
步骤502、将标注好的各目标信息通过局部背景遮挡的方式,融入对应的支持图像中,对非目标区域进行抑制;
步骤503、将融合后的支持图像与查询图像一起通入权值共享的特征提取网络中,通过关联激活模块实现特征交互,使查询图像中相同目标的特征得到强调;
所述特征交互的运算过程为:
其中,reweight_value表示激活系数;和/>分别表示支持特征和查询特征的特征映射;FQ表示关系激活模块的输出,相关目标特征得到增强后的查询特征;FS表示关系激活后的支持特征;concat表示特征拼接。
步骤504、将目标特征得到强调的查询图像作为YOLOv3结构的输入,在每个强调的目标位置分别生成一组锚框,得到目标的检测结果。
对于每个锚框,预测生成一个6维输出,前4维元素用于目标位置的预测,后两维元素为目标性得分和分类得分;
步骤505、通过对各目标检测结果进行边际损失Lmar约束的检测,使特征空间中基类的类间距离尽可能大,类内距离尽可能小,避免新类与基类的混淆;
对目标的检测结果通过损失函数判断,当损失函数值低于预设的阈值,则目标检测结果正确;否则,目标检测结果是错误的,舍弃。
所述损失函数定义为:
Lmulti=Ldet+λmarLmar+λsceLsce
λmar为边际损失Lmar的比例系数;λsce为场景约束损失Lsce的比例系数;检测损失Ldet包含三个部分:Lbox、Lcls和Lobj。其中Lbox代表目标框位置带来的误差;Lcls代表目标类别误差,为交叉熵损失;Lobj为目标置信度带来的误差。
边际损失定义为:
表示类内距离,即支持样本和类中心向量的距离;N为检出目标的数量。表示类间距离。
场景约束损失定义为:
其中,M为类别的数量,yic′为符号函数(0或1),如果样本i的真实类别等于c′,则yic′取1,否则yic′取0,pic′为观测样本i属于类别c′的预测概率。
本发明的优点在于:
1)、一种基于多任务优化的小样本遥感图像目标检测方法,针对遥感图像目标检测中面临的小样本问题,引入元学习的思想构建多个小样本学习任务,增强检测模型的快速适应性需求。
2)、一种基于多任务优化的小样本遥感图像目标检测方法,针对遥感图像中场景与目标的依存性,构建小样本遥感图像场景分类任务,并将场景相似度融入到检测任务中,最大限度挖掘先验信息,提升检测效果。
3)、一种基于多任务优化的小样本遥感图像目标检测方法,添加边际损失约束,克服遥感图像中的类间相似性与类内差异性,避免新类与基类的混淆。
附图说明
图1是本发明一种基于多任务优化的小样本遥感图像目标检测方法流程图;
图2是本发明基于多任务优化的小样本遥感图像目标检测结构图;
图3是本发明所述小样本遥感图像场景分类任务网络结构图;
图4是本发明所述轻量级通道-空间注意力模块结构图;
图5是本发明所述双分支判别结构图;
图6是本发明所述锚框和预测框示意图;
图7是本发明与其他方法检测效果对比图。
具体实施方式
下面结合附图,对本发明的具体实施方法作进一步的详细说明。
与场景分类相比,目标检测需要同时完成目标定位和分类任务。小样本条件下先验信息不足的问题将更加明显。然而遥感图像与通用场景图像相比的特殊性在于,遥感图像中目标与场景具有较强的相互依赖性。因此本发明将遥感图像场景相似度融入到检测任务中,提出了一种基于多任务优化的小样本遥感图像目标检测方法;具体实现过程分为小样本遥感图像场景分类和小样本遥感图像目标检测两个任务,其中场景分类任务为目标检测任务提供场景约束,用以约束和修正检测结果,提升检测效率。
所述的基于多任务优化的小样本遥感图像目标检测方法,如图1所示,具体步骤如下:
步骤一、采集历史的航空遥感图像数据集,采用元学习的策略,对数据集进行任务划分,得到类别互不相同的训练集与测试集图像。
采集的每张遥感图像,分别有各自的对应类别;
步骤二、通过重叠分块将训练集的每张图像进行切割,同时将分组注意力嵌入到骨干网络中,对每张图像进行特征提取,获得各图像的局部特征图,组成支持图像集;
通过重叠分块将图像进行切割,以缓解网络多层下采样造成的图像细节信息丢失问题,同时将结合空间与通道信息的分组注意力嵌入到骨干网络中,提高网络的特征提取能力。
为了获取图像的高维抽象特征,在进行相似性度量前,需构建特征提取模型,学习有效的特征嵌入空间,在此特征空间中度量图像之间的相似程度。遥感图像中的空间信息十分丰富。同时卷积运算将特征映射到高维的空间,数据通道中蕴含着丰富的细节特征。为克服遥感图像的“类间相似性”和“类内差异性”,特征提取网络需具备判别性特征获取能力,因此需在特征提取骨干网络中加入注意力模块。同时小样本学习任务中的特征提取网络对模型复杂度有较高的要求,模型复杂度越高,则面临着越高的过拟合风险。为了兼顾网络特征提取能力和模型复杂度的需求,本发明在骨干网络中引入了基于Shuffle单元的轻量级通道-空间注意力模块,如图4所示。
具体过程为:
首先、针对当前图像A进行重叠分块,得到该图像A的所有切割图像块;
所述重叠分块是指:将图像按左上角,左下角,右上角,右下角和中心区域等各重点区域的方形切割后保留;切割的方形尺寸根据实际需求人为设定。
然后、将切割的所有图像块向量组成该图像A的矩阵,输入到神经网络,经过若干层的下采样,形成特征图X;特征图X经过嵌入了分组注意力的骨干网络中,最终输出该图像A的局部图分布特征;
如图4所示,所述基于Shuffle单元的轻量级通道-空间注意力模块主要由以下几个部分组成:特征分组、通道注意力、空间注意力和子特征聚合;
1):特征分组;
对于尺度为C×H×W的特征图X,首先沿通道数将该图像分为G组,即X=[X1,…,XG],Xk∈RC/G×H×W;然后,将每组图像Xk按照通道再次分成两个组Xk1和Xk2,每个组的通道数变为了C/2G,形成两个分支分别进行通道和空间注意力处理。
C表示特征图X的通道数;H表示特征图X的高;W表示特征图X的宽;
2):通道注意力的输出特征Xk1′
基于全局平均池化整合通道全局信息,生成尺度为C/2G×1×1的通道统计向量。
全局平均池化的计算如下:
其中,fchannel表示通道级别的全局平均池化运算;
基于通道的全局统计量对Xk1特征图做加权,得到通道注意力模块的输出特征Xk1′:
X′k1=sigmoid[(w1c+b1)·Xk1]
w1表示全连接层的第一权重系数,b1表示第一偏置,sigmoid表示激活函数。
3):空间注意力输出Xk2′
基于组归一化获得图像空间统计量,通过全连接层增强特征表示,最终得到空间注意力输出Xk2′:
X′k2=sigmoid[(w2GN(Xk2)+b2)·Xk2]
w2表示全连接层的第二权重系数,b2表示第二偏置,GN表示组归一化;
4):子特征聚合是指,将两个分支得到的特征向量进行拼接,通道数变为C/G,基于channel shuffle的方式沿通道维度实现跨组特征交流,组成图像A的局部特征图。
SA-module每个分支通道数为C/2G,总参数量为3C/G,G取8,16,32等。因此SA-module属于轻量级网络结构,在添加注意力机制的基础上极大地降低模型复杂度。
同理,得到训练集中每张图像的局部特征图,组成支持图像集;
步骤三、针对测试集中的航空图像B,经过重叠分块的切割以及特征提取,得到该图像B的局部特征图,作为查询图像;
步骤四、将查询图像的局部特征图,与支持图像集中局部特征图的平均特征向量分别输入双分支结构,从显著性和综合性两个方面计算查询图像与各支持图像类别的EMD距离进行相似度匹配,得到查询图像的归属类别。
具体为:
首先,支持图像集中的所有局部特征图,分别有各自的对应类别;针对每个类别,将该类别的所有支持图像的局部特征图进行向量平均;
然后,逐一将每个类别对应的平均向量与查询图像的局部特征图向量,分别输入双支结构,得到各类别与查询图像的双支EDM距离;
1)EMD距离度量
EMD距离通常用来解决图像检索中的分布比较问题,该距离衡量不同数据分布间转换所需的最小代价,以此表示两个分布的相似程度;EMD距离计算可视作一个线性规划问题。假设待测两图像的分布为S={si|i=1,2,…m}和D={dj|j=1,2,…k},从si到di的变换成本为cij,所有变换成本组成m×k的矩阵C;需找到矩阵F,使其元素fij满足:
subjecttofij≥0,i=1,…,m,j=1,…,k
计算过程中,若找到一个使整体匹配成本最小的匹配结果,此最小成本为EMD距离。
在遥感图像中,多数情况下不存在实例级目标,相较于单一的类别表示,分布信息更为重要。因此在图像输入网络前对遥感图像进行重叠分割处理,特征提取后获得一组输入图像的局部特征向量,该组局部特征向量构成图像的分布表示。在此基础上计算分布间的最优匹配代价,匹配代价越小,证明两图像越相似。
2)双分支判别模块结构设计
如图3和图5所示,特征提取得到每个分割图像块的局部特征图为hi(i=1,…,5)。为得到局部特征向量,需对特征图做全局池化。全局池化最常用的两种方式为全局最大池化和全局平均池化。最大池化关注特征中响应最大、最强烈的部分,而平均池化关注的是整体的特征。为了兼顾最大响应特征和整体特征,本发明在获得局部特征向量时采用全局最大池化和全局平均池化并行的方式,设计两个分支分别得到图像的显著性局部特征向量和综合性局部特征向量。
为提升两个分支的可学习性和特征表征能力,增强后续分类器对于分布特征之间“类内差异性”和“类间相似性”的辨别能力,考虑在两分支内分别添加基于通道注意力的SE模块。SE模块的原理同上小节通道注意力部分,双分支判别网络结构如图5所示。
图像分布特征的计算过程如下所示,首先得到局部特征向量:
r_maxi=GMP(SEmax(hi))
r_avgi=GAP(SEavg(hi))
重叠分块的数量为5,即i=1,…,5。所以图像整体分布特征表示为:
Rmax={r_maxi|i=1,…,5}
Ravg={r_avgi|i=1,…,5}
针对当前类别与查询图像的双支EDM距离分别为:
EMD(Rmax_s,Rmax_q)
EMD(Ravg_s,Ravg_q)
Rmax_s表示支持图像集中所有图像的显著性分布特征;Rmax_q表示查询图像的显著性分布特征,Ravg_s表示支持图像集所有图像的综合性分布特征,Ravg_q表示查询图像的综合性分布特征。
最后,取双支EDM距离的平均值,作为当前类别与查询图像的EMD距离。
计算公式为:
同理,计算每个类别与查询图像的EMD距离,选择最小EMD距离对应的类别即为查询图像的归属类别;
步骤五、针对查询图像对应的归属类别场景,分别对查询图像中的目标进行检测;
具体步骤如下:
步骤501、针对该类别场景中的各支持图像,每个图像中的每个目标都已经人为标注;
步骤502、将标注好的各目标信息通过局部背景遮挡的方式,融入对应的支持图像中,对非目标区域进行抑制;
步骤503、将融合后的支持图像与查询图像一起通入权值共享的特征提取网络中,通过关联激活模块实现特征交互,使查询图像中相同目标的特征得到强调;
支持图像和查询图像皆通入权重共享的特征提取网络。选取其中1/32x,1/16x,1/8x比例的特征图通过关联激活模块做特征交互。关联激活模块的结构如图2中所示,运算过程可表示为:
其中,reweight_value表示激活系数;和/>分别表示支持特征和查询特征的特征映射;FQ表示关联激活模块的输出,相关目标特征得到增强后的查询特征;FS表示关联激活后的支持特征;concat表示特征拼接。/>和/>度量支持特征和查询特征之间的相似性,用以有针对性地增强查询特征图中对应目标的特征表达。
步骤504、将目标特征得到强调的查询图像作为YOLOv3结构的输入,在每个强调的目标位置分别生成一组锚框,得到目标的检测结果。
整体框架采用YOLOv3的结构,因此检测与分类头部继承自YOLOv3的原有结构。其中1/32x,1/16x,1/8x下采样比例的特征图经过关联激活模块后直接进行检测与分类的预测。其中较大的特征图具有较小的感受野,负责检测较小的目标,较小的特征图具有较大的感受野,负责检测较大的目标。对于每个锚框,预测生成一个6维输出,前4维元素用于目标位置的预测,后两维元素为目标性得分和分类得分;
锚框和预测框示意图如图6所示,若某个边界框的坐标为bx,vy,bw,bh,其中[bx,by]表示预测目标的中心点坐标,bw,bh为预测框的宽度和高度。则锚框返回的位置预测结果为4个偏移值,xp,yp,wp,hp,可从这四个偏移值计算得到预测框的坐标。
步骤505、通过对各目标检测结果进行边际损失Lmar约束的检测,使特征空间中基类的类间距离尽可能大,类内距离尽可能小,避免新类与基类的混淆;
对目标的检测结果通过损失函数判断,当损失函数值低于预设的阈值,则目标检测结果正确;否则,目标检测结果是错误的,舍弃。
在训练阶段,通过基类数据对模型进行训练,构建高维的代表性特征空间;整个特征空间被划分为多个子空间,每个子空间中含某一类目标的特征分布。在网络微调阶段,新类别的目标特征被嵌入到特征空间中基类之间的边际空间。因此,为了避免基类与新类的混淆,基类之间的边际空间应尽可能大,而基类内部的特征分布尽可能紧凑。
定义某类的原型表示为:
其中vij表示某类中的样本特征向量表示,K表示本类中所有样本的个数。由此类内距离和类间距离可以定义为:
为实现类间距离尽可能大,类内距离尽可能小的目的,设计边际损失定义为:
场景相似度判断,引入小样本遥感图像分类任务,用以判断支持图像与查询图像场景上的相似程度,对目标检测结果起到约束的作用。
遥感图像的特殊性在于,目标与场景具有一定的依赖性,因此加入场景相似度分支做多任务优化。由此最终的损失函数定义为:
Lmulti=Ldet+λmarLmar+λsceLsce
λmdr为边际损失Lmar的比例系数;λsce为场景约束损失Lsce的比例系数;用于平衡几个损失之间的大小。实施例中设置λmar=0.1,λsce=0.1。检测损失Ldet包含三个部分:Lbox、Lcls和Lobj。其中Lbox代表目标框位置带来的误差;Lcls代表目标类别误差,为交叉熵损失;Lobj为目标置信度带来的误差。
边际损失定义为:
表示类内距离,即支持样本和类中心向量的距离;N为检出目标的数量。表示类间距离。
因场景与目标类别有强相关性,因此场景约束损失定义为:
其中,M为类别的数量,yic′为符号函数(0或1),如果样本i的真实类别等于c′,则yic′取1,否则yic′取0,pic′为观测样本i属于类别c′的预测概率。
为避免场景分类与目标检测任务之间相互干扰,采用分步训练的策略。第一阶段固定检测部分,只训练场景分类模块至收敛;第二阶段降低场景分类模块参数更新学习率,检测与场景分类协同训练。
最后,本实施例进行检测效果评估,评价指标为mAP,mAP为各类别AP的平均值,AP的计算由Precision-Recall curve得到,Precision和Recall的定义为:
其中TP指true positive的数量,FP指false positive的数量,FN指falsenegative的数量,true positive和false positive通过同类的检测框与真值框的IOU来确定,若同类的检测框与真值框的IOU大于一定阈值,则该检测框为true positive,否则为false positive,若标注中的真值边界框不存在一个同类的检测框与它的IOU大于这个阈值,则该真值框为false negative,IOU定义为:
其中,Bpr为算法模型预测的Bounding Box,Bgt为标注中的真值边界框,参考Pascal VOC的准则,将IOU阈值取为0.5。由Recall的定义容易知道Recall的定义域为[0,1],将Recall作为横轴,Precision作为纵轴,可以得到一条Precision-Recall curve,对应类别Precision-Recall curve下面的面积即为算法模型在该类别的AP。
实施例:
本实例取遥感目标检测数据集RSOD针对关系激活模块、类别边际损失约束和基于小样本遥感图像场景分类的场景相似度约束做了消融实验,以验证各模块的有效性,得到消融实验测试结果如下表所示:
表1
其中RM代表关系激活模块,ML代表基于特征子空间约束的边际损失,SS代表场景相似性约束。由以上可得,支持集中每类只包含一个样本时作为一种极端情况,尽管从评估指标上看,效果不是非常理想,但其中关联激活模块和边际损失的加入仍使模型性能有了一定的提升,场景相似性约束的加入反而使效果变差,推测是因为在1shot的极端情况下,场景相似性度量的难度也随之大幅上升,因此场景约束在这种情况下反而可能会对模型造成较大的干扰。而随着每类中参与训练的样本数量的上升,场景约束的作用也愈发显著。而关系激活模块和特征子空间边际约束的作用则一直比较明显。
同时取本发明方法与其他检测方法进行了对比实验,如图7所示,对比实验测试结果如下表2所示。
表2
如上表所示,经典的目标检测算法的效果非常不理想,每类中10个标注样本的情况下,mAP只能达到14.91,因此经典的目标检测框架已经不再适用于小样本任务背景。Meta-yolo是在yolo框架下提出的基于元学习的小样本图像目标检测算法,在自然场景中的图像目标检测任务中表现较好,但未充分考虑到遥感图像的特殊性,因此在性能上明显逊于本发明提出的算法。
同时,从上表中可以看出,本发明在不同类别目标上的检测性能有着很大的差别。在10shot的条件下,田径场的mAP可达到82.54,而汽车的mAP只能达到18.28,推测是由于汽车在图像中的尺寸较小,容易发生错检漏检现象。
本发明针对提出一种基于多任务优化的小样本遥感图像目标检测算法。具体的,针对先验信息不足的问题,提出了基于空间互注意力的特征交互模块,使待测样本中对应目标的特征表达得到增强;同时设计了场景相似度约束的任务分支,充分利用遥感图像中场景与目标的强依赖性关联;最后针对遥感图像目标间的混淆性,提出了一种边际损失做特征子空间约束。最终通过实施例中的消融实验和对比实验验证了本方法中各模块的有效性和本方法相较于其他检测方法的优越性。
Claims (8)
1.一种基于多任务优化的小样本遥感图像目标检测方法,其特征在于,分为小样本遥感图像场景分类和小样本遥感图像目标检测,其中场景分类为目标检测提供场景约束,用以修正检测结果;具体步骤如下:
首先,对采集的航空遥感图像,通过重叠分块进行切割,将切割的所有图像块向量组成当前图像的矩阵,输入到神经网络,经过若干层的下采样,形成特征图X;特征图X经过嵌入了分组注意力的骨干网络中,对当前图像进行特征提取,获得该图像的局部特征图,所有图像的局部特征图组成支持图像集;
然后,选择新的航空图像,进行上述特征提取后的局部特征图作为查询图像;
接着,将查询图像的局部特征图,与支持图像集中局部特征图的平均特征向量分别输入双分支结构,从显著性和综合性两个方面计算查询图像与各支持图像类别的EMD距离,得到查询图像的场景归属类别;
具体为:将支持图像集按类别划分,每个类别的所有支持图像的局部特征图进行向量平均;逐一与查询图像的局部特征图向量分别输入双支结构,得到各类别与查询图像的双支EDM距离;然后取双支EDM距离的平均值,作为当前类别与查询图像的EMD距离;从所有EMD距离中,选择最小EMD距离对应的类别即为查询图像的归属类别;
最后,从查询图像归属的场景类别中,利用所有支持图像对查询图像中的各目标分别进行检测;
具体为:针对该归属类别场景,将每个图像中已标注好的各目标通过局部背景遮挡的方式,融入对应的支持图像中,对非目标区域进行抑制;然后,将融合后的支持图像与查询图像一起通入权值共享的特征提取网络中,通过关联激活模块实现特征交互,对查询图像中相同目标的特征进行强调;
特征交互的运算过程为:
其中,reweight_value表示激活系数;和/>分别表示支持特征和查询特征的特征映射;FQ表示关系激活模块的输出,相关目标特征得到增强后的查询特征;FS表示关系激活后的支持特征;concat表示特征拼接;
接着将强调的目标特征作为YOLOv3结构的输入,在每个强调的目标位置分别生成一组锚框,得到目标的检测结果;通过对各目标检测结果进行边际损失Lmar约束的检测,使特征空间中基类的类间距离尽可能大,类内距离尽可能小,避免新类与基类的混淆;
对目标的检测结果通过损失函数判断,当损失函数值低于预设的阈值,则目标检测结果正确;否则,目标检测结果是错误的,舍弃。
2.根据权利要求1所述的一种基于多任务优化的小样本遥感图像目标检测方法,其特征在于,所述采集的航空遥感图像数据集,采用元学习的策略进行任务划分,得到类别互不相同的训练集与测试集图像。
3.根据权利要求1所述的一种基于多任务优化的小样本遥感图像目标检测方法,其特征在于,所述对图像进行重叠分块,是指将图像按左上角,左下角,右上角,右下角和中心区域的方形切割后保留;切割的方形尺寸根据实际需求人为设定。
4.根据权利要求1所述的一种基于多任务优化的小样本遥感图像目标检测方法,其特征在于,所述分组注意力模块包括:特征分组、通道注意力、空间注意力和子特征聚合四部分;
1):特征分组;
对于尺度为C×H×W的特征图X,首先沿通道数将该图像分为G组,即X=[X1,…,XG],Xk∈RC/G×H×W;然后,将每组图像按照通道再次分成两个组Xk1和Xk2,每个组的通道数变为了C/2G,形成两个分支分别进行通道和空间注意力处理;
C表示特征图X的通道数;H表示特征图X的高;W表示特征图X的宽;
2):通道注意力的输出特征Xk1′计算为:
X′k1=sigmoid[(w1c+b1)·Xk1]
w1表示全连接层的第一权重系数,b1表示第一偏置,sigmoid表示激活函数,c表示全局平均池化的输出;计算如下:
fchannel表示通道级别的全局平均池化运算;
3):空间注意力输出Xk2′:
X′k2=sigmoid[(w2GN(Xk2)+b2)·Xk2]
w2表示全连接层的第二权重系数,b2表示第二偏置,GN表示组归一化;
4):子特征聚合是指,将两个分支得到的特征向量进行拼接,通道数变为C/G,并通过通道重组的方式进行特征融合,组成图像A的局部特征图。
5.根据权利要求1所述的一种基于多任务优化的小样本遥感图像目标检测方法,其特征在于,所述双支结构是指:对每个局部特征图做全局池化,得到各图的局部特征向量;全局池化包括并行的全局最大池化和全局平均池化两个分支,分别得到图像的显著性局部特征向量和综合性局部特征向量;同时,在两分支内分别添加基于通道注意力的SE模块,形成双分支判别网络结构。
6.根据权利要求1所述的一种基于多任务优化的小样本遥感图像目标检测方法,其特征在于,所述双支EDM距离的平均值计算公式为:
EMD(Rmax_s,Rmax_q)和EMD(Ravg_s,Ravg_q)为当前类别与查询图像的双支EDM距离;
Rmax_s表示支持图像集中所有图像的显著性分布特征;Rmax_q表示查询图像的显著性分布特征,Ravg_s表示支持图像集所有图像的综合性分布特征,Ravg_q表示查询图像的综合性分布特征。
7.根据权利要求1所述的一种基于多任务优化的小样本遥感图像目标检测方法,其特征在于,所述每个锚框,预测生成一个6维输出,前4维元素用于目标位置的预测,后两维元素为目标性得分和分类得分。
8.根据权利要求1所述的一种基于多任务优化的小样本遥感图像目标检测方法,其特征在于,所述损失函数定义为:
Lmulti=Ldet+λmarLmar+λsceLsce
λmar为边际损失Lmar的比例系数;λsce为场景约束损失Lsce的比例系数;检测损失Ldet包含三个部分:Lbos、Lcls和Lobj;其中Lbox代表目标框位置带来的误差;Lcls代表目标类别误差,为交叉熵损失;Lobj为目标置信度带来的误差;
边际损失定义为:
表示类内距离,即支持样本和类中心向量的距离;N为检出目标的数量;/>表示类间距离;
场景约束损失定义为:
其中,M为类别的数量,yic′为符号函数,如果样本i的真实类别等于c′,则yic′取1,否则yic′取0,pic′为观测样本i属于类别c′的预测概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210626275.0A CN115049944B (zh) | 2022-06-02 | 2022-06-02 | 一种基于多任务优化的小样本遥感图像目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210626275.0A CN115049944B (zh) | 2022-06-02 | 2022-06-02 | 一种基于多任务优化的小样本遥感图像目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115049944A CN115049944A (zh) | 2022-09-13 |
CN115049944B true CN115049944B (zh) | 2024-05-28 |
Family
ID=83159179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210626275.0A Active CN115049944B (zh) | 2022-06-02 | 2022-06-02 | 一种基于多任务优化的小样本遥感图像目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115049944B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115578360B (zh) * | 2022-10-24 | 2023-12-26 | 电子科技大学 | 一种针对超声心动图像的多目标语义分割方法 |
CN116310894B (zh) * | 2023-02-22 | 2024-04-16 | 中交第二公路勘察设计研究院有限公司 | 一种基于无人机遥感的小样本小目标藏羚羊智能识别方法 |
CN116071609B (zh) * | 2023-03-29 | 2023-07-18 | 中国科学技术大学 | 基于目标特征动态自适应提取的小样本图像分类方法 |
CN116188995B (zh) * | 2023-04-13 | 2023-08-15 | 国家基础地理信息中心 | 一种遥感图像特征提取模型训练方法、检索方法及装置 |
CN116227573B (zh) * | 2023-04-25 | 2023-08-08 | 智慧眼科技股份有限公司 | 分割模型训练方法、图像分割方法、装置及相关介质 |
CN116636423B (zh) * | 2023-07-26 | 2023-09-26 | 云南农业大学 | 一种茯苓菌种的高效培育方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108647602A (zh) * | 2018-04-28 | 2018-10-12 | 北京航空航天大学 | 一种基于图像复杂度判定的航空遥感图像场景分类方法 |
CN112818903A (zh) * | 2020-12-10 | 2021-05-18 | 北京航空航天大学 | 一种基于元学习和协同注意力的小样本遥感图像目标检测方法 |
CN112861720A (zh) * | 2021-02-08 | 2021-05-28 | 西北工业大学 | 基于原型卷积神经网络的遥感图像小样本目标检测方法 |
WO2021139069A1 (zh) * | 2020-01-09 | 2021-07-15 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
US11205098B1 (en) * | 2021-02-23 | 2021-12-21 | Institute Of Automation, Chinese Academy Of Sciences | Single-stage small-sample-object detection method based on decoupled metric |
CN114067153A (zh) * | 2021-11-02 | 2022-02-18 | 暨南大学 | 基于并行双注意力轻量残差网络的图像分类方法及系统 |
WO2022041678A1 (zh) * | 2020-08-30 | 2022-03-03 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 张量协作图判别分析遥感图像特征提取方法 |
-
2022
- 2022-06-02 CN CN202210626275.0A patent/CN115049944B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108647602A (zh) * | 2018-04-28 | 2018-10-12 | 北京航空航天大学 | 一种基于图像复杂度判定的航空遥感图像场景分类方法 |
WO2021139069A1 (zh) * | 2020-01-09 | 2021-07-15 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
WO2022041678A1 (zh) * | 2020-08-30 | 2022-03-03 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 张量协作图判别分析遥感图像特征提取方法 |
CN112818903A (zh) * | 2020-12-10 | 2021-05-18 | 北京航空航天大学 | 一种基于元学习和协同注意力的小样本遥感图像目标检测方法 |
CN112861720A (zh) * | 2021-02-08 | 2021-05-28 | 西北工业大学 | 基于原型卷积神经网络的遥感图像小样本目标检测方法 |
US11205098B1 (en) * | 2021-02-23 | 2021-12-21 | Institute Of Automation, Chinese Academy Of Sciences | Single-stage small-sample-object detection method based on decoupled metric |
CN114067153A (zh) * | 2021-11-02 | 2022-02-18 | 暨南大学 | 基于并行双注意力轻量残差网络的图像分类方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115049944A (zh) | 2022-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115049944B (zh) | 一种基于多任务优化的小样本遥感图像目标检测方法 | |
CN111079602B (zh) | 基于多尺度区域特征约束的车辆细粒度识别方法及装置 | |
CN111553201B (zh) | 一种基于YOLOv3优化算法的交通灯检测方法 | |
CN108108657B (zh) | 基于多任务深度学习的修正局部敏感哈希车辆检索方法 | |
CN110245709B (zh) | 基于深度学习和自注意力的3d点云数据语义分割方法 | |
Zhou et al. | Self‐supervised learning to visually detect terrain surfaces for autonomous robots operating in forested terrain | |
CN110796168A (zh) | 一种基于改进YOLOv3的车辆检测方法 | |
CN113420607A (zh) | 无人机多尺度目标检测识别方法 | |
CN105678231A (zh) | 一种基于稀疏编码和神经网络的行人图片检测方法 | |
CN110287798B (zh) | 基于特征模块化和上下文融合的矢量网络行人检测方法 | |
CN115861619A (zh) | 一种递归残差双注意力核点卷积网络的机载LiDAR城市点云语义分割方法与系统 | |
CN110263731B (zh) | 一种单步人脸检测系统 | |
Dong et al. | A novel loop closure detection method using line features | |
Gong et al. | A two-level framework for place recognition with 3D LiDAR based on spatial relation graph | |
CN116883873A (zh) | 一种面向空地应用的红外小目标检测方法 | |
Cheng et al. | YOLOv3 Object Detection Algorithm with Feature Pyramid Attention for Remote Sensing Images. | |
CN116844126A (zh) | 一种基于YOLOv7改进的复杂道路场景目标检测方法 | |
Kukolj et al. | Road edge detection based on combined deep learning and spatial statistics of LiDAR data | |
Liu et al. | Aerial remote sensing image cascaded road detection network based on edge sensing module and attention module | |
Kong et al. | Explicit points-of-interest driven Siamese transformer for 3D LiDAR place recognition in outdoor challenging environments | |
Zhang et al. | Bridging the gap between cumbersome and light detectors via layer-calibration and task-disentangle distillation in remote sensing imagery | |
CN116580322A (zh) | 一种地面背景下无人机红外小目标检测方法 | |
CN109117852B (zh) | 基于稀疏表示的无人机图像适配区自动提取方法及系统 | |
Hou et al. | Forest: A lightweight semantic image descriptor for robust visual place recognition | |
CN116844040A (zh) | 一种基于双流结构的小样本遥感图像场景分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |