CN117152546B - 一种遥感场景分类方法、系统、存储介质及电子设备 - Google Patents
一种遥感场景分类方法、系统、存储介质及电子设备 Download PDFInfo
- Publication number
- CN117152546B CN117152546B CN202311429760.XA CN202311429760A CN117152546B CN 117152546 B CN117152546 B CN 117152546B CN 202311429760 A CN202311429760 A CN 202311429760A CN 117152546 B CN117152546 B CN 117152546B
- Authority
- CN
- China
- Prior art keywords
- feature map
- layer
- remote sensing
- attention
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims description 49
- 230000004927 fusion Effects 0.000 claims description 31
- 230000004913 activation Effects 0.000 claims description 29
- 238000011176 pooling Methods 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 24
- 235000004257 Cordia myxa Nutrition 0.000 claims description 18
- 244000157795 Cordia myxa Species 0.000 claims description 18
- 238000013507 mapping Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 238000005096 rolling process Methods 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 230000010339 dilation Effects 0.000 claims description 9
- 230000003902 lesion Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 abstract description 5
- 238000010801 machine learning Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 29
- 238000001994 activation Methods 0.000 description 23
- 238000012549 training Methods 0.000 description 14
- 239000000284 extract Substances 0.000 description 6
- 238000013145 classification model Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 201000011243 gastrointestinal stromal tumor Diseases 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 230000000386 athletic effect Effects 0.000 description 1
- 210000003710 cerebral cortex Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种遥感场景分类方法、系统、存储介质及电子设备,该方法通过建立由特征提取模块、上下文空间注意力模块和通道注意力模块组成的目标模型;获取目标遥感影像,将目标遥感影像输入目标模型中,输出场景分类结果,具体的,由于目标模型包含浅层特性和高层特性,可以有效提取和学习到更具辨别力的判别特征,同时,结合李群机器学习方法,有效增强了模型的可解释性和可理解性,另外,目标模型还包含上下文空间和通道注意力机制,充分考虑了不同层次特征之间的上下文关系,并能够有效的提取到浅层特征中的关键特征信息。
Description
技术领域
本发明属于遥感场景分类的技术领域,具体涉及一种遥感场景分类方法、系统、存储介质及电子设备。
背景技术
近年来,随着观测技术的快速进步和各种传感器设备的升级优化,使得我们可以获得大量的高分辨率遥感影像(HRRSI)。这些高分辨率遥感影像中包含了物体丰富的纹理、几何信息和详细的空间结构等信息。因此,如何准确地获得不同场景的语义信息,受到了越来越多学者的关注。与此同时,由于高分辨率遥感影像场景中的复杂性、多样性和多尺度特征等多种因素,遥感场景分类的研究仍然具有挑战性。
遥感场景分类是遥感影像解译的基础研究课题,旨在使用算法和影像技术对不同的场景实现分类,包括自然环境如河流、森林和人为环境如机场、住宅等,并广泛应用于城市规划、环境监测和应急处置等多个领域。在前期的研究中,我们发现有效的、具有判别性的特征在场景分类中发挥了重要的作用。根据不同层次的特征学习和表征方式,主要分为三种:(1)基于浅层(底层、中层)的特征表征模型;(2)基于无监督的特征表征模型;(3)基于高层的特征表征模型。
实际上,在大多数卷积神经网络(CNN)模型中使用单个感受野,不能完全提取高分辨率遥感影像中复杂的纹理结构和关键特征。此外,大部分CNN模型提取的高层特征具有丰富的语义信息,缺少特定的物理意义,可解释性和可理解性较弱。
发明内容
基于此,本发明实施例当中提供了一种遥感场景分类方法、系统、存储介质及电子设备,旨在解决现有技术中,针对高分辨率遥感影像的分类性能不足的问题。
本发明实施例的第一方面提供了一种遥感场景分类方法,所述方法包括:
获取遥感影像样本,将所述遥感影像样本映射到李群流形空间上,得到李群样本;
提取所述李群样本中场景的浅层特征图,并从所述浅层特征图中提取高层特征图;
采用上采样的方式对所述浅层特征图和所述高层特征图进行标准化,将标准化的特征图分别进行平均处理和最大化处理,得到平均特征图和最大特征图,并将所述平均特征图和所述最大特征图沿着通道轴采用平均池化处理和最大池化处理,最后采用1×1并行扩张卷积和李群Sigmoid激活处理,得到空间注意力特征图;
将空间注意力特征图与浅层特征图相乘,得到上下文空间注意力特征图;
获取上下文空间注意力特征图,将上下文空间注意力特征图进行标准化,并将标准化的上下文空间注意力特征图分别进行平均通道融合与最大通道融合,然后经过通道提取,最后进行并行扩张卷积和李群Sigmoid激活处理,得到通道注意力特征图,以建立由特征提取模块、上下文空间注意力模块和通道注意力模块组成的目标模型;
获取目标遥感影像,将所述目标遥感影像输入所述目标模型中,输出场景分类结果。
进一步的,所述获取遥感影像样本,将所述遥感影像样本映射到李群流形空间上,得到李群样本的步骤中,映射的表达式为:
;
其中,Dij表示为数据集中第i个类别的第j个样本,Gij表示为在李群流形空间上第i个类别的第j个样本。
进一步的,所述提取所述李群样本中场景的浅层特征图的步骤中,提取所述李群样本中场景的浅层特征图的表达式为:
;
其中,F(x,y)表示浅层特征图,(x,y)表示目标在场景中的位置,NR、NG、NB、γ、Cb及Cr表示颜色特征,Wave(x,y)表示小波变换,LBP(x,y)表示(x,y)像素块的8个像素与周围的3×3像素的二值运算,Gabor(x,y)表示过滤操作,T表示矩阵的转置符号。
进一步的,所述从所述浅层特征图中提取高层特征图的步骤中,将所述浅层特征图通过4个密集模块和3个转换层,得到所述高层特征图,其中,每个所述密集模块中包括第一密集层和第二密集层,第一密集层依次由SW子层、SeLU子层以及1×1并行扩张卷积子层组成,第二密集层依次由SW子层、SeLU子层以及3×3并行扩张卷积子层组成,每个所述转换层依次由SW子层、SeLU子层、1×1并行扩张卷积子层以及平均池化子层组成。
进一步的,所述将空间注意力特征图与浅层特征图相乘,得到上下文空间注意力特征图的步骤中,将空间注意力特征图与浅层特征图相乘,得到上下文空间注意力特征图的表达式为:
;
其中,FMn表示第n个浅层特征图,表示第n个上下文空间注意力特征图,LGSigmoid表示李群sigmoid激活函数,Pdc1表示1×1并行扩张卷积处理,Avgpool和Maxpool分别表示平均池化处理和最大池化处理,mean和max分别表示平均处理和最大化处理。
进一步的,所述获取上下文空间注意力特征图,将上下文空间注意力特征图进行标准化的步骤中,采用1×1并行扩张卷积处理对上下文空间注意力特征图进行标准化。
进一步的,所述获取上下文空间注意力特征图,将上下文空间注意力特征图进行标准化,并将标准化的上下文空间注意力特征图分别进行平均通道融合与最大通道融合,然后经过通道提取,最后进行并行扩张卷积和李群Sigmoid激活处理,得到通道注意力特征图的表达式为:
;
其中,表示第n个通道注意力特征图,CSn表示第n个标准化的上下文空间注意力特征图,LGSigmoid表示李群sigmoid激活函数,Pdc1表示1×1并行扩张卷积处理,GAP表示平均通道融合,GMP表示最大通道融合。
本发明实施例的第二方面提供了一种遥感场景分类系统,所述系统包括:
映射模块,用于获取遥感影像样本,将所述遥感影像样本映射到李群流形空间上,得到李群样本;
提取模块,用于提取所述李群样本中场景的浅层特征图,并从所述浅层特征图中提取高层特征图;
空间注意力特征图获取模块,用于采用上采样的方式对所述浅层特征图和所述高层特征图进行标准化,将标准化的特征图分别进行平均处理和最大化处理,得到平均特征图和最大特征图,并将所述平均特征图和所述最大特征图沿着通道轴采用平均池化处理和最大池化处理,最后采用1×1并行扩张卷积和李群Sigmoid激活处理,得到空间注意力特征图;
上下文空间注意力特征图获取模块,用于将空间注意力特征图与浅层特征图相乘,得到上下文空间注意力特征图;
通道注意力特征图获取模块,用于获取上下文空间注意力特征图,将上下文空间注意力特征图进行标准化,并将标准化的上下文空间注意力特征图分别进行平均通道融合与最大通道融合,然后经过通道提取,最后进行并行扩张卷积和李群Sigmoid激活处理,得到通道注意力特征图,以建立由特征提取模块、上下文空间注意力模块和通道注意力模块组成的目标模型;
输入模块,用于获取目标遥感影像,将所述目标遥感影像输入所述目标模型中,输出场景分类结果。
本发明实施例的第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的遥感场景分类方法。
本发明实施例的第四方面提供了一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的遥感场景分类方法。
本发明的有益效果为:该方法通过获取遥感影像样本,将遥感影像样本映射到李群流形空间上,得到李群样本;提取李群样本中场景的浅层特征图,并从浅层特征图中提取高层特征图;采用上采样的方式对浅层特征图和高层特征图进行标准化,将标准化的特征图分别进行平均处理和最大化处理,得到平均特征图和最大特征图,并将平均特征图和最大特征图沿着通道轴采用平均池化处理和最大池化处理,最后采用1×1并行扩张卷积和李群Sigmoid激活处理,得到空间注意力特征图;将空间注意力特征图与浅层特征图相乘,得到上下文空间注意力特征图;获取上下文空间注意力特征图,将上下文空间注意力特征图进行标准化,并将标准化的上下文空间注意力特征图分别进行平均通道融合与最大通道融合,然后经过通道提取,最后进行并行扩张卷积和李群Sigmoid激活处理,得到通道注意力特征图,以建立由特征提取模块、上下文空间注意力模块和通道注意力模块组成的目标模型;获取目标遥感影像,将目标遥感影像输入目标模型中,输出场景分类结果,具体的,由于目标模型包含浅层特性和高层特性,可以有效提取和学习到更具辨别力的判别特征,同时,结合李群机器学习方法,有效增强了模型的可解释性和可理解性,另外,目标模型还包含上下文空间和通道注意力机制,充分考虑了不同层次特征之间的上下文关系,并能够有效的提取到浅层特征中的关键特征信息。
附图说明
图1为本发明实施例一提供的一种遥感场景分类方法的实现流程图;
图2为提取浅层特征图和高层特征图的特征提取模块的结构示意图;
图3为上下文空间注意力模块的结构示意图;
图4为通道注意力模块的结构示意图;
图5为包含特征提取模块、上下文空间注意力模块和通道注意力模块的目标模型的结构示意图;
图6为示例图像;
图7为在URSIS数据集上的混淆矩阵;
图8为本发明实施例三提供了一种遥感场景分类系统的结构示意图;
图9为本发明实施例四当中的电子设备的结构框图。
以下具体实施方式将结合上述附图进一步说明。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
目前高分辨率遥感影像的场景分类主要存在的问题为:
(1)高分辨率遥感影像中的场景具有较高的类间相似性和类内差异性,现有大部分场景分类模型很容易造成错误分类;
(2)现有大部分深度学习模型普遍存在一个共同的问题,即很难从高分辨率遥感影像中的物理散射机制的角度提供比较清晰的物理意义和解释,即模型的可解释性和可理解性较弱;
(3)现有模型主要考虑高层语义特征信息,忽略了浅层特征和高层特征之间上下文关联关系,导致部分场景容易混淆。
为了解决上述问题,本发明提出了一种遥感场景分类方法、系统、存储介质及电子设备,具体方案详见以下实施例。
实施例一
请参阅图1,图1示出了本发明实施例一提供的一种遥感场景分类方法的实现流程图,所述方法具体包括步骤S01至步骤S06。
步骤S01,获取遥感影像样本,将所述遥感影像样本映射到李群流形空间上,得到李群样本。
由于浅层特征包含了更多的局部特征信息,可以反映高分辨率遥感影像中的更多细节信息,如轮廓、纹理结构等特征信息,所以在设计模型的时候,将场景中的浅层特征作为不可缺少的一部分,而为了提取浅层特征,首先需要将遥感影像样本转化为李群样本,具体的,获取遥感影像样本,将遥感影像样本映射到李群流形空间上,得到李群样本的步骤中,映射的表达式为:
;
其中,Dij表示为数据集中第i个类别的第j个样本,Gij表示为在李群流形空间上第i个类别的第j个样本。
步骤S02,提取所述李群样本中场景的浅层特征图,并从所述浅层特征图中提取高层特征图。
请参阅图2,为提取浅层特征图和高层特征图的特征提取模块的结构示意图,具体的,提取李群样本中场景的浅层特征图的表达式为:
;
其中,T表示矩阵的转置符号,F(x,y)表示浅层特征图,(x,y)表示目标在场景中的位置,NR、NG、NB、γ、Cb及Cr表示颜色特征,NR、NG、NB表示三基色分量,γ表示亮度分量,Cb表示蓝色色度分量,Cr表示红色色度分量,上述的颜色特征主要考虑了场景的视觉差异和光照影响,将上述两种颜色特征(NR、NG、NB为一种颜色特征,γ、Cb及Cr为另一种颜色特征)进行融合,增强了底层特征的判别力,Wave(x,y)表示小波变换,主要是为了关注场景中更多的纹理和细节特征信息,LBP(x,y)表示(x,y)像素块的8个像素与周围的3×3像素的二值运算,具有对单调光照变化的不变性优势,Gabor(x,y)表示过滤操作,可以模拟大脑皮层的单细胞感受野,能够有效提取场景中的空间位置和方向,与上述特征可以进行充分融合,有效增强场景的特征表征能力。
另外,从浅层特征图中提取高层特征图的步骤中,将浅层特征图通过4个密集模块和3个转换层,得到高层特征图,其中,每个密集模块中包括第一密集层和第二密集层,第一密集层依次由SW子层、SeLU子层以及1×1并行扩张卷积子层组成,第二密集层依次由SW子层、SeLU子层以及3×3并行扩张卷积子层组成,每个转换层依次由SW子层、SeLU子层、1×1并行扩张卷积子层以及平均池化子层组成。需要说明的是,SW子层可以有效降低高分辨率遥感影像中像素的关联度,有利于特征的对齐,而后经过SeLU子层,而非传统的ReLU层的目的在于,传统的ReLU激活函数在负半轴区域直接降为零,这样可能会导致模型在训练阶段隐藏的梯度消失,另外,为了降低模型的参数、计算复杂度和增大感受野,设置了1×1并行扩张卷积子层和3×3并行扩张卷积子层。
步骤S03,采用上采样的方式对所述浅层特征图和所述高层特征图进行标准化,将标准化的特征图分别进行平均处理和最大化处理,得到平均特征图和最大特征图,并将所述平均特征图和所述最大特征图沿着通道轴采用平均池化处理和最大池化处理,最后采用1×1并行扩张卷积和李群Sigmoid激活处理,得到空间注意力特征图。
需要说明的是,上采样是指将低分辨率的图像或特征图放大到原始分辨率的过程。在计算机视觉中,上采样通常用于图像分割、目标检测和图像生成等任务中,可以帮助提高模型的准确性和性能。另外,为了考虑全局特征,又不能忽略局部特征,因此,使用上下文空间注意力可以增强高分辨率遥感影像中的关键区域。由于浅层特征所包含的语义信息较少,无法生成有效的空间注意力,为了解决这个问题,采用了相邻层的特征来生成上下文空间注意力特征。
步骤S04,将空间注意力特征图与浅层特征图相乘,得到上下文空间注意力特征图。
请参阅图3,为上下文空间注意力模块的结构示意图,具体的,将空间注意力特征图与浅层特征图相乘,得到上下文空间注意力特征图的表达式为:
;
其中,FMn表示第n个浅层特征图,表示第n个上下文空间注意力特征图,LGSigmoid表示李群sigmoid激活函数,Pdc1表示1×1并行扩张卷积处理,Avgpool和Maxpool分别表示平均池化处理和最大池化处理,mean和max分别表示平均处理和最大化处理。上下文空间注意力模块主要是从空间维度去挖掘特征图中的重要特征信息,进一步增强了模型对高分辨率遥感影像中关键局部信息和关键小目标对象的关注。
步骤S05,获取上下文空间注意力特征图,将上下文空间注意力特征图进行标准化,并将标准化的上下文空间注意力特征图分别进行平均通道融合与最大通道融合,然后经过通道提取,最后进行并行扩张卷积和李群Sigmoid激活处理,得到通道注意力特征图,以建立由特征提取模块、上下文空间注意力模块和通道注意力模块组成的目标模型。
请参阅图4,为通道注意力模块的结构示意图,具体的,首先采用1×1并行扩张卷积处理对上下文空间注意力特征图进行标准化,进一步的,获取上下文空间注意力特征图,将上下文空间注意力特征图进行标准化,并将标准化的上下文空间注意力特征图分别进行平均通道融合与最大通道融合,然后经过通道提取,最后进行并行扩张卷积和李群Sigmoid激活处理,得到通道注意力特征图的表达式为:
;
其中,表示第n个通道注意力特征图,CSn表示第n个标准化的上下文空间注意力特征图,LGSigmoid表示李群sigmoid激活函数,Pdc1表示1×1并行扩张卷积处理,GAP表示平均通道融合,GMP表示最大通道融合。通道注意力模块主要是从通道维度上挖掘特征图中的关键特征信息,进一步增强了模型对高分辨率遥感影像中全局信息和关键目标对象的语义特征信息。
请参阅图5,为包含特征提取模块、上下文空间注意力模块和通道注意力模块的目标模型的结构示意图。
步骤S06,获取目标遥感影像,将所述目标遥感影像输入所述目标模型中,输出场景分类结果。
综上,本发明上述实施例当中的遥感场景分类方法,该方法通过获取遥感影像样本,将遥感影像样本映射到李群流形空间上,得到李群样本;提取李群样本中场景的浅层特征图,并从浅层特征图中提取高层特征图;采用上采样的方式对浅层特征图和高层特征图进行标准化,将标准化的特征图分别进行平均处理和最大化处理,得到平均特征图和最大特征图,并将平均特征图和最大特征图沿着通道轴采用平均池化处理和最大池化处理,最后采用1×1并行扩张卷积和李群Sigmoid激活处理,得到空间注意力特征图;将空间注意力特征图与浅层特征图相乘,得到上下文空间注意力特征图;获取上下文空间注意力特征图,将上下文空间注意力特征图进行标准化,并将标准化的上下文空间注意力特征图分别进行平均通道融合与最大通道融合,然后经过通道提取,最后进行并行扩张卷积和李群Sigmoid激活处理,得到通道注意力特征图,以建立由特征提取模块、上下文空间注意力模块和通道注意力模块组成的目标模型;获取目标遥感影像,将目标遥感影像输入目标模型中,输出场景分类结果,具体的,由于目标模型包含浅层特性和高层特性,可以有效提取和学习到更具辨别力的判别特征,同时,结合李群机器学习方法,有效增强了模型的可解释性和可理解性,另外,目标模型还包含上下文空间和通道注意力机制,充分考虑了不同层次特征之间的上下文关系,并能够有效的提取到浅层特征中的关键特征信息。
实施例二
本发明实施例二给出了一种遥感场景分类方法的具体应用实例,具体的, 选择了Union Remote Sensing Image数据集(URSIS),该数据集由3个公开的且具有挑战性的数据集组成,分别是UCM数据集、AID数据集和NWPU数据集。URSIS数据集共有30个类别,每个类别约有60至100幅图像,图像的分辨率为0.5m到8m,图像大小为256*256像素至600*600像素,相关信息如表1和图6所示,图6为示例图像。上述场景影像来自不同的传感器、不同的尺度、光照和不同的场景内容,对当前的目标模型进行验证。
表1.数据集信息
从实验设置的角度来看,为了避免过拟合,采用了数据增强方法,如水平和垂直旋转、随机旋转、增加对比度和高斯噪声。 旋转变换属于几何变换,是最常见的数据增强方法之一,这些变换操作主要考虑训练样本中的位置偏差。然而上述操作仅仅考虑了训练样本的位置偏差,对高分辨率遥感影像中场景的多样性却不足。为了解决这个问题,还使用了高斯噪声和增加对比度的方法。此外,还在前期的研究基础上,使用GAN(GenerativeAdversarial Network,生成式对抗网络)模型生成包含场景类别信息的数据样本。通过上述的方法来增强训练样本的数量和多样性,有益于模型进行准确的分类。
在本实验中的参数设置如表2所示,其中,选择了总体精度(OA)、混淆矩阵、标准差(SD)和Kappa系数对模型进行评价。为了消除实验的偶然性,采用随机选择训练和测试数据样本进行了10次的重复实验,以获得可靠的实验结果。
表2.实验参数设置
在本实验中,选择了基于传统的手动特征模型和基本的深度学习模型进行对比,实验结果如表3所示。从表3中可以看出,基于传统的手动特征模型,如GIST,LBP等,这些模型的分类准确率较低,具体的,当训练率为50%的情况下,GIST的分类准确率为21.35%,CH的分类准确率为32.87%,相比于这两种模型,本发明实施例提出的方法分别提高了77.61%和66.09%。相比于基于传统的手动特征模型,基本的深度学习模型的分类准确率要明显好一些,具体的,在训练率为50%的情况下,GoogLeNet(1)的分类准确率为82.13%,MGFN的分类准确率为96.32%。与GIST和CH的分类准确率相比,分类准确率分别提高了60.78%和63.45%。本文方法的分类准确率为98.96%,与VGG-D和MGFN的分类准确率相比,分别提高了15.29%和2.64%。
表3.在URSIS中,11种方法和本实施例采用的方法在20%和50%的训练率下的总体准确率(%)
从上数实验中,可以发现,基于传统的手工特征模型相比于基本的深度模型的分类准确率要低很多,即深度模型具有较大的优势。进一步,还可以发现,基于传统的手工特征模型中的特征选择主要是基于用户自身主观的思路,不能很好的表征场景的复杂性,而深度学习模型能够自主选择特征,有效提高了分类准确率。实验结果也验证了本发明提出的方法的有效性和可行性,即有效学习了浅层特征又学习了高层特征,可以较好的表征复杂的场景。
除了对上述模型进行比较外,本发明实施例还选择了一些最具代表性和最先进的模型进行比较,实验结果如表4所示。其中,当训练率为20%时,LGRIN模型的分类准确率为94.74%,DS-SURF-LLC+Mean-StdLLC+MO-CLBP-LLC模型的分类准确率为94.69%,ADPC-Net模型的分类准确率为88.61%,本发明实施例目标模型的分类准确率为95.73%,分别比上述模型提高了0.99%、1.04%和7.12%。当训练率为50%时,带有RBF核的LiG模型的分类准确率为96.22%,SE-MDPMNet模型的分类准确率为97.23%,Fine-tune MobileNet V2模型的分类准确率为96.11%,本发明实施例目标模型的准确率为98.96%,分别比上述模型高2.74%、1.73%和2.85%。上述实验结果验证了本发明实施例目标模型比其他最先进的模型具有更高的分类精度。此外,还分析了Kappa系数和SD,如表5所示。具体而言,DenseNet121模型的Kappa系数为93.83%,RSNet模型的Kappa系数为96.43%,本发明实施例目标模型的Kappa系数为97.67%,比Fine-tune MobileNet V2模型高2.81%,比SPG-GAN模型高4.42%。在SD方面,本发明实施例目标模型为0.25,与SCHFMS模型相比减少了0.12,与Contourlet CNN模型相比减少了0.19。从以上实验结果来看,本发明实施例目标模型具有分类精度高、参数少的优点。在最坏的情况下,本发明实施例目标模型的时间复杂度为O(n2),在最好的情况下,本发明实施例目标模型的时间复杂度为O(nlog2n)。
表4.在URSIS中,27种方法和本实施例采用的方法在20%和50%的训练率下的总体准确率(%)
表5.在URSIS中,27种方法和本实施例采用的方法在50%的训练率下的总体准确率(%)、Kappa系数和标准差
请参阅图7,为在URSIS数据集上的混淆矩阵,其中主对角线的数值表示场景的分类精度,具体的Ape表示飞机,Apt表示飞机场,Bbd表示棒球场,Bbc表示篮球场,Brg表示桥,Chh表示教堂,Cma表示商业区,Drd表示高密度住宅区,Fst表示森林,Fry表示高速路,Gfc表示高尔夫球场,Gtf表示田径场,Hbr表示海湾,Ind表示工业区,Int表示十字路口,Lke表示湖泊,Med表示草地,Mrl表示中密度住宅区,Mnt表示山丘,Ops表示立交桥,Ple表示王宫,Rws表示火车站,Rdb表示环形交叉路口,Shp表示船,Spr表示低密度住宅区,Stm表示体育场,Stk表示储罐,Tec表示网球场,Tps表示热力发电厂,Wld表示湿地。从图中可以发现,大部分的分类准确率大于95%,即可以正确区分大部分的场景。在一些场景中,准确率相对较低,比如高密度住宅区和中密度住宅区,主要是因为这两类场景的结构和风格非常相似,另外,经过进一步分析,这两类场景的特征图也非常相似,这是造成这两类场景混淆的主要原因。
本发明实施例提出的目标模型能够达到较高分类准确率的原因主要包括:(1)与目前最先进的场景分类模型相比,该目标模型不仅可以有效地学习高层特征,还可以保留较浅的特征,使较浅的特征可以直接参与模型的训练过程,增强了场景的特征表示能力,提高了模型的场景分类性能;(2)提出了一种新的语境空间注意模块和通道注意模块。上述两个关注模块充分考虑了上下文之间的关系和相邻层之间的关系,能够有效地提取较浅特征的关键信息,并将其与高层语义特征信息相结合。两个模块的融合丰富了模型的特征,增强了模型的判别能力;(3)所提出的模型还充分考虑了模型的计算性能。在模型设计过程中,该模型采用并行扩展卷积,既扩展了接收野,又不增加模型参数。此外,为了提高场景的分类精度,采用了李群Sigmoid、BW和SeLU方法。有效地增强了模型的鲁棒性。如表6所示,可以发现,与目前最先进的场景分类模型相比,该目标模型包含了较浅的和高层特征,但本发明实施例提出的目标模型中的参数数量并没有增加太多,这主要是因为采用了并行展开卷积运算,减少了特征参数的数量。此外,还充分考虑了不同层之间的上下文关系,有效地减少了冗余特征,并进一步降低了特征的维数。考虑到以上因素,本发明实施例提出的目标模型比其他模型更具竞争力,可以从高分辨率遥感影像物理散射机制的角度提供明确的物理意义和解释,提高了模型的可解释性和可理解性。
表6.各模型的评估
具体的,进一步分析上述实验结果的主要原因:(1)与目前最先进的场景分类模型相比,本发明实施例提出的目标模型不仅提取了场景的高级语义特征,而且有效提取了场景的较浅特征,使较浅特征可以直接参与模型的训练,较浅特征被整合到高层特征提取模块中,这些操作有利于场景的识别和分类。(2)模型中的语境空间注意模块和通道注意模块,可以提取不同层次、维度、尺度的浅层和高层特征,并关注纹理、结构等细节,从而增强其权重,有助于提高对混淆场景的分类。(3)采用并行展开卷积、SeLU激活函数等操作,有效减少冗余特征和特征维数,提高场景分类的准确率,提高模型的计算性能。
实施例三
请参阅图8,为本发明实施例三提供了一种遥感场景分类系统的结构示意图,所述遥感场景分类系统200具体包括:
映射模块21,用于获取遥感影像样本,将所述遥感影像样本映射到李群流形空间上,得到李群样本,其中,映射的表达式为:
;
其中,Dij表示为数据集中第i个类别的第j个样本,Gij表示为在李群流形空间上第i个类别的第j个样本;
提取模块22,用于提取所述李群样本中场景的浅层特征图,并从所述浅层特征图中提取高层特征图,其中,提取所述李群样本中场景的浅层特征图的表达式为:
;
其中,F(x,y)表示浅层特征图,(x,y)表示目标在场景中的位置,NR、NG、NB、γ、Cb及Cr表示颜色特征,Wave(x,y)表示小波变换,LBP(x,y)表示(x,y)像素块的8个像素与周围的3×3像素的二值运算,Gabor(x,y)表示过滤操作,T表示矩阵的转置符号另外,所述从所述浅层特征图中提取高层特征图的步骤中,将所述浅层特征图通过4个密集模块和3个转换层,得到所述高层特征图,其中,每个所述密集模块中包括第一密集层和第二密集层,第一密集层依次由SW子层、SeLU子层以及1×1并行扩张卷积子层组成,第二密集层依次由SW子层、SeLU子层以及3×3并行扩张卷积子层组成,每个所述转换层依次由SW子层、SeLU子层、1×1并行扩张卷积子层以及平均池化子层组成;
空间注意力特征图获取模块23,用于采用上采样的方式对所述浅层特征图和所述高层特征图进行标准化,将标准化的特征图分别进行平均处理和最大化处理,得到平均特征图和最大特征图,并将所述平均特征图和所述最大特征图沿着通道轴采用平均池化处理和最大池化处理,最后采用1×1并行扩张卷积和李群Sigmoid激活处理,得到空间注意力特征图;
上下文空间注意力特征图获取模块24,用于将空间注意力特征图与浅层特征图相乘,得到上下文空间注意力特征图,其中,将空间注意力特征图与浅层特征图相乘,得到上下文空间注意力特征图的表达式为:
;
其中,FMn表示第n个浅层特征图,表示第n个上下文空间注意力特征图,LGSigmoid表示李群sigmoid激活函数,Pdc1表示1×1并行扩张卷积处理,Avgpool和Maxpool分别表示平均池化处理和最大池化处理,mean和max分别表示平均处理和最大化处理;
通道注意力特征图获取模块25,用于获取上下文空间注意力特征图,将上下文空间注意力特征图进行标准化,并将标准化的上下文空间注意力特征图分别进行平均通道融合与最大通道融合,然后经过通道提取,最后进行并行扩张卷积和李群Sigmoid激活处理,得到通道注意力特征图,以建立由特征提取模块、上下文空间注意力模块和通道注意力模块组成的目标模型,其中,采用1×1并行扩张卷积处理对上下文空间注意力特征图进行标准化,所述获取上下文空间注意力特征图,将上下文空间注意力特征图进行标准化,并将标准化的上下文空间注意力特征图分别进行平均通道融合与最大通道融合,然后经过通道提取,最后进行并行扩张卷积和李群Sigmoid激活处理,得到通道注意力特征图的表达式为:
;
其中,表示第n个通道注意力特征图,CSn表示第n个标准化的上下文空间注意力特征图,LGSigmoid表示李群sigmoid激活函数,Pdc1表示1×1并行扩张卷积处理,GAP表示平均通道融合,GMP表示最大通道融合;
输入模块26,用于获取目标遥感影像,将所述目标遥感影像输入所述目标模型中,输出场景分类结果。
实施例四
本发明另一方面还提出一种电子设备,请参阅图9,所示为本发明实施例四当中的电子设备的结构框图,包括存储器20、处理器10以及存储在存储器上并可在处理器上运行的计算机程序30,所述处理器10执行所述计算机程序30时实现如上述的遥感场景分类方法。
其中,处理器10在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器20中存储的程序代码或处理数据,例如执行访问限制程序等。
其中,存储器20至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器20在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的硬盘。存储器20在另一些实施例中也可以是电子设备的外部存储装置,例如电子设备上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(FlashCard)等。进一步地,存储器20还可以既包括电子设备的内部存储单元也包括外部存储装置。存储器20不仅可以用于存储电子设备的应用软件及各类数据,还可以用于暂时地存储已经输出或者将要输出的数据。
需要指出的是,图9示出的结构并不构成对电子设备的限定,在其它实施例当中,该电子设备可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
本发明实施例还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述的遥感场景分类方法。
本领域技术人员可以理解,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或它们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (9)
1.一种遥感场景分类方法,其特征在于,所述方法包括:
获取遥感影像样本,将所述遥感影像样本映射到李群流形空间上,得到李群样本;
提取所述李群样本中场景的浅层特征图,并从所述浅层特征图中提取高层特征图;
采用上采样的方式对所述浅层特征图和所述高层特征图进行标准化,将标准化的特征图分别进行平均处理和最大化处理,得到平均特征图和最大特征图,并将所述平均特征图和所述最大特征图沿着通道轴采用平均池化处理和最大池化处理,最后采用1×1并行扩张卷积和李群Sigmoid激活处理,得到空间注意力特征图;
将空间注意力特征图与浅层特征图相乘,得到上下文空间注意力特征图;
获取上下文空间注意力特征图,将上下文空间注意力特征图进行标准化,并将标准化的上下文空间注意力特征图分别进行平均通道融合与最大通道融合,然后经过通道提取,最后进行并行扩张卷积和李群Sigmoid激活处理,得到通道注意力特征图,以建立由特征提取模块、上下文空间注意力模块和通道注意力模块组成的目标模型;
获取目标遥感影像,将所述目标遥感影像输入所述目标模型中,输出场景分类结果;
所述从所述浅层特征图中提取高层特征图的步骤中,将所述浅层特征图通过4个密集模块和3个转换层,得到所述高层特征图,其中,每个所述密集模块中包括第一密集层和第二密集层,第一密集层依次由SW子层、SeLU子层以及1×1并行扩张卷积子层组成,第二密集层依次由SW子层、SeLU子层以及3×3并行扩张卷积子层组成,每个所述转换层依次由SW子层、SeLU子层、1×1并行扩张卷积子层以及平均池化子层组成。
2.根据权利要求1所述的遥感场景分类方法,其特征在于,所述获取遥感影像样本,将所述遥感影像样本映射到李群流形空间上,得到李群样本的步骤中,映射的表达式为:
;
其中,Dij表示为数据集中第i个类别的第j个样本,Gij表示为在李群流形空间上第i个类别的第j个样本。
3.根据权利要求2所述的遥感场景分类方法,其特征在于,所述提取所述李群样本中场景的浅层特征图的步骤中,提取所述李群样本中场景的浅层特征图的表达式为:
;
其中,F(x,y)表示浅层特征图,(x,y)表示目标在场景中的位置,NR、NG、NB、γ、Cb及Cr表示颜色特征,Wave(x,y)表示小波变换,LBP(x,y)表示(x,y)像素块的8个像素与周围的3×3像素的二值运算,Gabor(x,y)表示过滤操作,T表示矩阵的转置符号。
4.根据权利要求3所述的遥感场景分类方法,其特征在于,所述将空间注意力特征图与浅层特征图相乘,得到上下文空间注意力特征图的步骤中,将空间注意力特征图与浅层特征图相乘,得到上下文空间注意力特征图的表达式为:
;
其中,FMn表示第n个浅层特征图,表示第n个上下文空间注意力特征图,LGSigmoid表示李群sigmoid激活函数,Pdc1表示1×1并行扩张卷积处理,Avgpool和Maxpool分别表示平均池化处理和最大池化处理,mean和max分别表示平均处理和最大化处理。
5.根据权利要求4所述的遥感场景分类方法,其特征在于,所述获取上下文空间注意力特征图,将上下文空间注意力特征图进行标准化的步骤中,采用1×1并行扩张卷积处理对上下文空间注意力特征图进行标准化。
6.根据权利要求5所述的遥感场景分类方法,其特征在于,所述获取上下文空间注意力特征图,将上下文空间注意力特征图进行标准化,并将标准化的上下文空间注意力特征图分别进行平均通道融合与最大通道融合,然后经过通道提取,最后进行并行扩张卷积和李群Sigmoid激活处理,得到通道注意力特征图的表达式为:
;
其中,表示第n个通道注意力特征图,CSn表示第n个标准化的上下文空间注意力特征图,LGSigmoid表示李群sigmoid激活函数,Pdc1表示1×1并行扩张卷积处理,GAP表示平均通道融合,GMP表示最大通道融合。
7.一种遥感场景分类系统,其特征在于,所述系统包括:
映射模块,用于获取遥感影像样本,将所述遥感影像样本映射到李群流形空间上,得到李群样本;
提取模块,用于提取所述李群样本中场景的浅层特征图,并从所述浅层特征图中提取高层特征图,其中,将所述浅层特征图通过4个密集模块和3个转换层,得到所述高层特征图,其中,每个所述密集模块中包括第一密集层和第二密集层,第一密集层依次由SW子层、SeLU子层以及1×1并行扩张卷积子层组成,第二密集层依次由SW子层、SeLU子层以及3×3并行扩张卷积子层组成,每个所述转换层依次由SW子层、SeLU子层、1×1并行扩张卷积子层以及平均池化子层组成;
空间注意力特征图获取模块,用于采用上采样的方式对所述浅层特征图和所述高层特征图进行标准化,将标准化的特征图分别进行平均处理和最大化处理,得到平均特征图和最大特征图,并将所述平均特征图和所述最大特征图沿着通道轴采用平均池化处理和最大池化处理,最后采用1×1并行扩张卷积和李群Sigmoid激活处理,得到空间注意力特征图;
上下文空间注意力特征图获取模块,用于将空间注意力特征图与浅层特征图相乘,得到上下文空间注意力特征图;
通道注意力特征图获取模块,用于获取上下文空间注意力特征图,将上下文空间注意力特征图进行标准化,并将标准化的上下文空间注意力特征图分别进行平均通道融合与最大通道融合,然后经过通道提取,最后进行并行扩张卷积和李群Sigmoid激活处理,得到通道注意力特征图,以建立由特征提取模块、上下文空间注意力模块和通道注意力模块组成的目标模型;
输入模块,用于获取目标遥感影像,将所述目标遥感影像输入所述目标模型中,输出场景分类结果。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6任一项所述的遥感场景分类方法。
9.一种电子设备,其特征在于,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1-6任一项所述的遥感场景分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311429760.XA CN117152546B (zh) | 2023-10-31 | 2023-10-31 | 一种遥感场景分类方法、系统、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311429760.XA CN117152546B (zh) | 2023-10-31 | 2023-10-31 | 一种遥感场景分类方法、系统、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117152546A CN117152546A (zh) | 2023-12-01 |
CN117152546B true CN117152546B (zh) | 2024-01-26 |
Family
ID=88910545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311429760.XA Active CN117152546B (zh) | 2023-10-31 | 2023-10-31 | 一种遥感场景分类方法、系统、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117152546B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115046545A (zh) * | 2022-03-29 | 2022-09-13 | 哈尔滨工程大学 | 一种深度网络与滤波结合的定位方法 |
CN115631427A (zh) * | 2022-10-21 | 2023-01-20 | 西北工业大学 | 一种基于混合注意力多场景船舶检测分割方法 |
CN115641507A (zh) * | 2022-11-07 | 2023-01-24 | 哈尔滨工业大学 | 基于自适应多层级融合的遥感图像小尺度面目标检测方法 |
WO2023010831A1 (zh) * | 2021-08-03 | 2023-02-09 | 长沙理工大学 | 提高图像分辨率的方法、系统、装置及存储介质 |
CN116630704A (zh) * | 2023-05-23 | 2023-08-22 | 电子科技大学 | 一种基于注意力增强和密集多尺度的地物分类网络模型 |
CN116912708A (zh) * | 2023-07-20 | 2023-10-20 | 重庆邮电大学 | 一种基于深度学习的遥感影像建筑物提取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287978B (zh) * | 2020-10-07 | 2022-04-15 | 武汉大学 | 一种基于自注意力上下文网络的高光谱遥感图像分类方法 |
-
2023
- 2023-10-31 CN CN202311429760.XA patent/CN117152546B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023010831A1 (zh) * | 2021-08-03 | 2023-02-09 | 长沙理工大学 | 提高图像分辨率的方法、系统、装置及存储介质 |
CN115046545A (zh) * | 2022-03-29 | 2022-09-13 | 哈尔滨工程大学 | 一种深度网络与滤波结合的定位方法 |
CN115631427A (zh) * | 2022-10-21 | 2023-01-20 | 西北工业大学 | 一种基于混合注意力多场景船舶检测分割方法 |
CN115641507A (zh) * | 2022-11-07 | 2023-01-24 | 哈尔滨工业大学 | 基于自适应多层级融合的遥感图像小尺度面目标检测方法 |
CN116630704A (zh) * | 2023-05-23 | 2023-08-22 | 电子科技大学 | 一种基于注意力增强和密集多尺度的地物分类网络模型 |
CN116912708A (zh) * | 2023-07-20 | 2023-10-20 | 重庆邮电大学 | 一种基于深度学习的遥感影像建筑物提取方法 |
Non-Patent Citations (3)
Title |
---|
Lie Group spatial attention mechanism model for remote sensing scene classification;Chengjun Xu;《International Journal of Remote Sensing》;第43卷(第7期);2461-2474 * |
Multi-feature Dynamic Fusion Cross-Domain Scene Classification Model Based on Lie Group Space;《remote sensing》;第15卷(第19期);1-15 * |
基于融合注意力机制的小样本遥感场景分类方法;李子茂;《国外电子测量技术》;第42卷(第7期);59-67 * |
Also Published As
Publication number | Publication date |
---|---|
CN117152546A (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110443143B (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
He et al. | Remote sensing scene classification using multilayer stacked covariance pooling | |
CN110348319B (zh) | 一种基于人脸深度信息和边缘图像融合的人脸防伪方法 | |
Zhao et al. | Object-based convolutional neural network for high-resolution imagery classification | |
Wang et al. | Deep networks for saliency detection via local estimation and global search | |
Ravì et al. | Semantic segmentation of images exploiting DCT based features and random forest | |
Christlein et al. | An evaluation of popular copy-move forgery detection approaches | |
Ren et al. | Region-based saliency detection and its application in object recognition | |
Wang et al. | Joint learning of visual attributes, object classes and visual saliency | |
CN110309856A (zh) | 图像分类方法、神经网络的训练方法及装置 | |
Woźniak et al. | Graphic object feature extraction system based on cuckoo search algorithm | |
CN104063721B (zh) | 一种基于语义特征自动学习与筛选的人类行为识别方法 | |
Lu et al. | Learning attention map from images | |
Sun et al. | Marine ship instance segmentation by deep neural networks using a global and local attention (GALA) mechanism | |
Uma et al. | Copy-move forgery detection of digital images using football game optimization | |
CN116310795A (zh) | 一种sar飞机检测方法、系统、装置及存储介质 | |
CN113902978B (zh) | 基于深度学习的可解释性sar图像目标检测方法及系统 | |
CN114782979A (zh) | 一种行人重识别模型的训练方法、装置、存储介质及终端 | |
CN117152546B (zh) | 一种遥感场景分类方法、系统、存储介质及电子设备 | |
Xu et al. | Lie Group spatial attention mechanism model for remote sensing scene classification | |
Sassi et al. | Sky-CNN: a CNN-based learning approach for skyline scene understanding | |
Estrada et al. | Appearance-based keypoint clustering | |
CN115205624A (zh) | 一种跨维度注意力聚合的云雪辩识方法、设备及存储介质 | |
BenHajyoussef et al. | Recent Advances on Image Edge Detection | |
Li et al. | A pre-training strategy for convolutional neural network applied to Chinese digital gesture recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |