CN117496347A

CN117496347A - 遥感影像建筑物提取方法、装置及介质

Info

Publication number: CN117496347A
Application number: CN202311455216.2A
Authority: CN
Inventors: 熊永柱; 龙超活
Original assignee: Jiaying University
Current assignee: Jiaying University
Priority date: 2023-11-02
Filing date: 2023-11-02
Publication date: 2024-02-02

Abstract

本发明公开了一种遥感影像建筑物提取方法、装置及介质，方法包括：获取建筑物目标数据集，所述建筑物目标数据集包括多个图像数据；构建深度学习模型，所述深度学习模型包括编码器和解码器，所述编码器中融合有多个特征提取模块，以基于输入的图像数据在不同层级改变特征图的空间尺度，获得图像多尺度的语义信息，所述解码器用于将图像多尺度的语义信息进行融合以及恢复图像尺度；利用所述建筑物目标数据集对所述深度学习模型进行训练；以训练好的深度学习模型实现遥感影像中的建筑物提取。本发明可以很好的在复杂场景上进行建筑物精细化提取，在所在试验区域均取得了平均86.50％的提取精度。

Description

遥感影像建筑物提取方法、装置及介质

技术领域

本发明属于图像处理技术领域，更具体地，涉及一种遥感影像建筑物提取方法、装置及介质。

背景技术

遥感图像的语义分割，又称为土地覆盖分类，是指将遥感图像中的每一个像素分配类别，以实现对地物的自动识别与分类，它在环境变化监测、精准农业、环境保护、城市规划和三维建模等许多遥感应用中发挥着重要作用。而及时获取最新的建筑物数据对于城市可持续发展、城市管理和区划、城市扩张监测、人口估计和灾害风险管理等地理应用非常重要，因此建筑物的提取研究是目前遥感地物信息提取的热点。

在计算机和航天航空等技术发展的推动下，各类遥感平台取得了大量高质量、高分辨率的遥感图像，使得快速且高效精确获取大范围的建筑物提取结果成为可能。与之前的影像相比，高分辨率影像的地物细节信息更为丰富、几何结构和纹理特征等更为明显，但随之带来很多的噪声和冗余信息。由于地物具多样性及复杂性，高空间分辨率遥感影像在语义对象层面往往表现出较大的类内变化和较少的类间变化。因此从高空间分辨率遥感影像上准确的提取建筑物仍然是一个具有挑战性任务。

实景三维、数字孪生和时空AI(Artificial Intelligence)是智慧城市建设的重要组成部分，而在这其中建筑物数据是尤为重要的数据源。但是无论是人工测绘还是人机交互等传统解译方法都存在成本高、耗时长等问题，远远不能满足智慧城市各环节的建设需求。因此如何快速高效从海量的高分辨遥感影像中提取建筑物信息是智慧城市的数据基底的重要问题之一。目前建筑物的自动化提取已有较多学者进行了研究，但大多数方法不具备泛用性，如借助多源数据融合、结合传统机器学习和人机交互的方法等。因此基于高分辨率遥感的建筑物自动化提取具有重要的实用价值和学术意义。

早在20世纪80年代基于遥感影像的建筑物提取的研究就已经开始，早期的遥感图像建筑物分割利用阈值法、边缘检测法、区域分割法和辅助信息等方法手工提取特征作为判断依据。如文献《张亚一,费鲜芸,王健,等.基于高分辨率遥感影像的建筑物提取方法综述[J].测绘与空间地理信息,2020,43(4):76-79.》，在建筑物和阴影关系的基础上，建立了建筑物高度和阴影间的几何模型，即阈值法进行分割提取建筑物，该方法存在不确定性，阈值难以确定，阈值的大小直接影响结果的好坏；而边缘检测法和区域分割法都是利用像元特征之间的相关关系进行分割提取，边缘检测法与阈值法相比，可以获取较高的提取精度，但会存在边界模糊、不完整等问题；区域分割法采用多特征结合的方式，可有效提高建筑物提取精度，该方法解决了建筑物提取过程中的椒盐噪声的问题，但由于是分级提取的规则导致了对象与分割结果存在不确定的空间关系，无法将提取的上下文特征相联系，影响建筑物提取精度。

此外，如决策树、支持向量机(Support Vector Machine,SVM)和随机森林等机器学习方法也可用于建筑物的分割，以上所提方法依赖人工及参数选择，在面对多源异构的遥感数据时，不能适用于复杂场景的建筑物提取，存在人工特征选择花费时间长，提取效率低下等问题。

随着计算机硬件的不断发展和可用数据集的不断增加，深度学习已经广泛应用于自然语言处理、计算机视觉等领域。特别是在2012年Krizhevsky等人使用AlexNet卷积神经网络(Convolutional Neural Network，CNN)在ImageNet挑战赛上取得的成功，标志着卷积神经网络在计算机视觉领域的崛起(Krizhevsky A,Sutskever I,Hinton G E.ImageNetclassification with deep convolutional neural networks[J].Communications ofthe ACM,2017,60(6):84-90.)。卷积神经网络通过卷积操作提取并学习输入图像的特征，再通过池化全连接等一系列层输出结果。与传统的机器学习相比，深度学习具有从数据中自我特征学习的能力，可以解决更为复杂的问题，效果优于传统的机器学习方法。然而，CNN模型的全连接层会将特征图处理为固定长度的输出向量,并以数值描述的形式进行结果输出，以GoogLeNet、ResNet等为代表的CNN模型结构只适合于图像级分类和回归任务，并不适合建筑物提取这类语义分割任务。

《Fully Convolutional Networks，FCN)，改进了CNN以实现像素级语义分割[LongJ,Shelhamer E,Darrell T.Fully convolutional networks for semanticsegmentation[A],Proceedings of the IEEE Conference on Computer Vision andPattern Recognition.Boston USA,2015[C],Boston:The Institute of Electrical andElectronics Engineers,2015:3431-3440.》在2015年提出了全卷积网络。随后出现了一批以FCN网络为基础架构的语义分割模型。《Ronneberger O,Fischer P,Thomas B,et al.U-net:Convolutional networks for biomedical image segmentation[A],Medical ImageComputing and Computer-Assisted Intervention–MICCAI.Munich Germany,2015[C],Berlin:Springer International Publishing,2015:234-241.》在U-Net上引入U型结构和跳跃连接层融合图像多尺度特征。《Chen L C,Papandreou G,Schroff F,etal.Rethinking Atrous Convolution for Semantic Image Segmentation[J].arXivpreprint arXiv:1706.05587,2017:1-14.》提出的DeepLabV3网络中整合膨胀卷积(Atrous)来增加感受野，同时使用了多尺度输入和CRF后处理来进一步提高分割精度，DeepLabV3+是DeepLabV3的改进版本，该模型在原有版本的基础上添加了ASSP模块(AtrousSpatial Pyramid Pooling)可以更好的利用多尺度特征图进行图像分割。在建筑物分割场景领域，已有不少学者提出解决方案。《Marmanis D,Schindler K,Wegner J D,etal.Classification with an edge:Improving semantic image segmentation withboundary detection[J].ISPRS Journal of Photogrammetry and Remote Sensing,2018,135:158-172.》通过将边缘检测器集成至网络中正则化建筑物边界，在ISPRSVaihingen数据上准确率达到了93.80％。《Pan X,Yang F,Gao L,et al.Buildingextraction from high-resolution aerial imagery using a generative adversarialnetwork with spatial and channel attention mechanisms[J].Remote Sensing,2019,11(8):917.》采用具有空间和通道抑制机制的生成性对抗网络(GAN)，在高分辨率航空图像INRIA数据集进行建筑物提取，准确度为96.61％。《刘亦凡,张秋昭,王光辉,等.利用深度残差网络的遥感影像建筑物提取[J].遥感信息,2020,35(2):59-64.》提出一种结合深度残差网络和金字塔式层级链接的高分辨率遥感影像建筑物提取方法，并对提取结果进行形态学运算的后处理，模型预测精度明显优于开源网络(武花.基于深度学习的复杂场景下建筑物提取方法研究[D].广州:广州大学,2021.5-6.)。《Guo H,Du B,Zhang L,et al.Acoarse-to-fine boundary refinement network for building footprint extraction fromremote sensing imagery[J].ISPRS Journal of Photogrammetry and Remote Sensing,2022,183(16):240-252.》提出一种由粗到细的边界细化网络(CBR-Net)，该网络具有BR模块，可细化建筑物边缘的能力,能提高模型预测结果精度。

综上所述，前人研究方法多采用公开的高分辨率数据集。此类数据集图像质量好，场景简单，建筑物类型单一等。模型在复杂场景下建筑物提取的泛用性效果较差。同时现有的开源深度学习模型对建筑物分割存在边界不精确、分割大尺度目标存在孔洞问题，小目标漏分割、网络模型参数大等问题。

发明内容

提供了本发明以解决现有技术中存在的上述问题。因此，需要一种遥感影像建筑物提取方法、装置及介质，深度学习模型必须定制化并与遥感图像建筑物特征提取相适应，从而提高深度学习方法在建筑物提取中的性能。在本发明中，以高分辨率遥感图像建筑物分割准确度和模型泛用性为目标，提出一种多注意力机制多尺度特征增强型的语义分割网络用于高分辨遥感影像建筑物提取。

根据本发明的第一方案，提供了一种遥感影像建筑物提取方法，所述方法包括：

获取建筑物目标数据集，所述建筑物目标数据集包括多个图像数据；

构建深度学习模型，所述深度学习模型包括编码器和解码器，所述编码器中融合有多个特征提取模块，以基于输入的图像数据在不同层级改变特征图的空间尺度，获得图像多尺度的语义信息，所述解码器用于将图像多尺度的语义信息进行融合以及恢复图像尺度；

利用所述建筑物目标数据集对所述深度学习模型进行训练；

以训练好的深度学习模型实现遥感影像中的建筑物提取。

进一步地，所述编码通过如下公式实现图像尺度退化：

y_ij＝f_k({X_i+δi,j+δj}_{0≤δi,δj＜k})

式中，x_ij为输入特征图中(i,j)位置的数据向量，f_k为核大小为k的卷积运算，y_ij为输出特征图。

进一步地，所述解码器通过如下公式实现图像尺度的恢复：

x′＝C′^T·y′

y＝C·x

x′_ij＝g_k({Y′_l+δi,j+δj}_{0≤δi,δj＜k})

式中，g_k为转置卷积运算，C为稀疏矩阵，x′、y′和C′^T的大小分别与x、y、C^T大小相同。

进一步地，所述多个特征提取模块包括第一特征提取模块，所述第一特征提取模块用于实现图像数据的低尺度特征提取。

进一步地，所述多个特征提取模块包括第二特征提取模块，所述第二特征提取模块包括空洞空间卷积池化金字塔模块和条形池化模块，所述空洞空间卷积池化金字塔模块包括依次连接的五个卷积层，其中第一个卷积层用于调整通道数，得到第一层的特征层，第二个卷积层到第五个卷积层的输入是前面所有卷积层的输出以及输入的特征图，所述输入的特征图通过编码器对图像数据进行图像尺度退化得到，所述条形池化模块连接第五个卷积层，通过将特征图划分为水平或者垂直条带，并对每个条带进行最大池化，来获取不同位置的上下文信息，将五个卷积层以及条形池化模块的输出的特征进行拼接融合，得到中尺度特征。

进一步地，所述多个特征提取模块包括第三特征提取模块，所述第三特征提取模块包括空间注意力机制模块、通道注意力机制模块和融合模块，所述空间注意力机制模块和通道注意力机制模块以并联的方式处理图像特征；

所述空间注意力机制模块被配置为基于输入的特征图进行降维操作，分别获取最大池化和平均池化结果，将最大池化和平均池化结果进行拼接融合，并通过一个卷积层进行特征学习，最后通过激活函数输出第一特征图；

所述通道注意力机制模块被配置为基于输入的特征图进行最大池化和平均池化，并通过多个MLP层获得变换结果，最后分别应用于两个通道，再使用激活函数输出第二特征图；

所述融合模块被配置为将第一特征图和第二特征图拼接融合，得到高尺度特征。

进一步地，在所述解码器中，令中尺度特征和高尺度特征进行双线性上采样，再与低尺度特征提取进行特征连接融合进行后续解码。

进一步地，在利用所述建筑物目标数据集对所述深度学习模型进行训练时，通过二元交叉熵函数来衡量模型损失，所述二元交叉熵函数表示为：

式中，y和的取值范围为0～1，分别代表真实值和预测值，N是预测的数量。

根据本发明的第二技术方案，提供一种遥感影像建筑物提取装置，所述装置包括：

数据获取单元，被配置为获取建筑物目标数据集，所述建筑物目标数据集包括多个图像数据；

模型构建单元，被配置为构建深度学习模型，所述深度学习模型包括编码器和解码器，所述编码器中融合有多个特征提取模块，以基于输入的图像数据在不同层级改变特征图的空间尺度，获得图像多尺度的语义信息，所述解码器用于将图像多尺度的语义信息进行融合以及恢复图像尺度；

模型训练单元，被配置为利用所述建筑物目标数据集对所述深度学习模型进行训练；

建筑物提取单元，被配置为以训练好的深度学习模型实现遥感影像中的建筑物提取。

进一步地，所述编码通过如下公式实现图像尺度退化：

y_ij＝f_k({X_i+δi,j+δj}_{0≤δi,δj＜k})

进一步地，所述解码器通过如下公式实现图像尺度的恢复：

x′＝C′^T·y′

y＝C·x

x′_ij＝g_k({Y′_l+δi,j+δj}_{0≤δi,δj＜k})

式中，g_k为转置卷积运算，x′_ij为，Y′_l+δi,j+δj为，C为稀疏矩阵，w_0,0为，w_2,2为，x、y、C^T分别为，x′、y′和C′^T分别为，x′、y′和C′^T的大小分别与x、y、C^T大小相同。

需要说明的是，本发明所述的装置与在先阐述的方法属于同一技术思路，能够起到的同样的技术效果，此处不赘述。

根据本发明的第三技术方案，提供一种可读存储介质，所述可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上所述的方法。

本发明至少具有以下有益效果：

本发明对建筑物分割不存在边界不精确、分割大尺度目标存在孔洞问题，小目标漏分割、网络模型参数大等问题，通过测试表明，本发明可以很好的在复杂场景上进行建筑物精细化提取，在所在试验区域均取得了平均86.50％的提取精度。

附图说明

图1为根据本发明实施例的一种遥感影像建筑物提取方法的流程图；

图2为根据本发明实施例的数据增强效果图；

图3为根据本发明实施例的数据集场景示例图；

图4为根据本发明实施例的语义分割中的编码器解码器结构图；

图5为根据本发明实施例的深度学习模型的整体架构图；

图6为根据本发明实施例的卷积、反卷积和空洞卷积过程的图示；

图7为根据本发明实施例的空洞空间卷积池化金字塔模块和条形池化模块组装示意图；

图8为根据本发明实施例的条形池化模块运算过程示意图；

图9为根据本发明实施例的通道注意力机制和空间注意力机制结构示意图；

图10为根据本发明实施例的城市、农村、薄雾和阴影场景的生产者精度比较图；

图11为根据本发明实施例的城市、农村、薄雾和阴影场景的用户精度比较图；

图12为根据本发明实施例的各场景对应各方法的预测效果图；

图13为根据本发明实施例的BuildingNet模型预测效果示例1；

图14为根据本发明实施例的BuildingNet模型预测效果示例2。

具体实施方式

为使本领域技术人员更好的理解本发明的技术方案，下面结合附图和具体实施方式对本发明作详细说明。下面结合附图和具体实施例对本发明的实施例作进一步详细描述，但不作为对本发明的限定。本文中所描述的各个步骤，如果彼此之间没有前后关系的必要性，则本文中作为示例对其进行描述的次序不应视为限制，本领域技术人员应知道可以对其进行顺序调整，只要不破坏其彼此之间的逻辑性导致整个流程无法实现即可。

本发明实施例提供一种遥感影像建筑物提取方法，该方法应用于复杂背景下的建筑物提取，旨在提升建筑物的提取精度。如图1所示，为该方法的流程图，该方法包括以下步骤S100-S400。

步骤S100，获取建筑物目标数据集，所述建筑物目标数据集包括多个图像数据。

示例性的，本实施例通过融合开源遥感数据集和自制数据的方式构建用于模型训练的建筑物目标数据集。自制数据采用国产卫星GF-2、JL-1、TRIPLESAT-2作为数据源(数据来源于高分辨率对地观测系统广东数据与应用中心)，选取2022年1-7月云量低于10％的广东省部分区域的影像，通过编写Python程序对影像进行辐射校正、地形校正、多光谱全色波段融合等影像预处理操作，输出真彩色影像。建筑物样本制作采用ArcGIS10.8.2软件进行人工手动目视标注，人工标注共有1476张大小为512×512像素的遥感图像。

开源数据集则选取了国际上广泛运用于建筑物语义分割研究中的多个不同建筑物特点、场景丰富的高分辨率可见光图像数据集，具体为Aerial Image SegmentationDataset、INRIA Aerial Image Dataset、Description of the WHU Building Dataset，将以上开源数据集清洗融合，原始数据共68564张图像。采用PASCAL VOC数据组织格式存储数据(训练集，验证集按80％：20％比例划分),并将数据集命名为地表建筑数据集(EarthSurface Building Dataset，ESBD)。数据集具体说明如下表1所示。

表1.数据集说明

在获取到如上数据集后，本实施例还对数据集进行了数据增强。数据增强(DataAugmentation)是一种在数据集有限的情况下产生更多的等价数据来人工扩张训练数据集的技术。该技术是克服训练数据不足的有效方法，目前在深度学习各领域应用广泛。遥感影像具有特殊性，与普通的图像既有相似又有不同，普通的数据增强方法不一定都适用。针对遥感数据的特点及本论文的研究需要，采用随机缩放旋转(d)、随机垂直翻转(e)、随机水平翻转(f)及通过训练GAN(生成式对抗网络)网络进行雾(b)、阴影(c)和光照风格(a)转换方法进行数据增强。以上增强方法采用随机方式对数据进行增强，经增强后训练数据集共137128张图像，增强效果如图2所示。

本实施例提供的数据集场景丰富。原始影像共68564张大小为512×512像素的图像，24个场景(具体参考图3和表2)用于构建建筑物语义分割数据集。本数据集场景包含各种建筑物在地表中的各种场景，如临河临海建筑景观、山区建筑景观、城市建筑景观、以及不同分辨率(小于等于1m)等级和无云、多云和有雾等各种天气类型。

表2.筑数据集所包含的场景

步骤S200，构建深度学习模型，所述深度学习模型包括编码器和解码器，所述编码器中融合有多个特征提取模块，以基于输入的图像数据在不同层级改变特征图的空间尺度，获得图像多尺度的语义信息，所述解码器用于将图像多尺度的语义信息进行融合以及恢复图像尺度。

本发明的其中一个核心点在于深度学习模型的构建，下面将具体介绍本实施例所构建的深度学习模型的基本结构及其工作原理。

基于全卷积网络(Fully Convolutional Networks，FCN)的深度卷积网络由于其丰富的层次特征和端到端的可训练框架的特点，使其在图像语义分割研究领域取得了显著的进步。为了在计算机视觉中执行像素级图像分类，目前大多数流行的语义分割模型，如U-Net]、SegNet和DeepLabV3+都是建立在编码器-解码器ConvNet结构之上。编码器-解码器结构由两部分组成：编码器部分是在不同层级改变特征图的空间尺度，从而获得图像多尺度的语义信息；解码部分则是融合多尺度语义信息及恢复特征图空间尺度的过程。与一般的ConvNet模型相比，基于编码器-解码器结构的模型也由多个处理层组成，如线性变换(例如卷积和反卷积)、非线性激活(例如ReLU和Sigmoid)、批量归一化和刚性变换层(例如，最大池化和双线性插值)。

本文所设计的网络是基于编码器-解码器架构，融合多种深度图像特征提取算法模块，因此理解编码器-解码器ConvNet结构有助于对整个模型的理解。整个编码-解码器架构如图4所示。深度学习模型的结构如图5所示。

如图6所示，本文所提出的网络主要涉及卷积和转置卷积两种主要的卷积运算，它们分边用于BuildingNet模型的编码器和解码器模块中的图像尺度退化和尺度恢复。使用公式1-5进行表示：

y_ij＝f_k({X_i+δi,j+δj}_{0≤δi,δj＜k})

(1)

转置卷积与卷积运算相类似，转置卷积(Transposed Convolutions)又名反卷积(Deconvolution)或是分数步长卷积(Fractially Straced Convolutions)，可以表示为：

x′_ij＝g_k({Y′_l+δi,j+δj}_{0≤δi,δj＜k})

(2)

式中，g_k是转置卷积运算。为了很好的理解，在这里简单的将卷积和反卷积运算过程表示为矩阵运算。例如，我们可以将4×4的输入和2×2的输出分别转换为16×1和4×1的向量。然后，卷积过程可以用矩阵乘法表示：

y＝C·x

(3)

其中C为稀疏权矩阵：

据此，转置卷积运算计算可表示为:

x′＝C′^T·y′

(5)

式中，x′、y′和C′^T的大小分别与x、y、C^T大小相同。

本实施例中，编码器融合有三个特征提取模块，分别是第一特征提取模块、第二特征提取模块以及第三特征提取模块，分别提取到低尺度特征、中尺度特征和高尺度特征。

具体来说，第一特征提取模块使用最先进的深度图像分类网络及结构用于图像多尺度语义信息的提取，随后使用最先进的语义分割模型对获取的语义信息进行解码(具体的架构概念如图5)。这种模型组合的思路已经成功运用提高深度学习模型在计算机视觉中的能力。

仅作为示例，MobileNetV2网络作为模型编码器部分的深层卷积网络(DCNN)。很多经典的深度卷积网络，例如VGG、GoogLeNet和ResNet都可以作为模型特征编码的深层卷积网络(DCNN)基础模型。在本实施例中，从分类精度及效率两方面考虑模型性能出发，选择较为轻量级的MobileNetV2网络，与一些传统的神经网络相比，MobileNetV2网络在保存性能的同时，可以大大减少模型的参数量及计算量。

第二特征提取模块通过空洞空间卷积池化金字塔模块和条形池化模块获取图像的中尺度编码特征，具体结构如图7所示。在高分辨遥感影像中，建筑物等地物对象表现出非常大的尺度变化，获取更高一级的编码特征具有较大挑战，为了解决这个问题，在网络中引入空洞卷积在不牺牲空间分辨率的前提下生成更大的感受野。DeepLabV3+模型的ASSP结构串联多个具有不同膨胀率的膨胀卷积来生成最终的特征。但ASSP结构各空洞卷积层互不连接，会造成特征上下文信息丢失，因此本文使用DenseASPP结构获取更高一级的图像编码。本实施例为建筑物信息提取，而建筑物目标大多数为矩形，为了很好的学习建筑物的更高一层的编码特征，本实施例引入Strip Pooling结构。同时该模块能增强遥感影像场景中广泛存在的各向异性上下文方面时的灵活性。

DenseASPP是一种基于ASPP(Atrous Spatial Pyramid Pooling)模块的改进模型，它采用多个不同采样率的空洞卷积(具体如图7)来获取不同尺度下的上下文信息。具体思路为：该结构共有五层，第一层直接通过1×1的卷积来调整通道数，得到第一层的特征层；第二层到第五层的空洞卷积层的输入都是前面所有卷积层的输出和输入的FeatureMap(特征图)的拼接，各层的膨胀卷积因子为3、6、12、18、24，最后分别输出各层结果。

Strip Pooling是一种新型的池化模块(如图8)，它通过将特征图划分为水平或者垂直条带，并对每个条带进行最大池化，来获取不同位置的上下文信息。与传统的池化方式不同，Strip Pooling可以避免信息的丢失，并且兼顾精度和计算量。在本模型中，StripPooling融入DenseASPP结构当中，作为DenseASPP的的第6层结构。最后将1-6层处理的特征进行拼接融合，即可获得中尺度特征。

第三特征提取模块引入注意力机制获取更高层级的编码特征。注意力机制是人工神经网络中一种模仿视觉注意力的技术。该机制可以增强神经网络输入数据中某些部分的权重，同时减弱其他无关部分的权重，使网络集中在与当前任务相关的特定部分。这种机制已经在各种机器学习任务中得到广泛应用，如机器翻译、图像描述、语音识别等。

本实施例中，所述第三特征提取模块利用空间注意力机制和通道注意力机制以并联的方式处理图像特征。

空间注意力机制对特征图的每个像素点进行加权，使网络更好地关注重要的空间位置。首先将输入特征图通道本身进行降维操作，分别获取最大池化和平均池化结果，然后将二者特征进行拼接融合，再通过一个卷积层进行特征学习，最后通过Sigmoid激活函数输出特征图。

通道注意力机制对特征图的每个通道进行加权，使网络更好地关注重要的特征通道。首先将输入特征图使用最大池化和平均池化算法，然后通过多个MLP层获得变换结果，最后分别应用于两个通道，再使用Sigmoid激活函数得到通道注意力机制的结果。最后将空间注意力机制和通道主力机制结果拼接融合，即得到高尺度特征图，具体工作流程如图9。

步骤S300，利用所述建筑物目标数据集对所述深度学习模型进行训练。

本实施例中，结合表1所显示的数据集，以及图5所示的深度学习模型的结构，将数据集分为训练集和验证集，以对深度学习模型进行训练。本发明中只考虑建筑与非建筑两类(背景值)，所以使用二元交叉熵函数来衡量模型损失(公式6)：

为了获得最优的初始学习率和批量大小，我们通过将初始学习率设置为分别为0.001、0.005和0.01，并将批量大小设置为4、8和16。最后，批大小(Batch Size)和初始学习率(Initial Learning Rate)分别是在我们的研究中分别设置为4和0.001。本文使用的实验环境软硬件如表3和表4所示：

表3实验环境硬件配置

名称	参数
		中央处理器	Intel(R)Xeon(R)Gold 6148(10核)
内存	20G
		硬盘	225GB
显卡	V100(1个)显存：16GB

表4实验环境软件配置

名称	参数
		操作系统	Ubuntu22.04
GPU编程平台	CUDA11.6
		开发语言	Python3.8
开发工具和框架	Pytorch1.8.1

最后在步骤S400，以训练好的深度学习模型实现遥感影像中的建筑物提取。

下面本实施例将结合其他已有的模型与本实施例所构建的模型进行精度比对，以充分说明本发明所提出的模型在建筑物提取上的精度高的优势。

从遥感数据的角度出发及结合语义分割模型的评价指标。采用总体分类精度(Overall Accuracy，OA)，用户精度(User's Accuracy，UA)，制图精度(Produce'sAccuracy，PA)，均交并比(Mean Intersection over Union，mIoU)指标对所提方法进行定量评估。总体分类精度(OA)是度量建筑与非建筑(背景)像素精度的分类质量，用户精度(UA)反映了分类为建筑物的像素实际上也是建筑像素的概率(Assessing the Accuracyof Remotely Sensed Data)，生产者精度(PA)反映了建筑物被正确分类的概率，mIoU则是衡量建筑物与非建筑物特征的平均交并比(mIoU)，IOU则是表示预测为建筑的像素区域与真实标签为建筑的像素区域的交集除以并集的值。mIoU是评价语义分割模型性能的重要指标之一，各指标计算公式如下7到10所示：

式中，Value_true代表正确分类的像元总和，Value_sum代表整个影像的总像元数。

式中，Value_{true_Building}代表正确分到建筑的像元总数，Value_sum代表整个影像的像元分为建筑的像元总数。

式中，Value_{true_Building}代表正确分到建筑的像元总数，Value_{sum_Building}代表建筑真实参考总数。

式中，A代表预测标签区域(建筑和非建筑)，B代表真实标签(建筑和非建筑)。

从本文模型的泛用性出发，选取了亚洲和欧洲各3景经预处理的L2级国产卫星影像及Worldview遥感影像(影像具体信息请参考表5)作为测试图像。所选图像均包含城市、农村、阴影等复杂场景，因此能较为全面及客观的评价各方法的优缺点。使用基于网格的随机抽样方法从测试图像中选取测试样本。在该方法中，图像被分成16个具有4×4的网格，然后在该网格随机生成1000个位置，按位置制作建筑标签进行测试。

表5实验中所用到的数据详情

为了探究本文提出的模型在建筑物自动提取方面的优势，选用不同的建筑物提取方法进行比较，包括传统方法如支持向量机SVM分类器和深度学习方法，如阿里云达摩院遥感云计算平台AI Earth的建筑物提取模型AIE_BuildingModel、DeepLabV3+、Transformer。具体实施细节如下：SVM：使用径向基函数(RBF)作为支持向量机的核。为了得到合适的超参数，进行了10次交叉验证的网格搜索，并根据伽马参数的对数步长15和惩罚参数的对数步长5在1e-5～1内划分参数空间。

DeepLabV3+和Transformer：基于本文所提出建筑物数据集进行训练，并将训练后的DeepLabV3+、Transformer模型直接用于测试区域建筑物提取。

BuildingNet：将训练好的BuildingNet模型直接用于测试区域建筑物提取。由于地球表面的高度复杂性，传统方法需要根据图像所在的具体情况进行参数优化，而深度学习方法使用滑动窗口法按相同512×512的窗口20％重叠度进行建筑物区域提取。

本实施例所提出的BuildingNet模型的原始模型为DeepLabV3+，改进部分为模型的编码器，而解码器算法保持与DeepLabV3+一致。为了验证模型在改进过程中增删结构的有效性，选取本文所构建的建筑物数据集中自制数据集作为验证模型改进有效性的训练测试集。在保存相同测试环境及模型超参数下，结果表明将ASSP结构替换为DenseASPP结构，mIoU能提升3.76％。而在替换ASSP结构为DenseASPP结构的基础上，添加注意力机制，与原始结构相比提升4.35％，该结果证明了BuildingNet模型改进的成功，具体结果如下表6。

表6.模型改进过程中的精度对比

将测试图像通过各方法，即可获得每个试验区域对应的建筑物分割标签，因此采用生产者精度和用户精度来定量评估各方法的建筑物提取精度，同时考虑图像中的建筑物和非建筑，使用OA来量化测试图像的总体分类精度。如下图所示，训练好的BuildingNet在所有测试区域中总体分类精度(OA)都大于等于85％。城市场景为85.37％，农村场景为91.36％，而薄雾和阴影场景为89.35％、94.42％。从测试结果来看，基于深度学习的模型比传统的建筑物提取方法具有更高的精度，主要得益于深度学习算法的优势和所提出的高质量、场景复杂的建筑物数据集。

从整体而言，在本实施例测试方法的四个深度学习模型中，本实施例所提出的模型在所有场景的平均总体分类精度(OA)为90.40％，而在计算机视觉领域流行的DeepLabV3+和Transformer则分别在城市场景和农村场景、薄雾场景获得最高的总体分类精度。SVM方法在所有场景中均是生产者精度(PA)高于用户精度(UA)，因此，说明SVM以高误差为代价产生较低的遗漏误差。而开源模型DeepLabV3+、Transformer在部分场景表现优异，而在较为复杂的薄雾、阴影场景并不能很好的泛化，存在较高的漏分误差。而阿里云达摩院AI Earth遥感云计算下的建筑物提取模型表现优异，在没有使用本文数据集预训练，仍能保持较高的UA和PA。根据生产者准确度和用户准确度的比较分析，预训练的BuildingNet在所有测试区域实现两者指标的平衡(均在80％以上)，这证明了BuildingNet提取建筑物数据时能保持较低错分误差和漏分误差。因此与其他提取方法相比，BuildingNet具有很好的性能，具体如图10、图11和表7所示。

表7生产者准确度(Prod.'s acc)、用户精度(User's acc)和每个方法对应的建筑物OA

从单个建筑物分割效果看。支持向量机方法在提取大尺度建筑物目标时存在较多的空洞，而小尺度建筑物目标存在较为严重的漏检情况且将容易道路、云等非建筑类地物误分割为建筑物，建筑物边界不清晰、不完整。而DeepLabV3+、Transformer能提取的相对完整，较为清晰的建筑物边界，但仍然针对如薄雾、阴影等复杂场景仍然存在较为严重的漏检误检问题，单个建筑的轮廓除阿里云遥感云计算平台AI Earth的建筑物模型外，其他开源模型效果都不理想。而本文所提出的模型虽然在一般的场景进行建筑物提取，优势不明显，但是在薄雾、阴影等复杂场景仍能较为完整的提取建筑物轮廓，从单个建筑的轮廓来看，仍然与真实标签存在一定差距，建筑物边界尚未能较好的拟合真实标签，具体效果如图12-14。

综上所述，本发明实施例所构建的模型适用于高分辨率遥感影像复杂场景下的建筑物提取，可有效地提高复杂场景下的建筑物提取精度。在模型测试中，总体分类精度(OA)均是开源模型获得最高的准确度，但无论是传统的机器学习方法SVM,还是在计算机视觉流行的开源模型都不能保持生产者精度和用户精度的均衡，而融合多特征改进型BuildingNet模型中的空洞空间卷积池化金字塔模块(DenseASSP)、条形池化(StripPooling)模块和注意力机制模块有助于模型获取更多上下文信息，从而可获得边界清晰，结果完整的建筑物信息，而融合多尺度特征可有效保留小目标建筑物，其建筑物平均提取精度可达86.50％，适用于复杂场景下复杂建筑物的提取。

实验结果表明，阿里云AI Earth遥感云计算平台的建筑物提取模型和Transformer模型在一般场景(城市、农村场景)取得了较高的精度，而多注意力机制多尺度特征增强型BuildingNet在复杂场景下的建筑物提取取得了较高的精度，有如下结论：

(1)基于支持向量机方法在建筑物提取方面存在漏检误检问题且提取结果不完整，边界不清晰。支持向量机方法与本文提出的模型相比，建筑物提取结果中的椒盐效应较为明显，同时存在较多孔洞，难以获取到完整且清晰的建筑物轮廓。在复杂场景下易将云雾、阴影等错分割为建筑物。与深度学习方法相比，支持向量机方法需要根据不同的影像设置不同的参数，提取效率和效果不佳。

(2)Transformer等开源模型在普通场景提取建筑物信息具有较高的精确度。DeepLabV3+和Transformer模型内均有大量的膨胀卷积用于提取多尺度信息，在测试图像的城市、农村场景获得较高的总体分类精度，但复杂场景表现较差。

(3)注意力机制多尺度特征增强型BuildingNet适用于复杂场景下的建筑物提取。该模型的平均总体精度(OA)为90.40％，平均生产者精度(PA)为86.50％，平均用户精度(UA)为83.09％，在测试的几种网络中表现最优。该模型具有一定泛用性，具有推广应用价值。

以上描述旨在是说明性的而不是限制性的。例如，上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外，在上述具体实施方式中，各种特征可以被分组在一起以简单化本发明。这不应解释为一种不要求保护的发明的特征对于任一权利要求是必要的意图。相反，本发明的主题可以少于特定的发明的实施例的全部特征。从而，以下权利要求书作为示例或实施例在此并入具体实施方式中，其中每个权利要求独立地作为单独的实施例，并且考虑这些实施例可以以各种组合或排列彼此组合。本发明的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。

Claims

1.一种遥感影像建筑物提取方法，其特征在于，所述方法包括：

利用所述建筑物目标数据集对所述深度学习模型进行训练；

以训练好的深度学习模型实现遥感影像中的建筑物提取。

2.根据权利要求1所述的方法，其特征在于，所述编码通过如下公式实现图像尺度退化：

y_ij＝f_k({X_i+δi,j+δj}_{0≤δi,δj＜k})

3.根据权利要求1所述的方法，其特征在于，所述解码器通过如下公式实现图像尺度的恢复：

x′＝C′^T·y′

y＝C·x

x′_ij＝g_k({Y′_l+δi,j+δj}_{0≤δi,δj＜k})

4.根据权利要求1所述的方法，其特征在于，所述多个特征提取模块包括第一特征提取模块，所述第一特征提取模块用于实现图像数据的低尺度特征提取。

5.根据权利要求4所述的方法，其特征在于，所述多个特征提取模块包括第二特征提取模块，所述第二特征提取模块包括空洞空间卷积池化金字塔模块和条形池化模块，所述空洞空间卷积池化金字塔模块包括依次连接的五个卷积层，其中第一个卷积层用于调整通道数，得到第一层的特征层，第二个卷积层到第五个卷积层的输入是前面所有卷积层的输出以及输入的特征图，所述输入的特征图通过编码器对图像数据进行图像尺度退化得到，所述条形池化模块连接第五个卷积层，通过将特征图划分为水平或者垂直条带，并对每个条带进行最大池化，来获取不同位置的上下文信息，将五个卷积层以及条形池化模块的输出的特征进行拼接融合，得到中尺度特征。

6.根据权利要求5所述的方法，其特征在于，所述多个特征提取模块包括第三特征提取模块，所述第三特征提取模块包括空间注意力机制模块、通道注意力机制模块和融合模块，所述空间注意力机制模块和通道注意力机制模块以并联的方式处理图像特征；

7.根据权利要求6所述的方法，其特征在于，在所述解码器中，令中尺度特征和高尺度特征进行双线性上采样，再与低尺度特征提取进行特征连接融合进行后续解码。

8.根据权利要求1所述的方法，其特征在于，在利用所述建筑物目标数据集对所述深度学习模型进行训练时，通过二元交叉熵函数来衡量模型损失，所述二元交叉熵函数表示为：

9.一种遥感影像建筑物提取装置，其特征在于，所述装置包括：

10.一种可读存储介质，其特征在于，所述可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1至8中任一项所述的方法。