CN110084093A - 基于深度学习的遥感图像中目标检测与识别的方法及装置 - Google Patents
基于深度学习的遥感图像中目标检测与识别的方法及装置 Download PDFInfo
- Publication number
- CN110084093A CN110084093A CN201910135224.6A CN201910135224A CN110084093A CN 110084093 A CN110084093 A CN 110084093A CN 201910135224 A CN201910135224 A CN 201910135224A CN 110084093 A CN110084093 A CN 110084093A
- Authority
- CN
- China
- Prior art keywords
- remote sensing
- target
- candidate
- error
- candidate frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000013135 deep learning Methods 0.000 title claims abstract description 32
- 238000001514 detection method Methods 0.000 title claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 41
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 40
- 230000006870 function Effects 0.000 claims abstract description 32
- 238000005457 optimization Methods 0.000 claims abstract description 19
- 230000004927 fusion Effects 0.000 claims abstract description 15
- 238000012216 screening Methods 0.000 claims abstract description 10
- 230000008859 change Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 5
- WDLRUFUQRNWCPK-UHFFFAOYSA-N Tetraxetan Chemical compound OC(=O)CN1CCN(CC(O)=O)CCN(CC(O)=O)CCN(CC(O)=O)CC1 WDLRUFUQRNWCPK-UHFFFAOYSA-N 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000007123 defense Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000009182 swimming Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Astronomy & Astrophysics (AREA)
- Remote Sensing (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种基于深度学习的遥感图像中目标检测与识别的方法,包括:S1,采用卷积神经网络的多层输出,提取训练数据集中遥感图像的高级特征;S2,采用四点标记法来对任意四边形进行标记,在所述高级特征上生成多面积、多纵横比的多种候选框,并进行候选框筛选;S3,对卷积神经网络不同层筛选出的候选区域进行特征融合,根据融合结果得到分类误差与定位误差,并对筛选出的候选区域采用优化函数进行深度学习训练,得到训练优化模型;S4,通过所述训练优化模型对待识别遥感图像进行目标判别和定位。本公开的方法与装置能够应用于遥感图片目标检测与识别,实现对遥感图像中小物体目标、高纵横比目标以及多类别目标的检测与识别。
Description
技术领域
本公开涉及遥感图像识别领域,尤其涉及一种基于深度学习的遥感图像中目标检测与识别的方法及装置。
背景技术
遥感图像作为一种由卫星进行拍摄的高分辨率图像,在一个国家的国防军事、民用导航等领域都有着极其重要的意义。在国防军事上,遥感图像可以用来识别敌方重要军事设施、武器位置。在民用导航上,遥感图像可以用来进行车辆道路规划。不同于普通的照片,遥感图像因其特殊的拍摄角度,往往可以获取比普通图像更多的信息。所以,高效识别遥感图像中的目标对充分发挥遥感图像的优势有着很大的帮助。
随着近些年来深度学习技术的快速发展与进步,基于深度学习的方法与传统方法相比在图像识别、目标检测等领域有了很大的提升。2012年,在美国举办的ImageNet大规模视觉识别挑战赛中,采用深度学习算法的AlexNet模型以远远高于其他组采用传统图像识别算法的成绩夺得了冠军。而这之后的历届比赛中,采用深度学习算法已经成为了主流。其中主要原因就在于,传统的目标检测和识别方法,需要根据专家的先验知识来描述和设计特征,主观性较强,且对于大规模的图片标注来说所需要的时间和人力成本太高。而基于深度学习的目标检测与识别算法,则可以通过对训练集的训练,获得相应的模型参数,进而对图片进行预测。时间和人力成本低,预测准确率也可以保持在一个较高的水平。故近几年来,深度学习算法不仅在图片识别中获得了广泛的应用,在语音处理,文字翻译等方面也都有着比传统方法更优异的效果。
由于深度学习训练网络模型需要有对应的训练集。而遥感图像相关的数据集主要包括DOTA、UCAS-AOD、NWPU VHR-10等。其中,DOTA数据集为武汉大学遥感国家重点实验室整理并标注,主要包括了2806张分辨率在4000*4000左右的遥感图像,以及一共188282个标注物体。该数据集中所标注的物体一共包括15类,分别是足球场、直升机、游泳池、环形公路、大卡车、小汽车、桥、港口、田径场、篮球场、网球场、棒球场、油罐、船、飞机。DOTA数据集同时也是目前最大、最全的遥感图像数据集。UCAS-AOD数据集则主要是由中科大模式识别实验室整理并标注,该数据集只包括两类目标:汽车与飞机。NWPU VHR-10数据集则由西北工业大学团队整理与标注。共有10个类别的物体,大约800张遥感图像。
虽然深度学习在物体检测与识别中取得了良好的效果,但其主要针对的是普通图片而不是遥感图片。普通图片与遥感图片的区别主要在于以下几点:1)遥感图片具有特殊的拍摄视角,因此从普通图片中训练出来的预训练模型不能很好的在遥感图片中使用;2)遥感图片由卫星于十几公里的高空中拍摄,故现实中很大的目标在遥感图片中会变得十分小,因此对于卷积神将网络来说将很难提取到足够的特征信息;3)不同遥感图片中所包含的目标数量往往是极不均衡的,例如,有些遥感图片中可能只有一个待检测目标,而有些遥感图片中可能会有成百个目标。4)遥感图像中,待检测目标的纵横比有些会十分大,例如桥梁,因而生成被检测物体可能存在的候选区会变得很困难。
发明内容
(一)要解决的技术问题
本公开提供了一种基于深度学习的遥感图像中目标检测与识别的方法及装置,以至少部分解决以上所提出的技术问题。
(二)技术方案
根据本公开的一个方面,提供了一种基于深度学习的遥感图像中目标检测与识别的方法,包括:
步骤S1,采用卷积神经网络的多层输出,提取训练数据集中遥感图像的高级特征;
步骤S2,采用四点标记法来对任意四边形进行标记,在所述高级特征上生成多面积、多纵横比的多种候选框,并进行候选框筛选;
步骤S3,对卷积神经网络不同层筛选出的候选区域进行特征融合,根据融合结果得到分类误差与定位误差,并采用Adam优化函数进行深度学习训练,得到训练优化模型;
步骤S4,通过所述训练优化模型对待识别遥感图像进行目标类别判别和定位。
在一些实施例中,所述步骤S2包括:
步骤S201,采用任意四边形标注目标物体,通过给出候选框四点的x,y坐标来确定候选框的位置;
步骤S202,在所述步骤S1中输出的高级特征上生成候选框区域,设定候选框区域的大小、纵横比,以高级特征中每个像素点为中心,对应生成所有形状大小的候选框;
步骤S203,筛选包含有目标的前景候选框及含有背景的背景候选框。
在一些实施例中,所述步骤S203包括:
根据候选框与目标物体之间的IOU筛选前景候选框及背景候选框,所述IOU的计算方式为:
其中,SA为候选框的面积大小,SB为目标框的面积大小,SA∩SB表示候选框和目标框之间交集的面积,SA∪SB表示候选框和目标框之间并集的面积;当候选框的IOU大于第一阈值时,认为该候选框为前景候选框;当候选框的IOU小于第二阈值时,认为该候选框为背景候选框。
在一些实施例中,所述第一阈值为0.5~0.7,所述第二阈值为0.1~0.3。
在一些实施例中,所述步骤S3中所述根据融合结果得到分类误差时,采用分类误差函数对遥感图像中学习的目标进行区别,根据目标分类的难易程度确定目标在整体误差中的贡献度,目标分类越难,则在整体误差中的贡献度越大。
在一些实施例中,步骤S3包括:
步骤S301,在卷积神经网络的n个不同层分别按照预定比例选择候选区域,并将所述n个不同层的高级特征中的候选区域输入到全连接层,得到所述n个不同层的候选区域展开后的特征;
步骤S302,通过所述候选区域展开后的特征得到n个全连接层,进行特征融合,即将所述n个全连接层的参数进行逐元素相加,得到融合后的结果;
步骤S303,所述融合后的结果经过激活函数,连接到分类全连接层和定位全连接层,其中,分类全连接层的输出为每一类目标的概率;定位全连接层的输出为候选框四个点八个坐标的偏移值;
步骤S304,计算分类误差与定位误差,并得到模型总误差,其中,计算分类误差采用的分类误差函数能够改变被识别目标的分类误差对整体误差的贡献度,使得越难识别的目标在整体误差中的贡献度越大;
步骤S305,在获得分类误差与定位误差之后,采用优化函数进行参数更新,在训练若干个循环之后,得到最终的训练模型,更新的参数包括:分类全连接层、定位全连接层参数和卷积神经网络参数。
在一些实施例中,所述步骤S304中,所述分类误差为:
其中,Pu代表模型预测为真实分类u的概率,K为模型系数;
所述定位误差为:
其中,表示模型预测为第u类目标的坐标参数,vi表示模型真实的坐标参数;smoothL1函数如下所示:
所述模型总误差为:
L=L1+kλL2
其中,λ代表平衡参数,用来平衡分类误差与定位误差,当候选框为前景时,k=1;当候选框为背景时,k=0。
在一些实施例中,所述卷积神经网络中的多层输出包括低层输出与高层输出,其中,所述高层输出包括最高层输出。
在一些实施例中,所述卷积神经网络为ResNet网络,所述多层输出包括ResNet中Conv2,Conv3,Conv4,Conv5四层的输出。
根据本公开的另一个方面,提供了一种基于深度学习的遥感图像中目标检测与识别的装置,包括:
卷积神经网络单元,用于通过卷积神经网络的多层输出,提取训练数据集中遥感图像的高级特征;
区域生成网络单元,连接到所述卷积神经网络单元,用于通过四点标记法来对任意四边形进行标记,在所述高级特征上生成多面积、多纵横比的多种候选框,并进行候选框筛选;
全连接层单元,连接到所述卷积神经网络单元及区域生成网络单元,采用区域生成网络单元生成的对应于卷积神经网络多层输出中的区域作为输入,得到遥感图像中的目标判别和定位;
输出单元,连接到所述全连接层单元,对遥感图像中的目标判别和定位进行输出;
优化函数单元,用于对模型进行训练优化,其输入为全连接层单元,输出即模型的参数更新。
(三)有益效果
从上述技术方案可以看出,本公开基于深度学习的遥感图像中目标检测与识别的方法及装置至少具有以下有益效果其中之一:
(1)通过给出候选框四点的x,y坐标来确定候选框的位置,生成任意四边形能更好的框选出不同方向的目标;而配置多面积、多纵横比的多种候选框能够更好地适应不同面积及不同纵横比的目标,使得候选框即可以涵盖遥感图像中大面积物体,又可以涵盖遥感图像中小面积物体;
(2)采用卷积神经网络中的多层输出作为后续处理的基础,低层的输出由于卷积次数较少,因而相对于高层包含了更多的边缘信息与位置信息;而高层的输出由于卷积次数多,相对于低层包含了更多的抽象信息与全局信息,因此,通过多层输出相结合能更多更好的获得原始遥感图像中的信息。
(3)采用了新的分类误差函数,使得模型能够侧重于从遥感图像中难分类目标中进行学习,从而提高模型整体的识别能力。
附图说明
图1为本公开实施例基于深度学习的遥感图像中目标检测与识别的方法的流程图。
图2为本公开实施例采用多层次的卷积输出提取遥感图像的高级特征的示意图。
图3(a)为普通两点标注的候选框的位置的示意图;图3(b)为本公开实施例采用任意四边形标注目标物体确定候选框的位置的示意图。
图4及图5为本公开实施例基于深度学习的遥感图像中目标检测与识别的方法在测试集上进行预测的测试效果示意图。
图6为本公开实施例基于深度学习的遥感图像中目标检测与识别的装置的结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
本公开某些实施例于后方将参照所附附图做更全面性地描述,其中一些但并非全部的实施例将被示出。实际上,本公开的各种实施例可以由许多不同形式实现,而不应被解释为限于此处所阐述的实施例;相对地,提供这些实施例使得本公开满足适用的法律要求。
在本公开的一个示例性实施例中,提供了一种基于深度学习的遥感图像中目标检测与识别的方法,可以应用于对遥感图像中小物体目标、高纵横比目标以及多类别目标的检测与识别。图1为本公开实施例基于深度学习的遥感图像中目标检测与识别的方法的流程图。如图1所示,本公开基于深度学习的遥感图像中目标检测与识别的方法包括:
步骤S1,采用卷积神经网络的多层输出,提取训练数据集中遥感图像的高级特征。
采用卷积神经网络中的多层输出作为后续处理的基础,其中,低层的输出由于卷积次数较少,因而相对于高层包含了更多的边缘信息与位置信息;而高层的输出由于卷积次数多,相对于低层包含了更多的抽象信息与全局信息。因此,将多层输出相结合能更多更好的获得原始遥感图像中的信息。
步骤S2,采用四点标记法来对任意四边形进行标记,在所述高级特征上生成多面积、多纵横比的多种候选框,并进行候选框筛选。
通过给出候选框四点的x,y坐标来确定候选框的位置,生成任意四边形能更好的框选出不同方向的目标;而配置多面积、多纵横比的多种候选框能够更好地适应不同面积及不同纵横比的目标,使得候选框既可以涵盖遥感图像中大面积物体,又可以涵盖遥感图像中小面积物体。候选框生成完成后,筛选含有目标的候选框及含有背景的候选框。
步骤S3,对卷积神经网络不同层筛选出的候选区域进行特征融合,根据融合结果得到分类误差与定位误差,并采用Adam优化函数进行深度学习训练,得到训练优化模型。
其中,模型训练过程通过采用新的分类误差函数,该分类误差函数能够改变被识别目标的分类误差对整体误差的贡献度,使得越难识别的目标在整体误差中的贡献度越大,使得模型能够侧重于从遥感图像中难分类目标中进行学习,从而提高了模型整体的识别能力。
例如,在一具体实施例中,被识别的目标有5个,分别为A、B、C、D、E。其中,A、B、C三个目标很容易被识别出来,即模型识别A,B,C这三个目标的正确率很高,比如达到了99%;但是该模型对于D、E这两个目标识别的正确率却相对较低,比如只有80%。那么,如果采用一般的误差函数,模型每一次更新参数,A、B、C、D、E对于总的误差贡献是一样的,相当于对每一个贡献的误差求平均值。而本实施例中采用了新的分类误差函数,该分类误差函数能够让A、B、C、D、E对总误差的贡献不一样,通过让A、B、C的误差贡献度降低,而让D、E的误差贡献度增高,相当于在误差计算时求取了加权平均。即本实施例中A、B、C为易识别样例,D、E为难识别样例,新的分类误差函数可以让模型专注于从它识别效果不好的样本D、E中学习。
步骤S4,通过所述训练优化模型对待识别遥感图像进行目标判别和定位。
以下对本实施例基于深度学习的遥感图像中目标检测与识别的方法的各个步骤进行详细说明。
步骤S1:以初始的ResNet为卷积神经网络的核心,提取训练集中遥感图片的高级特征。
本实施例中,采用遥感图像数据集DOTA数据集作为训练数据集进行模型训练。普通目标检测与识别只采用卷积神经网络最后一层的输出作为之后步骤所需的高级特征,而本公开的方法采用了多层次的卷积输出提取遥感图像的高级特征,如图2所示,即不是仅仅采用ResNet中Conv5层的输出,而是采用了ResNet中Conv2,Conv3,Conv4,Conv5四层的输出。因为,低层的输出由于卷积次数少而相对于高层包含了更多的边缘信息与位置信息。而高层的输出由于卷积次数多相对于低层包含了更多的抽象信息与全局信息。在其他一些实施例中,所述用于提取遥感图片高级特征的初始卷积神经网络可以为预训练的其他卷积神经网络。
步骤S2,将各层输出的遥感图片高级特征输入区域生成网络(RPN,RegionProposal Network),生成候选框区域,具体包括:
步骤S201,采用任意四边形标注目标物体,即通过给出候选框四点的x,y坐标来确定候选框的位置。图3(a)为普通两点标注的候选框的位置的示意图;图3(b)为本公开实施例采用任意四边形标注目标物体确定候选框的位置的示意图。如图3(b)所示,不同于普通两点标注只能框出正矩形,没有办法框出带角度的矩形,四点标注可以框出任意角度的四边形。候选框的位置由(XA1,YA1,XA2,YA2,XA3,YA3,XA4,YA4)来进行确定。在DOTA数据集中,目标物体一共有十五种类别,不同目标之间有着不同的大小、形状、方向,故候选框应为任意四边形,能更好的框出目标。
步骤S202,在步骤S1中输出的四层高级特征上生成候选框区域,具体的方法包括:
1)设定初始候选框区域的大小。由于遥感图像中所需要被识别的目标大小相差很大,一个体育场的大小可能是一个小汽车大小的十几倍。故设定了多种不同大小的初始候选框,分别为16*16,32*32,64*64,128*128,256*256,单位均为像素点。
2)设定候选框区域的纵横比。为了解决有些目标存在的纵横比很高的情况,例如桥梁这类目标。在之前不同大小的初始候选框基础上还设定了不同的长宽比,分别是1∶1,1∶2,2∶1,1∶4,4∶1。
本实施例中设置了5种候选框大小及5种候选框纵横比,共有25种不同形状的候选框。所述候选框在步骤S1中输出的四层高级特征上生成。本实施例中,所述高级特征为特征图,生成方法是以特征图中每个像素点为中心,生成对应形状大小的候选框。如果该层特征图的大小为H*W,则在该层特征图上一共就有H*W*25个候选框。
步骤S203,筛选候选框。所述步骤S202生成了大量的候选框,需要将有用的候选框筛选出来。具体的方法包括,根据候选框与目标物体之间的IOU来确定,IOU的计算方式如下所示:
SA为候选框的面积大小,SB为目标框的面积大小。SA∩SB表示候选框和目标框之间交集的面积,SA∪SB表示候选框和目标框之间并集的面积。当候选框的IOU大于第一阈值时,认为该候选框为前景候选框,即该候选框中有目标。当候选框的IOU小于第二阈值时,认为该候选框为背景候选框,即该候选框中为背景。所述第一阈值与所述第二阈值可以根据需要进行设置。
本实施例中,当候选框的IOU大于0.5时,认为该候选框为前景候选框;当候选框的IOU小于0.2时,认为该候选框为背景候选框。
进一步地,所述步骤S3中,对卷积神经网络不同层筛选出的候选区域进行特征融合,根据融合结果得到分类误差与定位误差,并采用Adam优化函数进行深度学习训练,该训练过程包括:
步骤S301,在卷积神经网络的不同层分别按照预定比例选择候选区域,并对提取出的不同层中候选区域分别进行展开。
所述步骤S301中,按照预定的比例从步骤S203中得到的前景候选框和背景候选框中选择进行训练的区域。本实施例中,按照前景候选框和背景候选框1:3的比例选择128个候选框,即前景候选框有32个,背景候选框有96个。模型训练采用上述选中的候选框中的区域进行。
所述对提取出的不同层中候选区域分别进行展开的具体方法包括,将第m层(m=2,3,4,5)特征图中的候选区域输入到全连接层,得到第m层候选区域展开后的特征,表示为Fm。
步骤S302,不同层中的候选区域经过步骤S301之后,得到四个全连接层,分别为F2,F3,F4,F5。对这些特征进行特征融合,即将四个全连接层的参数进行逐元素相加,得到融合后的结果F_fuse。F_fuse=sum(F1,F2,F3,F4)。
步骤S303,融合后的结果经过ReLu激活函数,再连接到分类全连接层和定位全连接层,其中分类全连接层的输出为每一类目标的概率;定位全连接层的输出为候选框四个点八个坐标的偏移值。
步骤S304,计算误差。该步骤中,采用分类误差函数对遥感图像中学习的目标进行区别,根据目标分类的难易程度确定目标在整体误差中的贡献度,目标分类越难,则在整体误差中的贡献度越大。其中,分类误差如下所示:
Pu代表模型预测为真实分类u的概率,K为模型系数,此处取K=1。采用上述判别误差函数,是为了让模型能够主要从难分类样例中学习参数而不是易分类样例中学习。显而易见,当模型预测属于第u类目标的概率很大时,1-Pu的值将很小,则总的误差将随之减小,即容易分类目标在整体误差中的贡献度减小,模型将主要关注于难分类的目标,从该些目标中学习参数。
而对于定位误差,则采用如下所示计算:
其中,表示模型预测为第u类目标的坐标参数。vi表示模型真实的坐标参数。smoothL1函数如下所示:
smoothL1函数对于对于离群点、异常值不敏感,可以让模型更好的进行训练。由此,模型总的误差为:
L=L1+kλL2
其中,λ代表平衡参数,用来平衡分类误差与定位误差,通常情况下取λ=1。当候选框为前景时,k=1。当候选框为背景时,k=0。
步骤S305,更新参数。在获得分类误差与定位误差之后,采用Adam优化函数进行参数更新。更新的参数包括:分类全连接层、定位全连接层参数和卷积神经网络参数。在训练若干个循环之后,得到最终的训练模型。
本实施例基于深度学习的遥感图像中目标检测与识别的方法在测试集上进行预测并得到了优异的测试效果。测试的例子如图4,图5所示。
在本公开的第二个示例性实施例中,提供了一种基于深度学习的遥感图像中目标检测与识别的装置,如图6所示,包括:
卷积神经网络单元,用于通过卷积神经网络的多层输出,提取训练数据集中遥感图像的高级特征;本实施例中,所述卷积神经网络为ResNet网络,所述多层输出包括ResNet中Conv2,Conv3,Conv4,Conv5四层的输出;
区域生成网络单元,连接到所述卷积神经网络单元,用于通过四点标记法来对任意四边形进行标记,在所述高级特征上生成多面积、多纵横比的多种候选框,并进行候选框筛选;
全连接层单元,连接到所述卷积神经网络单元及区域生成网络单元,采用区域生成网络单元生成的对应于卷积神经网络多层输出中的区域作为输入,得到遥感图像中的目标判别和定位;
输出单元,连接到所述全连接层单元,对遥感图像中的目标判别和定位进行输出。
进一步地,所述基于深度学习的遥感图像中目标检测与识别的装置还包括:
优化函数单元,输入为全连接层单元,输出即模型的参数更新。用于对模型进行训练优化。本实施例中,优化函数采用Adam函数,在训练若干次之后,得到最终的训练模型。
为了达到简要说明的目的,上述实施例1中任何可作相同应用的技术特征叙述皆并于此,无需再重复相同叙述。
至此,已经结合附图对本公开实施例进行了详细描述。需要说明的是,在附图或说明书正文中,未绘示或描述的实现方式,均为所属技术领域中普通技术人员所知的形式,并未进行详细说明。此外,上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式,本领域普通技术人员可对其进行简单地更改或替换。
再者,单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。
此外,除非特别描述或必须依序发生的步骤,上述步骤的顺序并无限制于以上所列,且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑,彼此混合搭配使用或与其他实施例混合搭配使用,即不同实施例中的技术特征可以自由组合形成更多的实施例。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本公开也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本公开的内容,并且上面对特定语言所做的描述是为了披露本公开的最佳实施方式。
本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。本公开的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开实施例的相关设备中的一些或者全部部件的一些或者全部功能。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。并且,在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。
类似地,应当理解,为了精简本公开并帮助理解各个公开方面中的一个或多个,在上面对本公开的示例性实施例的描述中,本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,公开方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的单独实施例。
以上所述的具体实施例,对本公开的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本公开的具体实施例而已,并不用于限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (10)
1.一种基于深度学习的遥感图像中目标检测与识别的方法,包括:
步骤S1,采用卷积神经网络的多层输出,提取训练数据集中遥感图像的高级特征;
步骤S2,采用四点标记法来对任意四边形进行标记,在所述高级特征上生成多面积、多纵横比的多种候选框,并进行候选框筛选;
步骤S3,对卷积神经网络不同层筛选出的候选区域进行特征融合,根据融合结果得到分类误差与定位误差,并采用优化函数进行深度学习训练,得到训练优化模型;
步骤S4,通过所述训练优化模型对待识别遥感图像进行目标类别判别和定位。
2.根据权利要求1所述的遥感图像中目标检测与识别的方法,其中,所述步骤S3中所述根据融合结果得到分类误差时,包括:
采用能够改变被识别目标的分类误差对整体误差贡献度的分类误差函数,对遥感图像中被识别的目标进行区别,根据目标分类的难易程度确定该目标的分类误差在整体误差中的贡献度,目标分类越难,在整体误差中的贡献度越大。
3.根据权利要求2所述的遥感图像中目标检测与识别的方法,其中,步骤S3包括:
步骤S301,在卷积神经网络的n个不同层分别按照预定比例选择候选区域,并将所述n个不同层的高级特征中的候选区域输入到全连接层,得到所述n个不同层的候选区域展开后的特征;
步骤S302,通过所述候选区域展开后的特征得到n个全连接层,进行特征融合,即将所述n个全连接层的参数进行逐元素相加,得到融合后的结果;
步骤S303,所述融合后的结果经过激活函数,连接到分类全连接层和定位全连接层,其中,所述分类全连接层的输出为每一类目标的概率,所述定位全连接层的输出为候选框四个点八个坐标的偏移值;
步骤S304,计算分类误差与定位误差,并得到模型总误差,其中,计算分类误差采用的分类误差函数能够改变被识别目标的分类误差对整体误差的贡献度,使得越难识别的目标在整体误差中的贡献度越大;
步骤S305,获得分类误差与定位误差之后,采用优化函数进行参数更新,在训练若干个循环之后,得到最终的训练模型,更新的所述参数包括:分类全连接层、定位全连接层参数和卷积神经网络参数。
4.根据权利要求3所述的遥感图像中目标检测与识别的方法,其中,所述步骤S304中,所述分类误差为:
其中,Pu代表模型预测为真实分类u的概率,K为模型系数;
所述定位误差为:
其中,表示模型预测为第u类目标的坐标参数,vi表示模型真实的坐标参数;smoothL1函数如下所示:
所述模型总误差为:
L=L1+kλL2
其中,λ代表平衡参数,用来平衡分类误差与定位误差,当候选框为前景时,k=1;当候选框为背景时,k=0。
5.根据权利要求1所述的遥感图像中目标检测与识别的方法,其中,所述步骤S2包括:
步骤S201,采用任意四边形标注目标物体,通过给出候选框四点的x,y坐标来确定候选框的位置;
步骤S202,在所述步骤S1中输出的高级特征上生成候选框区域,设定候选框区域的大小、纵横比,以高级特征中每个像素点为中心,对应生成所有形状大小的候选框;
步骤S203,筛选包含有目标的前景候选框及含有背景的背景候选框。
6.根据权利要求5所述的遥感图像中目标检测与识别的方法,其中,所述步骤S203包括:
根据候选框与目标物体之间的IOU筛选前景候选框及背景候选框,所述IOU的计算方式为:
其中,SA为候选框的面积大小,SB为目标框的面积大小,SA∩SB表示候选框和目标框之间交集的面积,SA∪SB表示候选框和目标框之间并集的面积;当候选框的IOU大于第一阈值时,认为该候选框为前景候选框;当候选框的IOU小于第二阈值时,认为该候选框为背景候选框。
7.根据权利要求6所述的遥感图像中目标检测与识别的方法,其中,所述第一阈值为0.5~0.7,所述第二阈值为0.1~0.3。
8.根据权利要求1所述的遥感图像中目标检测与识别的方法,其中,所述卷积神经网络中的多层输出包括最高层输出及至少一个其他层输出。
9.根据权利要求8所述的遥感图像中目标检测与识别的方法,其中,所述卷积神经网络为ResNet网络,所述多层输出包括ResNet中Conv2,Conv3,Conv4,Conv5四层的输出。
10.一种基于深度学习的遥感图像中目标检测与识别的装置,采用如权利要求1-9任一项所述的方法,包括:
卷积神经网络单元,用于通过卷积神经网络的多层输出,提取训练数据集中遥感图像的高级特征;
区域生成网络单元,连接到所述卷积神经网络单元,用于通过四点标记法来对任意四边形进行标记,在所述高级特征上生成多面积、多纵横比的多种候选框,并进行候选框筛选;
全连接层单元,连接到所述卷积神经网络单元及区域生成网络单元,采用区域生成网络单元生成的对应于卷积神经网络多层输出中的区域作为输入,得到遥感图像中的目标判别和定位;
输出单元,连接到所述全连接层单元,对遥感图像中的目标判别和定位进行输出;
优化函数单元,用于对模型进行训练优化,其输入为全连接层单元,输出即模型的参数更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910135224.6A CN110084093B (zh) | 2019-02-20 | 2019-02-20 | 基于深度学习的遥感图像中目标检测与识别的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910135224.6A CN110084093B (zh) | 2019-02-20 | 2019-02-20 | 基于深度学习的遥感图像中目标检测与识别的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110084093A true CN110084093A (zh) | 2019-08-02 |
CN110084093B CN110084093B (zh) | 2020-07-17 |
Family
ID=67413075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910135224.6A Expired - Fee Related CN110084093B (zh) | 2019-02-20 | 2019-02-20 | 基于深度学习的遥感图像中目标检测与识别的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110084093B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472601A (zh) * | 2019-08-20 | 2019-11-19 | 北京瞰天科技有限公司 | 一种遥感图像目标物体识别方法、装置和存储介质 |
CN111079604A (zh) * | 2019-12-06 | 2020-04-28 | 重庆市地理信息和遥感应用中心(重庆市测绘产品质量检验测试中心) | 面向大尺度遥感图像的微小目标快速检测方法 |
CN111325116A (zh) * | 2020-02-05 | 2020-06-23 | 武汉大学 | 一种基于线下训练-线上学习深度可演化的遥感影像目标检测方法 |
CN111523392A (zh) * | 2020-03-26 | 2020-08-11 | 北京航天自动控制研究所 | 一种基于卫星正射影像全姿态的深度学习样本制备方法及识别方法 |
CN111967313A (zh) * | 2020-07-08 | 2020-11-20 | 北京航空航天大学 | 一种深度学习目标检测算法辅助的无人机图像标注方法 |
CN112785684A (zh) * | 2020-11-13 | 2021-05-11 | 北京航空航天大学 | 一种基于局部信息加权机制的三维模型重建方法 |
CN113591668A (zh) * | 2021-07-26 | 2021-11-02 | 南京大学 | 一种使用深度学习和空间分析的广域未知大坝自动探测方法 |
CN116363435A (zh) * | 2023-04-03 | 2023-06-30 | 盐城工学院 | 一种基于深度学习的遥感图像目标检测系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156744A (zh) * | 2016-07-11 | 2016-11-23 | 西安电子科技大学 | 基于cfar检测与深度学习的sar目标检测方法 |
CN108596101A (zh) * | 2018-04-25 | 2018-09-28 | 上海交通大学 | 一种基于卷积神经网络的遥感图像多目标检测方法 |
US20180336431A1 (en) * | 2017-05-16 | 2018-11-22 | Nec Laboratories America, Inc. | Pruning filters for efficient convolutional neural networks for image recognition of environmental hazards |
-
2019
- 2019-02-20 CN CN201910135224.6A patent/CN110084093B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156744A (zh) * | 2016-07-11 | 2016-11-23 | 西安电子科技大学 | 基于cfar检测与深度学习的sar目标检测方法 |
US20180336431A1 (en) * | 2017-05-16 | 2018-11-22 | Nec Laboratories America, Inc. | Pruning filters for efficient convolutional neural networks for image recognition of environmental hazards |
CN108596101A (zh) * | 2018-04-25 | 2018-09-28 | 上海交通大学 | 一种基于卷积神经网络的遥感图像多目标检测方法 |
Non-Patent Citations (4)
Title |
---|
SHAOQING REN 等: "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks", 《ARXIV》 * |
TSUNG-YI LIN 等: "Feature Pyramid Networks for Object Detection", 《ARXIV》 * |
TSUNG-YI LIN 等: "Focal Loss for Dense Object Detection", 《ARXIV》 * |
李靓 等: "FPN在遥感图像检测中的应用", 《指挥控制与仿真》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472601A (zh) * | 2019-08-20 | 2019-11-19 | 北京瞰天科技有限公司 | 一种遥感图像目标物体识别方法、装置和存储介质 |
CN111079604A (zh) * | 2019-12-06 | 2020-04-28 | 重庆市地理信息和遥感应用中心(重庆市测绘产品质量检验测试中心) | 面向大尺度遥感图像的微小目标快速检测方法 |
CN111325116A (zh) * | 2020-02-05 | 2020-06-23 | 武汉大学 | 一种基于线下训练-线上学习深度可演化的遥感影像目标检测方法 |
CN111523392B (zh) * | 2020-03-26 | 2023-06-06 | 北京航天自动控制研究所 | 一种基于卫星正射影像全姿态的深度学习样本制备方法及识别方法 |
CN111523392A (zh) * | 2020-03-26 | 2020-08-11 | 北京航天自动控制研究所 | 一种基于卫星正射影像全姿态的深度学习样本制备方法及识别方法 |
CN111967313A (zh) * | 2020-07-08 | 2020-11-20 | 北京航空航天大学 | 一种深度学习目标检测算法辅助的无人机图像标注方法 |
CN111967313B (zh) * | 2020-07-08 | 2022-04-12 | 北京航空航天大学 | 一种深度学习目标检测算法辅助的无人机图像标注方法 |
CN112785684A (zh) * | 2020-11-13 | 2021-05-11 | 北京航空航天大学 | 一种基于局部信息加权机制的三维模型重建方法 |
CN112785684B (zh) * | 2020-11-13 | 2022-06-14 | 北京航空航天大学 | 一种基于局部信息加权机制的三维模型重建方法 |
CN113591668A (zh) * | 2021-07-26 | 2021-11-02 | 南京大学 | 一种使用深度学习和空间分析的广域未知大坝自动探测方法 |
CN113591668B (zh) * | 2021-07-26 | 2023-11-21 | 南京大学 | 一种使用深度学习和空间分析的广域未知大坝自动探测方法 |
CN116363435A (zh) * | 2023-04-03 | 2023-06-30 | 盐城工学院 | 一种基于深度学习的遥感图像目标检测系统及方法 |
CN116363435B (zh) * | 2023-04-03 | 2023-10-27 | 盐城工学院 | 一种基于深度学习的遥感图像目标检测系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110084093B (zh) | 2020-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110084093B (zh) | 基于深度学习的遥感图像中目标检测与识别的方法及装置 | |
CN110287927B (zh) | 基于深度多尺度和上下文学习的遥感影像目标检测方法 | |
Gong et al. | Context-aware convolutional neural network for object detection in VHR remote sensing imagery | |
CN110276269B (zh) | 一种基于注意力机制的遥感图像目标检测方法 | |
CN108596101B (zh) | 一种基于卷积神经网络的遥感图像多目标检测方法 | |
CN113362329B (zh) | 病灶检测模型的训练方法及识别图像中的病灶的方法 | |
CN112070729B (zh) | 一种基于场景增强的anchor-free遥感图像目标检测方法及系统 | |
Bao et al. | Boosting ship detection in SAR images with complementary pretraining techniques | |
Wang et al. | SARD: Towards scale-aware rotated object detection in aerial imagery | |
CN112766108B (zh) | 基于上下文信息的sar图像目标检测方法 | |
CN107886120A (zh) | 用于目标检测跟踪的方法和装置 | |
Wu et al. | GCWNet: A global context-weaving network for object detection in remote sensing images | |
CN113971764A (zh) | 一种基于改进YOLOv3的遥感图像小目标检测方法 | |
CN111488786B (zh) | 基于cnn的监视用客体检测器的方法及装置 | |
CN110659601A (zh) | 基于中心点的深度全卷积网络遥感图像密集车辆检测方法 | |
CN113516053A (zh) | 一种具有旋转不变性的舰船目标精细化检测方法 | |
CN116824335A (zh) | 一种基于YOLOv5改进算法的火灾预警方法及系统 | |
Zhang et al. | Adaptive anchor networks for multi-scale object detection in remote sensing images | |
Kim et al. | Rotational multipyramid network with bounding‐box transformation for object detection | |
Guan et al. | Earl: An elliptical distribution aided adaptive rotation label assignment for oriented object detection in remote sensing images | |
Moon et al. | RoMP-transformer: Rotational bounding box with multi-level feature pyramid transformer for object detection | |
Wang et al. | Instance segmentation of soft‐story buildings from street‐view images with semiautomatic annotation | |
CN114463624A (zh) | 一种应用于城市管理监督的违章建筑物检测方法及装置 | |
CN114494893B (zh) | 基于语义重用上下文特征金字塔的遥感图像特征提取方法 | |
CN107545238A (zh) | 基于深度学习的煤矿井下行人检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200717 |