CN115035361A - 基于注意力机制和特征交叉融合的目标检测方法及系统 - Google Patents
基于注意力机制和特征交叉融合的目标检测方法及系统 Download PDFInfo
- Publication number
- CN115035361A CN115035361A CN202210532337.1A CN202210532337A CN115035361A CN 115035361 A CN115035361 A CN 115035361A CN 202210532337 A CN202210532337 A CN 202210532337A CN 115035361 A CN115035361 A CN 115035361A
- Authority
- CN
- China
- Prior art keywords
- layer
- loss
- feature
- target
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 88
- 238000001514 detection method Methods 0.000 title claims abstract description 82
- 230000007246 mechanism Effects 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000000605 extraction Methods 0.000 claims description 41
- 238000010586 diagram Methods 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 7
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 3
- 238000011158 quantitative evaluation Methods 0.000 claims description 3
- 238000005096 rolling process Methods 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 2
- 238000007670 refining Methods 0.000 claims 2
- 238000007499 fusion processing Methods 0.000 abstract 1
- 230000004807 localization Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 14
- 230000006872 improvement Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 230000004438 eyesight Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- RMMXTBMQSGEXHJ-UHFFFAOYSA-N Aminophenazone Chemical compound O=C1C(N(C)C)=C(C)N(C)N1C1=CC=CC=C1 RMMXTBMQSGEXHJ-UHFFFAOYSA-N 0.000 description 1
- 229960000212 aminophenazone Drugs 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000004297 night vision Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于注意力机制及特征交叉融合的目标检测方法及系统,该系统包括骨干网、颈层、特征交叉融合模块和检测头。具体地:首先,通过骨干网对输入图像提取多层次特征。然后,颈层采用特征金字塔网络(FPN)和路径融合网络(PAN),分别自顶向下和自底向上地对不同层次的特征进行融合。特征金字塔网络自顶向下传达强语义特征,而路径融合网络自底向上传达强定位特征。此外,在特征融合过程中,引入注意力机制,从通道维度以及空间维度全方位地学习更丰富的语义信息和细节信息。紧接着,通过特征交叉融合模块,将高层次特征与低层次特征交叉融合,进一步提高特征之间的信息利用率。最后,将融合的特征送至检测头,预测目标类别及目标所在位置。
Description
技术领域
本发明涉及计算机视觉及深度学习技术领域,特别涉及一种基于注意力机制及特征交叉融合的目标检测方法及系统。
背景技术
目标检测作为当前计算机视觉领域的研究热点之一,主要任务是找出图像中感兴趣的目标,并确定目标的类别和位置。
传统目标检测方法大概分为区域选择(滑动窗)、特征提取(SIFT、HOG等)、分类器(SVM、Adaboost等)三部分。即首先在给定图像上选择候选区域,然后提取这些区域的特征,最后使用训练的分类器进行分类。传统目标检测存在两个主要问题:一是基于滑动窗口的区域选择策略没有针对性,时间复杂度高,窗口冗余;另一方面是手工设计的特征鲁棒性较差,没法适应多样性的变化。
近年来,深度学习席卷了语音、图像、视觉等各大领域,传统方法遇到的瓶颈也随着深度学习方法的引入而被打破。深度神经网络具有强大的表达能力和数据拟合能力,能够自动提取并学习图像中的关键信息,具有很强的鲁棒性和信息综合能力,能够适应多样性的变化。
现有基于图像的目标检测主要集中在对陆地上的目标进行检测,如:室内环境中的人脸检测、行李安检,室外道路检测、车辆检测、行人检测等等,而很少有针对海上目标的检测,但他们本质上都有相同之处,都是通过深度学习模型提取特征直接预测目标类别及其位置,因此,海上目标检测可以借鉴现有其他目标检测任务的方法。事实上,海上目标检测意义重大。设计一个海面目标监测系统,不仅可以实时的监控过往船只的航行安全,保障航行及运输安全,而且可以跟踪并判断目标船只(如敌船、海盗船)的意图,便于及时制定对策,对海防事业也有很大帮助。
目前,我国主要通过对卫星遥感图像、红外图像和雷达图像进行分析、处理,实现海上目标检测。但这些方法在实际应用中,容易受到海上复杂天气、光照变化等因素的影响,存在监测距离短、监控范围小、清晰度低、夜视能力差等问题,极大地影响着检测精度和定位效果。
发明内容
本发明的目的在于克服现有海上目标检测方法的技术缺陷,提出了一种基于注意力机制和特征交叉融合的海上目标检测方法及系统,该方法能够进行像素级别的目标检测,实现对目标的定位,提高目标检测率,降低误检率,也更适用于复杂情况下的海上目标检测。
为了实现上述目的,本发明提出了一种基于注意力机制及特征交叉融合的目标检测方法,所述方法首先基于对经过预处理的训练集图片提取特征,并对提取的特征分别通过特征金字塔网络、路径融合网络以及特征交叉融合模块进行交叉提炼,并在提炼时引入多种注意力机制,由此得到输出特征后,将输出特征送入检测头得到预测结果,计算预测结果与真实标签之间的损失,根据计算的损失反复训练调整模型参数,直至得到最优模型参数后输出目标检测网络模型,然后将待检测图片输入网络模型得到预测结果,最后,对预测结果进行解码得到待检测图片中目标的位置、类别及其置信度。多种注意力机制指的是Transformer结构和CBAM(Convolutional Block Attention Module,卷积注意力模块)。Transformer结构本身也包含注意力机制,而CBAM包含通道注意和空间注意两种注意力。
作为上述技术方案的改进之一,所述方法在建立目标检测网络模型时包括以下步骤:
步骤1)数据预处理,将训练所需图片进行缩放增强后按每组B张随机分成M组;
步骤2)随机读取一组图片,通过N层骨干网对输入图片逐层递进的提取和压缩特征,得到每一层的特征图,形成第一个特征金字塔;
步骤3)对步骤2)中最后一层的层级特征,通过上采样的方式,自顶向下地逐个融合第一个特征金字塔的低层次特征,以获得包含更多语义信息的特征,形成第二个特征金字塔;
步骤4)对步骤3)中最后一层特征,通过卷积操作对特征图下采样,自底向上地对第二个特征金字塔的高层次特征进行逐层融合,以获得包含更多定位信息的特征;
步骤5)对步骤4)中分辨率较低的两个特征图通过上采样与各自上面层中分辨率相同的特征图进行交叉融合,得到输出特征;
步骤6)将步骤5)中的输出特征送至检测头中进行检测和解码,得到目标在原始输入图像上的预测坐标以及预测类别和置信度;
步骤7)计算网络预测与真实值之间的损失函数,采用梯度下降法对上述模型中的参数进行更新;反复迭代,直至训练出最优参数组合,输出目标检测网络模型。
作为上述技术方案的改进之一,所述步骤2)中的骨干网包括浅层特征提取块,三个普通卷积层级特征提取块以及一个基于Transformer结构和快速空间金字塔池化的层级特征提取块;其中,浅层特征提取操作包含2次下采样,每个普通卷积层级特征提取操作及基于Transformer结构和快速空间金字塔池化的层级特征提取操作都分别只包含1次下采样;每次下采样的倍数都为2;具体地,包括以下步骤:
步骤2-1)随机读取一组图片Xin,通过浅层特征提取块,得到浅层特征Fs;
步骤2-2)将得到的浅层特征Fs通过第一个普通卷积层级特征提取块,得到特征金字塔的第一层特征图Fa;
步骤2-3)再将Fa通过第二个普通卷积层级特征提取块,得到特征金字塔的第二层特征图Fb,再将Fb通过第三个普通卷积层级特征提取块,得到特征金字塔的第三层特征图Fc;
步骤2-4)将Fc通过基于Transformer结构和快速空间金字塔池化的层级特征提取块,得到特征金字塔的最上面一层特征图FN-1。
作为上述技术方案的改进之一,所述步骤3)中的特征金字塔网络包括一个常规卷积块,两个卷积融合块,以及一个全局注意力融合块;
其中,所述卷积融合块包括:上采样层、拼接层、C3层以及Conv层;所述全局注意力融合块包括上采样层、拼接层、C3层和全局注意力层;所述上采样层中的上采样因子为2;所述Conv层中卷积核大小为1,步长为1;具体地,对特征图Fa、Fb、Fc和FN-1,自顶向下地执行以下步骤:
步骤3-1)先将FN-1通过第一个常规卷积块后得到特征图F′N-1,接着通过第一个卷积融合块,即将F′N-1上采样后与Fc进行拼接,随后依次通过C3层和Conv层进行特征融合得到特征图F′c;
步骤3-2)将F′c通过第二个卷积融合块融合Fb得到特征图F′b;
步骤3-3)将F′b通过全局注意力融合块融合Fa得到特征图F′a;
作为上述技术方案的改进之一,所述步骤4)中的路径融合网络包含两个全局注意力卷积块以及一个多重注意力块;
其中,所述全局注意力卷积块包括:Conv层、拼接层和C3层和全局注意力层;所述多重注意力块包括:Conv层、拼接层、基于Transformer结构的C3层和全局注意力层;Conv层的卷积核大小为3,步长为2;具体地,对特征图F′N-1、F′c、F′v和F′a,自底向上地执行以下步骤:
步骤4-1)先将F′a通过第一个全局注意力卷积块,即对F′a采用Conv层下采样后与F′b拼接,然后依次通过C3层和全局注意力层进行特征融合得到特征图F″b;
步骤4-2)将F″b通过第二个全局注意力卷积块融合F′c得到特征图F″c;
步骤4-3)将F″c通过多重注意力块融合F′N-1得到特征图F″N-1。
作为上述技术方案的改进之一,所述步骤5)包含两个特征交叉融合单元;
所述特征交叉融合单元包括:上采样层、拼接层、Conv层;其中,上采样层的上采样因子为4;Conv层的卷积核大小为3,步长为1;具体地,对特征图F′a、F″b、F″c和F″N-1,执行以下步骤:
步骤5-1)将特征F″c通过第一个特征交叉融合单元,即将F″c上采样后与F′a拼接,然后通过Conv层进行特征融合得到特征图F″ca;
步骤5-2)将特征F″N-1通过另一个特征交叉融合单元得到特征图F″(N-1)b。
作为上述技术方案的改进之一,步骤6)中检测头的个数对应输出特征数;其中,每个检测头包含一个1×1的Conv层和两个平行分支,所述平行分支是两个3×3的Conv层;两个分支分别用于分类任务和回归任务;目标分支被添加到回归任务分支上;
通过1×1的二维卷积操作得到最终的分类预测、回归预测和目标预测;其中,其中,分类预测判断检测到的目标属于哪个类别,通道数为目标类别数;回归预测判断检测到的目标在图像中所处的相对位置(以矩形框的形式表示),通道数为4,4个通道分别对应目标的中心坐标(x,y)以及目标的高度h和宽度w;目标预测的通道数为1,预测的值为置信度,其中,所述置信度表示该预测是目标的概率;具体地,对输出特征图F′a、F″b、F″c、F″N-1、F″ca和F″(N-1)b,执行以下步骤:
步骤6-1)将特征F′a通过对应的检测头后得到三个预测Ya,Reg、Ya,Obj、Ya,Cls,然后将三个预测在通道维度进行拼接,得到预测Ya;
步骤6-2)取步骤6-1)中预测Ya的前4个通道,将其投影到输入图像上;
步骤6-3)对其余5个特征F″b、F″c、F″N-1、F″ca和F″(N-1)b分别依次进行步骤6-1)和6-2)中对于特征F′a的处理,得到预测Yb、Yc、YN-1、Yca和Y(N-1)b。
作为上述技术方案的改进之一,所述步骤7)具体包括:
步骤7-1)根据预测Ya、Yb、Yc、YN-1、Yca和Y(N-1)b分别计算回归损失、目标损失和分类损失;所述回归损失,通过回归损失函数对图像中的每个目标计算,计算公式为:
lossreg=lossiou
lossiou=-ln(iou)
其中,lossreg是回归损失,lossiou是回归损失函数,iou是指每个目标的预测框A和真实框B的交并比;所述目标的预测框A是目标的预测位置,所述真实框B是目标的真实位置;
所述目标损失,对预测特征图的每个网格计算;所述分类损失,对每个目标计算;目标损失和分类损失均采用二进制交叉熵损失函数求得,计算方式分别为:
lossobj=loss(xobj,yobj)
losscls=loss(xcls,ycls)
loss(x,y)=mean{ln,...,lN-1}
ln=-ωn[ynlogσ(xn)+(1-yn)·log(1-σ(xn))]
其中,lossobj是目标损失,losscls是分类损失,loss(x,y)是二进制交叉熵损失函数,xobj是预测特征图每个网格的置信度,yobj是每个网格的真实置信度;xcls是目标的预测类别,ycls是目标的真实类别;N表示样本数量,xn表示预测第n个样本为正例的得分,yn表示第n个样本的标签,σ表示Sigmoid函数,ln是第n个样本的损失,ωn是第n个样本的损失权重系数;
并根据回归损失、目标损失和分类损失计算模型的输出结果与真实标签之间的损失loss,计算公式为:
loss=lossreg+lossobj+losscls
根据计算的损失loss更新模型参数;
步骤7-2)采用步骤7-1)得到的模型参数作为本次迭代的权重值;从剩余的图片中随机选取一组图片,经步骤2)、步骤3)、步骤4)、步骤5)、步骤6)和步骤7-1),得到新的参数组合;反复迭代,直至M组图片全部训练完成;
步骤7-3)对训练图片进行重新洗牌,转至步骤1);反复执行步骤1)至步骤7-2),直至训练出最优参数组合。
作为上述技术方案的改进之一,将待检测的图片输入目标检测网络模型进行检测时,具体包括以下步骤:
步骤8-1)对于待检测的图片,利用双线性插值将待测图片的尺寸调整至模型输入所需大小;
步骤8-2)将调整后的图片输入至最优参数模型,前向推理后得到预测结果;
步骤8-3)对预测结果采用Sigmoid函数进行归一化处理,然后再将回归预测的坐标投影到输入图像上;
步骤8-4)对步骤8-3)中的预测结果执行非极大值抑制得到最终的预测结果,所述最终预测结果包含图片中目标所在位置,类别及其置信度得分;
步骤8-5)换另一张待检测图片,重复步骤8-1)-8-4),直到全部待测图片检测完毕;
对于全部图片的最终预测结果,如果是有真实标签的待测图片,直接通过比较预测结果和真实标签进行定量评估;如果是没有真实标签的实测图片,通过将预测结果可视化在图片上定性衡量。
本发明还提出了一种基于注意力机制及特征交叉融合的目标检测系统,通过根据以上任一所述方法构建的目标检测网络模型实现,所述系统包括:
骨干网,用于对输入图像进行多层次的特征提取;
颈层,用于进一步融合骨干网提取的多层次特征,提高更具代表性的上下文信息,得到全方位的语义融合特征;
特征金字塔网络,用于自顶向下传达强语义特征;
路径融合网络,用于自底向上传达强定位特征;
特征交叉融合模块,用于交叉融合高层次特征与低层次特征,提高特征之间的关联性与信息利用率;和
检测头,用于解码最终的特征并输出预测类别及位置信息。
与现有方法相比,本发明的技术优势在于:
本发明提供的海上目标检测技术方案,通过骨干网中对输入图像提取多层次的特征;然后,在颈层中采用特征金字塔和路径融合网络,分别自顶向下和自底向上地对不同层次的特征进行融合;特征金字塔网络自顶向下传达强语义特征,而路径融合网络自底向上传达强定位特征,进一步提高了网络的特征提取能力;在将特征送至检测头之前,还采用了上采样的方式将高层次特征与低层次特征交叉融合,进一步提高特征之间的信息利用率;最后,将特征送入解耦检测头,对特征进行解码操作,直接预测目标的类别及位置。此外,在实施细节上,骨干网以及颈层中都引入了注意力机制,能够从像素上、通道上以及空间上全方位地学习更丰富的语义信息和细节信息,使得深度学习模型对海上目标具有更强的学习能力及鲁棒性。在基准数据集上测试时,本发明取得了超过现有方法的性能。
附图说明
图1为本发明提供的海上目标检测网络模型示意图;
图2为本发明提供的特征金字塔网络结构示意图;
图3为本发明提供的路径融合网络结构示意图;
图4为本发明提供的特征交叉融合模块示意图。
图5为本发明提供的检测头模块结构示意图。
具体实施方式
下面结合附图和具体实施来对本发明作进一步描述。
图1所示的海上目标检测网络主要由骨干网、特征金字塔网络(FPN)和路径融合网络(PAN)组成的颈层、特征交叉融合模块以及检测头构成,其中骨干网包括:浅层特征提取(SFE)块,三个普通卷积层级特征提取(CFE)块以及一个基于Transformer结构和快速空间金字塔池化的层级特征提取(TFPE)块。该网络的数据处理过程具体包括:
步骤1)数据预处理,将训练所需图片按每组B张随机分成M组,并执行相应的数据增强;
步骤2)随机读取一组图片,通过骨干网对输入图片逐层递进的提取和压缩特征,得到每一层的特征图Fi=B×Ci×Hi×Wi,i∈[0,N-1],其中,Fi为第i层的层级特征,Ci为第i层的特征通道数,Hi为第i层特征图的高,Wi为第i层特征图的宽;此处的特征图指的是Fa,Fb,Fc及FN-1,该表达式并不是计算公式,只是描述大小的表述。
步骤3)对步骤2)中最后一层的层级特征FN-1,通过上采样的方式,自顶向下地逐个融合第一个特征金字塔的低层次特征Fa,Fb,Fc,0≤a<b<c≤(N-1),以获得包含更多语义信息的特征F′i;
步骤4)对步骤3)中最后一层特征F′a,通过卷积操作对特征图下采样,自底向上地对第二个特征金字塔的高层次特征F′b,F′c,F′N-1进行逐层融合,以获得包含更多定位信息的特征,并构成了第三个特征金字塔F′a,F″b,F″c,F″N-1;
步骤5)对步骤4)中分辨率较低的两个特征图F″c,F″N-1通过上采样与各自上面层中分辨率相同的特征图进行交叉融合,得到输出特征F′a,F″ca,F″b,F″(N-1)b,F″c,F″N-1;
步骤6)将步骤5)中的输出特征送至检测头中进行检测和解码,得到目标在原始输入图像上的预测坐标以及预测类别和置信度;
步骤7)计算网络预测与真实值之间的损失函数,采用梯度下降法对上述模型中的参数进行更新;反复迭代,直至训练出最优参数组合;
步骤8)基于最优参数模型实现海面上各类目标的检测(Detect)。
所述步骤1)具体包括:
步骤1-1)将读入的训练集图片进行自适应缩放,缩放后的图片大小为1280×1280×3;
步骤1-2)采用Mosaic数据增强,即:对每张图片,随机选取训练集中额外的三张图片,以随机缩放、随机裁剪、随机排布的方式进行拼接,得到增强后的图片;
步骤1-3)将图片按每组B张随机分成M组。
在上述实施例的基础上,所述步骤2)中的骨干网包括浅层特征提取(SFE)块,三个普通卷积层级特征提取(CFE)块以及一个基于Transformer结构和快速空间金字塔池化的层级特征提取(TFPE)块。除了浅层特征提取操作包含2次下采样,其余步骤都分别只包含1次下采样,每次下采样的倍数都为2。具体地:
步骤2-1)随机读取一组图片Xin,通过浅层特征提取得到Fs,计算公式如下:
Fs=SFE(Xin)
步骤2-2)将得到的浅层特征Fs通过第一个普通卷积层级特征提取块,得到特征金字塔的第一层特征图Fa;
步骤2-3)再将Fa通过第二个普通卷积层级特征提取块,得到特征金字塔的第二层特征图Fb,同理可得第三层特征图Fc,计算公式如下:
Fa=CFE1(Fs),Fb=CFE2(Fa),Fc=CFE3(Fb)
步骤2-4)将Fc通过基于Transformer结构和快速空间金字塔池化的层级特征提取块,得到特征金字塔的最上面一层特征图FN-1,计算公式如下:
FN-1=TFPE(Fc)
至此,通过骨干网后得到了四层分辨率从大到小的金字塔形状的特征组Fa,Fb,Fc,FN-1。
图2为本发明提供的特征金字塔网络结构示意图,即图1中的“FPN”模块。FPN包括一个常规卷积块“Conv”,两个UCCC块(卷积融合块),以及一个带全局注意的UCC-CBAM块(全局注意力融合块)。其中“UCCC”分别对应于上采样“Upsample”,拼接“Concat”,“C3”以及卷积“Conv”层;“Cony”层中卷积核大小为1,步长为1,“CBAM”则表示卷积块的注意力机制模块,是一种结合了空间和通道的全局注意力机制模块。如图2所示,步骤3)对骨干网输出的金字塔特征Fa,Fb,Fc,FN-1,自顶向下地执行:
步骤3-1)先将FN-1通过第一个常规“Conv”块后得到特征F′N-1,接着通过第一个UCCC块,即,将F′N-1上采样后与金字塔中的第二层特征Fc进行“Concat”,随后依次通过“C3”层和“Conv”层进行特征融合得到F′c;
步骤3-2)将F′c通过第二个UCCC块融合Fb得到F′b;
步骤3-3)将F′b通过带全局注意的UCC-CBAM融合Fa得到F′a;
计算公式如下:
F′N-1=Conv(FN-1)
F′c=UCCC1(F′N-1)
F′b=UCCC2(Fc)
F′a=UCC-CBAM(Fb)
在上述过程中,上采样因子为2,除了上采样操作改变了特征图大小,其余操作只改变特征通道数并不改变大小。因此特征组F′N-1大小是20×20,F′c的大小是40×40,F′b的大小是80×80,及F′a的大小是160×160,仍旧构成金字塔状。
图3为本发明提供的路径融合网络(PAN)结构示意图。PAN包含两个CCC-CBAM块(全局注意力卷积块)以及一个基于Transformer结构的CCTF-CBAM块(多重注意力块)。其中,“CCC”分别对应于“Conv”,“Concat”,“C3”;“CCTF”分别对应于“Conv”,“Concat”,“C3TR”。“Conv”中卷积核大小为3,步长为2,“C3TR”是带Transformer结构的“C3”。如图3所示,步骤4)对金字塔特征F′N-1,F′c,F′b,F′a,自底向上地执行:
步骤4-1)先将F′a通过第一个CCC-CBAM块。即,对F′a采用“Conv”下采样后再与F′b“Concat“,然后依次通过“C3”和“CBAM”进行特征融合得到F″b;
步骤4-2)将F″b通过第二个CCC-CBAM块融合F′c得到F″c;
步骤4-3)将F″c通过基于Transformer结构的CCTF-CBAM块融合F′N-1得到F″N-1;
计算公式如下:
F″b=CCC-CBAM1(F′a)
F″c=CCC-CBAM2(F″b)
F″N-1=CCTF-CBAM(F″c)
至此,通过网络的颈层部分后得到了四层分辨率从大到小的金字塔形状的特征组F′a,F″b,F″c,F″N-1。
图4为本发明提供的特征交叉融合模块示意图。特征交叉融合模块包含两个特征交叉融合单元UCC。其中,“U”表示上采样,上采样因子为4;第一个“C”表示“Concat”,第二个“C”表示核大小为3,步长为1的卷积,目的是融合拼接后的特征。如图4所示,步骤5)包括:
步骤5-1)将特征F″c通过第一个特征交叉融合单元UCC。即,将F″c上采样后与F′a“Concat”,然后通过“Conv”进行特征得到F″ca;
步骤5-2)同理,将特征F″N-1通过另一个UCC融合F″b得到F″(N-1)b;
计算公式如下:
F″ca=UCC1(F″c,F′a)
F″(N-1)b=UCC2(F″N-1,F″b)
至此,得到输出特征F′a,F″b,F″c,F″N-1,F″ca,F″(N-1)b。其中,F″N-1的大小是20×20,F″c的大小是40×40,F″b和F″(N-1)b的大小是80×80,F′a和F″ca的大小是160×160。
图5为本发明提供的检测头模块结构示意图。图5所示图片上的检测头是其中一个。检测头模块中检测头的个数对应输出特征数,共有6个检测头,每个检测头包含一个1×1的“Conv”层(Con,1,其输出大小为H×W×128)来减小通道维数,然后是两个平行分支,分别是两个3×3的“Conv”层(Con,3,其输出大小为H×W×128)。两个分支分别用于分类任务(“Cls.”)和回归(“Reg.”)任务,目标分支(“Obj.”)添加到回归分支上,通过1×1的二维卷积“Conv2d”(Conv2d,1)得到最终的Cls(其输出大小为H×W×Ccls)、Reg(其输出大小为H×W×4)和Obj(其输出大小为H×W×1)预测。其中,Cls的通道数为目标类别数,Reg的通道数为4,对应目标的中心坐标(x,y)以及目标的高度h和宽度w,Obj的通道数为1。Obj预测的值表示该预测是目标的概率,即置信度。H和W表示的是特征图的大小,h和w是特征图中目标的大小,h<H,w<W。
因此,对输出特征F′a,F″b,F″c,F″N-1,F″ca,F″(N-1)b,如图5所示,步骤6)具体包括:
步骤6-1)将特征F′a通过对应的检测头后得到三个预测Ya,Reg,Ya,obj,Ya,Cls,然后将三个预测在通道维度进行拼接,得到预测Ya:
Ya=Cat([Ya,Reg,Ya,Obj,Ya,Cls],1)
其中,“Cat”表示拼接操作,“1”表示通道维度。
步骤6-2)取步骤6-1)中预测Ya的前4个通道,即目标的预测坐标,将其投影到输入图像上;
步骤6-3)对其余5个特征重复上述步骤,可得预测
Ya,Yb,Yc,YN-1,Yca,Y(N-1)b。其中,YN-1的大小是20×20,Yc的大小是40×40,Yb和Y(N-1)b的大小是80×80,Ya和Yca的大小是160×160。
在上述实施例的基础上,步骤7具体包括:
根据预测Ya、Yb、Yc、YN-1、Yca和Y(N-1)b分别计算回归损失、目标损失和分类损失;所述回归损失,通过回归损失函数对图像中的每个目标计算,计算公式为:
lossreg=lossiou
lossiou=-ln(iou)
其中,lossreg是回归损失,lossiou是回归损失函数,iou是指每个目标的预测框A和真实框B的交并比;所述目标的预测框A是目标的预测位置,所述真实框B是目标的真实位置;
所述目标损失,对预测特征图的每个网格计算;所述分类损失,对每个目标计算;目标损失和分类损失均采用二进制交叉熵损失函数求得,计算方式分别为:
lossobj=loss(xobj,yobj)
losscls=loss(xcls,ycls)
loss(x,y)=mean{ln,...,lN-1}
ln=-ωn[ynlogσ(xn)+(1-yn)·log(1-σ(xn))]
其中,lossobj是目标损失,losscls是分类损失,loss(x,y)是二进制交叉熵损失函数,xobj是预测特征图每个网格的置信度,yobj是每个网格的真实置信度;xcls是目标的预测类别,vcls是目标的真实类别;N表示样本数量,xn表示预测第n个样本为正例的得分,yn表示第n个样本的标签,σ表示Sigmoid函数,ln是第n个样本的损失,ωn是第n个样本的损失权重系数;
并根据回归损失、目标损失和分类损失计算模型的输出结果与真实标签之间的损失loss,计算公式为:
loss=lossreg+lossobj+losscls
根据计算的损失loss更新模型参数。
步骤7-2)采用步骤7-1)得到的模型参数作为本次迭代的权重值;从剩余的图片中随机选取一组图片,经步骤2)、步骤3)、步骤4)、步骤5)、步骤6)和步骤7-1),得到新的参数组合;反复迭代,直至M组图片全部训练完成;
步骤7-3)对训练图片进行重新洗牌,转至步骤1;反复执行,直至训练出最优参数组合。
在上述技术方案的基础上,所述步骤8)具体包括:
步骤8-1)对于待检测的图片,利用双线性插值将待测图片的尺寸调整至模型输入所需大小1280×1280×3;
步骤8-2)将调整后的图片输入至最优参数模型,前向推理后得到预测结果;
步骤8-3)对预测结果采用Sigmoid函数进行归一化处理,然后再将预测的坐标“Reg”预测投影到输入图像上;
步骤8-4)对步骤8-3)中的预测结果执行非极大值抑制(NMS)得到最终的预测结果,包含图片中目标所在位置,类别及其置信度得分。
步骤8-5)重复上述步骤,直到全部待测图片检测完毕。
如果是有真实标签的待测图片,可以直接通过比较预测结果和真实标签进行定量评估;如果是没有真实标签的实测图片,可以通过将预测结果可视化在图片上定性衡量。
本发明还提供了一种基于注意力机制及特征交叉融合的海上目标检测系统,根据上述任一方法构建的海上目标检测网络模型实现,所述系统包括:
骨干网,用于对输入图像进行多层次的特征提取;
颈层,用于进一步融合骨干网提取的多层次特征,提高更具代表性的上下文信息,得到全方位的语义融合特征;
特征金字塔网络和路径融合网络,分别用于自顶向下传达强语义特征和自底向上传达强定位特征;
特征交叉融合模块,用于交叉融合高层次特征与低层次特征,提高特征之间的关联性与信息利用率;
检测头,用于解码最终的特征并输出预测类别及位置信息。
从上述对本发明的具体描述可以看出,本发明实现过程中在骨干网以及颈层中都引入了注意力机制,能够从像素上、通道上以及空间上全方位的地学习更丰富的语义信息和细节信息,此外,在检测头之前增加特征交叉融合模块,再一次交叉地融合高低层次特征,提高特征之间的信息利用率,进一步优化特征,使得深度学习模型对海上目标具有更强的学习能力及鲁棒性,能够更精确的识别与定位海上目标。
需要特别指出的是,本发明的目的是为了检测海上目标,但本发明的适用范围不只限于进行海上目标检测,同样也适用于其他基于图像/视觉的目标检测,例如,对陆地上的目标进行检测时也可以选择采用本发明提出的方法进行检测。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种基于注意力机制及特征交叉融合的目标检测方法,所述方法首先对经过预处理的训练集图片提取特征,并对提取的特征分别通过特征金字塔网络、路径融合网络以及特征交叉融合模块进行交叉提炼,并在提炼时引入多种注意力机制,由此得到输出特征后,将输出特征送入检测头得到预测结果,计算预测结果与真实标签之间的损失,根据计算的损失反复训练调整模型参数,直至得到最优模型参数后输出目标检测网络模型,然后将待检测图片输入网络模型得到预测结果,最后,对预测结果进行解码得到待检测图片中目标的位置、类别及其置信度。
2.根据权利要求1所述的基于注意力机制及特征交叉融合的目标检测方法,其特征在于,所述方法在建立目标检测网络模型时包括以下步骤:
步骤1)数据预处理,将训练所需图片进行缩放增强后按每组B张随机分成M组;
步骤2)随机读取一组图片,通过N层骨干网对输入图片逐层递进的提取和压缩特征,得到每一层的特征图;
步骤3)对步骤2)中最后一层的层级特征,通过上采样的方式,自顶向下地逐个融合低层次特征,以获得包含更多语义信息的特征;
步骤4)对步骤3)中最后一层特征,通过卷积操作对特征图下采样,自底向上地对高层次特征进行逐层融合,以获得包含更多定位信息的特征;
步骤5)对步骤4)中分辨率较低的两个特征图通过上采样与各自上面层中分辨率相同的特征图进行交叉融合,得到输出特征;
步骤6)将步骤5)中的输出特征送至检测头中进行检测和解码,得到目标在原始输入图像上的预测坐标以及预测类别和置信度;
步骤7)计算网络预测与真实值之间的损失函数,采用梯度下降法对上述模型中的参数进行更新;反复迭代,直至训练出最优参数组合,输出目标检测网络模型。
3.根据权利要求2所述的基于注意力机制及特征交叉融合的目标检测方法,其特征在于,所述步骤2)中的骨干网包括浅层特征提取块,三个普通卷积层级特征提取块以及一个基于Transformer结构和快速空间金字塔池化的层级特征提取块;其中,浅层特征提取操作包含2次下采样,每个普通卷积层级特征提取操作及基于Transformer结构和快速空间金字塔池化的层级特征提取操作都分别只包含1次下采样;每次下采样的倍数都为2;具体地,包括以下步骤:
步骤2-1)随机读取一组图片Xin,通过浅层特征提取块,得到浅层特征Fs;
步骤2-2)将得到的浅层特征Fs通过第一个普通卷积层级特征提取块,得到特征金字塔的第一层特征图Fa;
步骤2-3)将Fa通过第二个普通卷积层级特征提取块,得到特征金字塔的第二层特征图Fb,再将Fb通过第三个普通卷积层级特征提取块,得到特征金字塔的第三层特征图Fc;
步骤2-4)将Fc通过基于Transformer结构和快速空间金字塔池化的层级特征提取块,得到特征金字塔的最上面一层特征图FN-1。
4.根据权利要求2所述的基于注意力机制及特征交叉融合的目标检测方法,其特征在于,所述步骤3)中的特征金字塔网络包括一个常规卷积块,两个卷积融合块,以及一个全局注意力融合块;
其中,所述卷积融合块包括:上采样层、拼接层、C3层以及Conv层;所述全局注意力融合块包括上采样层、拼接层、C3层和全局注意力层;所述上采样层中的上采样因子为2;所述Conv层中卷积核大小为1,步长为1;具体地,对特征图Fa、Fb、Fc和FN-1,自顶向下地执行以下步骤:
步骤3-1)先将FN-1通过第一个常规卷积块后得到特征图F′N-1,接着通过第一个卷积融合块,即将F′N-1上采样后与Fc进行拼接,随后依次通过C3层和Conv层进行特征融合得到特征图F′c;
步骤3-2)将F′c通过第二个卷积融合块融合Fb得到特征图F′b;
步骤3-3)将F′b通过全局注意力融合块融合Fa得到特征图F′a。
5.根据权利要求2所述的基于注意力机制及特征交叉融合的目标检测方法,其特征在于,所述步骤4)中的路径融合网络包含两个全局注意力卷积块以及一个多重注意力块;
其中,所述全局注意力卷积块包括:Conv层、拼接层和C3层和全局注意力层;所述多重注意力块包括:Conv层、拼接层、基于Transformer结构的C3层和全局注意力层;Conv层的卷积核大小为3,步长为2;具体地,对特征图F′N-1、F′c、F′b和F′a,自底向上地执行以下步骤:
步骤4-1)先将F′a通过第一个全局注意力卷积块,即对F′a采用Conv层下采样后与F′b拼接,然后依次通过C3层和全局注意力层进行特征融合得到特征图F″b;
步骤4-2)将F″b通过第二个全局注意力卷积块融合F′c得到特征图F″c;
步骤4-3)将F″c通过多重注意力块融合F′N-1得到特征图F″N-1。
6.根据权利要求2所述的基于注意力机制及特征交叉融合的目标检测方法,其特征在于,所述步骤5)包含两个特征交叉融合单元;
所述特征交叉融合单元包括:上采样层、拼接层、Conv层;其中,上采样层的上采样因子为4;Conv层的卷积核大小为3,步长为1;具体地,对特征图F′a、F″b、F″c和F″N-1,执行以下步骤:
步骤5-1)将特征F″c通过第一个特征交叉融合单元,即将F″c上采样后与F′a拼接,然后通过Conv层进行特征融合得到特征图F″ca;
步骤5-2)将特征F″N-1通过另一个特征交叉融合单元得到特征图F″(N-1)b。
7.根据权利要求2所述的基于注意力机制及特征交叉融合的目标检测方法,其特征在于,步骤6)中检测头的个数对应输出特征数;其中,每个检测头包含一个1×1的Conv层和两个平行分支,所述平行分支是两个3×3的Conv层;两个分支分别用于分类任务和回归任务;目标分支被添加到回归任务分支上;
通过1×1的二维卷积操作得到最终的分类预测、回归预测和目标预测;其中,分类预测判断检测到的目标属于哪个类别,通道数为目标类别数;回归预测判断检测到的目标在图像中所处的相对位置,并以矩形框的形式表示,通道数为4,4个通道分别对应目标的中心坐标(x,y)以及目标的高度h和宽度w;目标预测的通道数为1,预测的值为置信度,其中,所述置信度表示该预测是目标的概率;具体地,对输出特征图F′a、F″b、F″c、F″N-1、F″ca和F″(N-1)b,执行以下步骤:
步骤6-1)将特征F′a通过对应的检测头后得到三个预测Ya,Reg、Ya,Obj、Ya,Cls,然后将三个预测在通道维度进行拼接,得到预测Ya;
步骤6-2)取步骤6-1)中预测Ya的前4个通道,将其投影到输入图像上;
步骤6-3)对其余5个特征F″b、F″c、F″N-1、F″ca和F″(N-1)b分别依次进行步骤6-1)和6-2)中对于特征F′a的处理,得到预测Yb、Yc、YN-1、Yca和Y(N-1)b。
8.根据权利要求2所述的基于注意力机制及特征交叉融合的目标检测方法,其特征在于,所述步骤7)具体包括:
步骤7-1)根据预测Ya、Yb、Yc、YN-1、Yca和Y(N-1)b分别计算回归损失、目标损失和分类损失;所述回归损失,通过回归损失函数对图像中的每个目标计算,计算公式为:
lossreg=lossiou
lossiou=-ln(iou)
其中,lossreg是回归损失,lossiou是回归损失函数,iou是指每个目标的预测框A和真实框B的交并比;所述目标的预测框A是目标的预测位置,所述真实框B是目标的真实位置;
所述目标损失,对预测特征图的每个网格计算;所述分类损失,对每个目标计算;目标损失和分类损失均采用二进制交叉熵损失函数求得,计算方式分别为:
lossobj=loss(xobj,yobj)
losscls=loss(xcls,ycls)
loss(x,y)=mean{ln,...,lN-1}
ln=-ωn[ynlogσ(xn)+(1-yn)·log(1-σ(xn))]
其中,lossobj是目标损失,losscls是分类损失,loss(x,y)是二进制交叉熵损失函数,xobj是预测特征图每个网格的置信度,yobj是每个网格的真实置信度;xcls是目标的预测类别,vcls是目标的真实类别;N表示样本数量,xn表示预测第n个样本为正例的得分,yn表示第n个样本的标签,σ表示Sigmoid函数,ln是第n个样本的损失,ωn是第n个样本的损失权重系数;
并根据回归损失、目标损失和分类损失计算模型的输出结果与真实标签之间的损失loss,计算公式为:
loss=lossreg+lossobj+losscls
根据计算的损失loss更新模型参数;
步骤7-2)采用步骤7-1)得到的模型参数作为本次迭代的权重值;从剩余的图片中随机选取一组图片,经步骤2)、步骤3)、步骤4)、步骤5)、步骤6)和步骤7-1),得到新的参数组合;反复迭代,直至M组图片全部训练完成;
步骤7-3)对训练图片进行重新洗牌,转至步骤1);反复执行步骤1)至步骤7-2),直至训练出最优参数组合。
9.根据权利要求1所述的基于注意力机制及特征交叉融合的目标检测方法,其特征在于,将待检测的图片输入目标检测网络模型进行检测时,具体包括以下步骤:
步骤8-1)对于待检测的图片,利用双线性插值将待测图片的尺寸调整至模型输入所需大小;
步骤8-2)将调整后的图片输入至最优参数模型,前向推理后得到预测结果;
步骤8-3)对预测结果采用Sigmoid函数进行归一化处理,然后再将回归预测的坐标投影到输入图像上;
步骤8-4)对步骤8-3)中的预测结果执行非极大值抑制得到最终的预测结果,所述最终预测结果包含图片中目标所在位置,类别及其置信度得分;
步骤8-5)换另一张待检测图片,重复步骤8-1)-8-4),直到全部待测图片检测完毕;
对于全部图片的最终预测结果,如果是有真实标签的待测图片,直接通过比较预测结果和真实标签进行定量评估;如果是没有真实标签的实测图片,通过将预测结果可视化在图片上定性衡量。
10.一种基于注意力机制及特征交叉融合的目标检测系统,通过根据权利要求1-9任一所述方法构建的目标检测网络模型实现,其特征在于,所述系统包括:
骨干网,用于对输入图像进行多层次的特征提取;
颈层,用于进一步融合骨干网提取的多层次特征,提高更具代表性的上下文信息,得到全方位的语义融合特征;
特征金字塔网络,用于自顶向下传达强语义特征;
路径融合网络,用于自底向上传达强定位特征;
特征交叉融合模块,用于交叉融合高层次特征与低层次特征,提高特征之间的关联性与信息利用率;和
检测头,用于解码最终的特征并输出预测类别及位置信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210532337.1A CN115035361B (zh) | 2022-05-11 | 2022-05-11 | 基于注意力机制和特征交叉融合的目标检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210532337.1A CN115035361B (zh) | 2022-05-11 | 2022-05-11 | 基于注意力机制和特征交叉融合的目标检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115035361A true CN115035361A (zh) | 2022-09-09 |
CN115035361B CN115035361B (zh) | 2024-10-25 |
Family
ID=83122027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210532337.1A Active CN115035361B (zh) | 2022-05-11 | 2022-05-11 | 基于注意力机制和特征交叉融合的目标检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115035361B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115690704A (zh) * | 2022-09-27 | 2023-02-03 | 淮阴工学院 | 基于LG-CenterNet模型的复杂道路场景目标检测方法及装置 |
CN116129129A (zh) * | 2022-10-09 | 2023-05-16 | 南京恩博科技有限公司 | 一种人物交互检测模型及检测方法 |
CN116311361A (zh) * | 2023-03-02 | 2023-06-23 | 北京化工大学 | 一种基于像素级标注的危险源室内工作人员定位方法 |
CN116704264A (zh) * | 2023-07-12 | 2023-09-05 | 北京万里红科技有限公司 | 动物分类方法、分类模型训练方法、存储介质及电子设备 |
CN116883825A (zh) * | 2023-07-26 | 2023-10-13 | 南京信息工程大学 | 结合多模态数据融合和Multiplemix的水下目标检测方法 |
CN116993756A (zh) * | 2023-07-05 | 2023-11-03 | 石河子大学 | 一种大田棉花黄萎病病斑分割方法 |
CN117115583A (zh) * | 2023-08-09 | 2023-11-24 | 广东工业大学 | 基于交叉融合注意力机制的危险品检测方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020098225A1 (zh) * | 2018-11-16 | 2020-05-22 | 北京市商汤科技开发有限公司 | 关键点检测方法及装置、电子设备和存储介质 |
CN113255443A (zh) * | 2021-04-16 | 2021-08-13 | 杭州电子科技大学 | 一种基于金字塔结构的图注意力网络时序动作定位方法 |
CN113657285A (zh) * | 2021-08-18 | 2021-11-16 | 中国人民解放军陆军装甲兵学院 | 一种基于小尺度目标的实时目标检测方法 |
CN113920468A (zh) * | 2021-12-13 | 2022-01-11 | 松立控股集团股份有限公司 | 一种基于跨尺度特征增强的多分支行人检测方法 |
-
2022
- 2022-05-11 CN CN202210532337.1A patent/CN115035361B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020098225A1 (zh) * | 2018-11-16 | 2020-05-22 | 北京市商汤科技开发有限公司 | 关键点检测方法及装置、电子设备和存储介质 |
CN113255443A (zh) * | 2021-04-16 | 2021-08-13 | 杭州电子科技大学 | 一种基于金字塔结构的图注意力网络时序动作定位方法 |
CN113657285A (zh) * | 2021-08-18 | 2021-11-16 | 中国人民解放军陆军装甲兵学院 | 一种基于小尺度目标的实时目标检测方法 |
CN113920468A (zh) * | 2021-12-13 | 2022-01-11 | 松立控股集团股份有限公司 | 一种基于跨尺度特征增强的多分支行人检测方法 |
Non-Patent Citations (1)
Title |
---|
郭启帆;刘磊;张珹;徐文娟;靖稳峰;: "基于特征金字塔的多尺度特征融合网络", 工程数学学报, no. 05, 15 October 2020 (2020-10-15) * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115690704A (zh) * | 2022-09-27 | 2023-02-03 | 淮阴工学院 | 基于LG-CenterNet模型的复杂道路场景目标检测方法及装置 |
CN115690704B (zh) * | 2022-09-27 | 2023-08-22 | 淮阴工学院 | 基于LG-CenterNet模型的复杂道路场景目标检测方法及装置 |
CN116129129A (zh) * | 2022-10-09 | 2023-05-16 | 南京恩博科技有限公司 | 一种人物交互检测模型及检测方法 |
CN116129129B (zh) * | 2022-10-09 | 2023-11-03 | 南京恩博科技有限公司 | 一种人物交互检测模型及检测方法 |
CN116311361A (zh) * | 2023-03-02 | 2023-06-23 | 北京化工大学 | 一种基于像素级标注的危险源室内工作人员定位方法 |
CN116311361B (zh) * | 2023-03-02 | 2023-09-15 | 北京化工大学 | 一种基于像素级标注的危险源室内工作人员定位方法 |
CN116993756A (zh) * | 2023-07-05 | 2023-11-03 | 石河子大学 | 一种大田棉花黄萎病病斑分割方法 |
CN116704264A (zh) * | 2023-07-12 | 2023-09-05 | 北京万里红科技有限公司 | 动物分类方法、分类模型训练方法、存储介质及电子设备 |
CN116704264B (zh) * | 2023-07-12 | 2024-01-30 | 北京万里红科技有限公司 | 动物分类方法、分类模型训练方法、存储介质及电子设备 |
CN116883825A (zh) * | 2023-07-26 | 2023-10-13 | 南京信息工程大学 | 结合多模态数据融合和Multiplemix的水下目标检测方法 |
CN117115583A (zh) * | 2023-08-09 | 2023-11-24 | 广东工业大学 | 基于交叉融合注意力机制的危险品检测方法及装置 |
CN117115583B (zh) * | 2023-08-09 | 2024-04-02 | 广东工业大学 | 基于交叉融合注意力机制的危险品检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115035361B (zh) | 2024-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115035361A (zh) | 基于注意力机制和特征交叉融合的目标检测方法及系统 | |
Wang et al. | Multiscale visual attention networks for object detection in VHR remote sensing images | |
CN108764063B (zh) | 一种基于特征金字塔的遥感影像时敏目标识别系统及方法 | |
CN111738112B (zh) | 基于深度神经网络和自注意力机制的遥感船舶图像目标检测方法 | |
CN114359851A (zh) | 无人驾驶目标检测方法、装置、设备及介质 | |
CN114359130A (zh) | 一种基于无人机影像的道路裂缝检测方法 | |
CN114445430A (zh) | 轻量级多尺度特征融合的实时图像语义分割方法及系统 | |
CN114332473B (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN112990065A (zh) | 一种基于优化的YOLOv5模型的车辆分类检测方法 | |
CN116469020A (zh) | 一种基于多尺度和高斯Wasserstein距离的无人机图像目标检测方法 | |
CN115830531A (zh) | 一种基于残差多通道注意力多特征融合的行人重识别方法 | |
CN117037004B (zh) | 基于多尺度特征融合和上下文增强的无人机影像检测方法 | |
CN115937697A (zh) | 一种遥感影像变化检测方法 | |
CN115565044A (zh) | 一种目标检测方法及系统 | |
CN113971764A (zh) | 一种基于改进YOLOv3的遥感图像小目标检测方法 | |
CN112149526B (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN115861756A (zh) | 基于级联组合网络的大地背景小目标识别方法 | |
CN115527096A (zh) | 一种基于改进YOLOv5的小目标检测方法 | |
Dong et al. | Intelligent pixel-level pavement marking detection using 2D laser pavement images | |
CN116092034A (zh) | 一种基于改进的DeeplabV3+模型的车道线检测方法 | |
CN118314353B (zh) | 一种基于双分支多尺度特征融合的遥感图像分割方法 | |
Pang et al. | PTRSegNet: A Patch-to-Region Bottom-Up Pyramid Framework for the Semantic Segmentation of Large-Format Remote Sensing Images | |
CN115761552B (zh) | 面向无人机机载平台的目标检测方法、设备及介质 | |
CN117218545A (zh) | 基于LBP特征与改进Yolov5的雷达图像检测方法 | |
CN116935249A (zh) | 一种无人机场景下三维特征增强的小目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |