[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN113361528B - 一种多尺度目标检测方法及系统 - Google Patents

一种多尺度目标检测方法及系统 Download PDF

Info

Publication number
CN113361528B
CN113361528B CN202110910802.6A CN202110910802A CN113361528B CN 113361528 B CN113361528 B CN 113361528B CN 202110910802 A CN202110910802 A CN 202110910802A CN 113361528 B CN113361528 B CN 113361528B
Authority
CN
China
Prior art keywords
convolution
cavity
target detection
branch
hole
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110910802.6A
Other languages
English (en)
Other versions
CN113361528A (zh
Inventor
朱敏
严凡
王帅
赵文登
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Telecom Easiness Information Technology Co Ltd
Original Assignee
Beijing Telecom Easiness Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Telecom Easiness Information Technology Co Ltd filed Critical Beijing Telecom Easiness Information Technology Co Ltd
Priority to CN202110910802.6A priority Critical patent/CN113361528B/zh
Publication of CN113361528A publication Critical patent/CN113361528A/zh
Application granted granted Critical
Publication of CN113361528B publication Critical patent/CN113361528B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种多尺度目标检测方法及系统,该方法包括:构建空洞金字塔网络模型;空洞金字塔网络模型包括依次连接的多个卷积模块和多个卷积支路,各卷积模块的输出分别连接一个卷积支路,卷积支路包括一个卷积操作和多个空洞卷积操作,卷积支路中的卷积操作和空洞卷积操作为并列关系;一个卷积支路中多个空洞卷积操作的扩张率相同,卷积核尺寸不同;卷积支路的输出按照分辨率从低到高,依次将各第一特征图进行上采样操作后与同尺寸的相邻第一特征图进行元素级相加,获得多个融合特征图;根据目标检测数据集对空洞金字塔网络模型进行模型训练,获得目标检测模型;利用目标检测模型对待检测图像进行目标检测。本发明提高了目标检测的准确性。

Description

一种多尺度目标检测方法及系统
技术领域
本发明涉及目标检测技术领域,特别是涉及一种多尺度目标检测方法及系统。
背景技术
目标检测技术是计算机视觉领域的一大核心研究方向,旨在获取图像中感兴趣目标的所属分类和所在位置。该技术不仅是目标跟踪、语义分割等诸多计算机视觉任务的研究基础,也被广泛应用于医学诊断、自动驾驶、智能视频监控、军事目标监测等多种民用和军用领域。随着应用场景的多元化和复杂化,一张待检图像中往往包含了多个不同尺度的目标,这使得现阶段的目标检测任务面临着尺度差异带来的严峻挑战。多尺度目标检测也因此成为了目标检测领域的研究热点之一。
作为解决尺度问题的主流算法,多尺度特征融合技术通过构建特征金字塔网络将卷积神经网络中包含更多细节信息的浅层特征图与包含更多语义信息的深层特征图进行融合,使得各个特征层同时具有丰富的细节特征和语义特征,从而有效提升神经网络的特征表达能力。但现有多尺度特征融合方法的不足之处在于,每个特征层虽然包含丰富的特征信息,但各个特征层仅对固定尺度范围内的目标敏感,不仅使得特征信息的利用率不高,也限制了网络的各个特征层对不同尺度目标的检测能力。
发明内容
本发明的目的是提供一种多尺度目标检测方法及系统,提高了目标检测的准确性。
为实现上述目的,本发明提供了如下方案:
一种多尺度目标检测方法,包括:
采集目标检测数据集;
构建空洞金字塔网络模型;所述空洞金字塔网络模型包括依次连接的多个卷积模块和多个卷积支路,各卷积模块包括卷积操作,各卷积模块的输出分别连接一个卷积支路,所述卷积支路包括一个卷积操作和多个空洞卷积操作,所述卷积支路中的卷积操作和空洞卷积操作为并列关系;一个所述卷积支路中多个空洞卷积操作的扩张率相同,卷积核尺寸不同;所述卷积支路中的一个卷积操作和多个空洞卷积操作输出的特征图采用元素级加和操作,获得第一特征图;按照分辨率从低到高的顺序依次将各所述第一特征图进行上采样操作后与同尺寸的相邻第一特征图进行元素级相加,获得多个融合特征图;
根据所述目标检测数据集对所述空洞金字塔网络模型进行模型训练,获得目标检测模型;
利用所述目标检测模型对待检测图像进行目标检测。
可选地,各所述卷积模块的输出经过卷积核为1*1的卷积层后输入所述卷积支路。
可选地,所述空洞金字塔网络模型还包括区域建议网络,各所述融合特征图输入所述区域建议网络,所述区域建议网络分别输出与各所述融合特征图对应的候选区域。
可选地,所述空洞金字塔网络模型还包括ROI池化层和检测头,所述ROI池化层的输入连接所述区域建议网络的输出,所述ROI池化层的输出连接所述检测头,所述检测头用于输出检测结果。
可选地,所述卷积支路包括一个卷积核为1*1的卷积操作和2个空洞卷积操作。
可选地,2个空洞卷积操作分别为第一空洞卷积操作和第二空洞卷积操作;第一空洞卷积操作为卷积核为3*3的空洞卷积操作,扩张率为2;第二空洞卷积操作为卷积核为5*5的空洞卷积操作,扩张率为2。
本发明还公开了一种多尺度目标检测系统,包括:
数据集采集模块,用于采集目标检测数据集;
空洞金字塔网络模型构建模块,用于构建空洞金字塔网络模型;所述空洞金字塔网络模型包括依次连接的多个卷积模块和多个卷积支路,各卷积模块包括卷积操作,各卷积模块的输出分别连接一个卷积支路,所述卷积支路包括一个卷积操作和多个空洞卷积操作,所述卷积支路中的卷积操作和空洞卷积操作为并列关系;一个所述卷积支路中多个空洞卷积操作的扩张率相同,卷积核尺寸不同;所述卷积支路中的一个卷积操作和多个空洞卷积操作输出的特征图采用元素级加和操作,获得第一特征图;按照分辨率从低到高的顺序依次将各所述第一特征图进行上采样操作后与同尺寸的相邻第一特征图进行元素级相加,获得多个融合特征图;
空洞金字塔网络模型训练模块,用于根据所述目标检测数据集对所述空洞金字塔网络模型进行模型训练,获得目标检测模型;
目标检测模块,用于利用所述目标检测模型对待检测图像进行目标检测。
可选地,各所述卷积模块的输出经过卷积核为1*1的卷积层后输入所述卷积支路。
可选地,所述卷积支路包括一个卷积核为1*1的卷积操作和2个空洞卷积操作,2个空洞卷积操作分别为第一空洞卷积操作和第二空洞卷积操作;第一空洞卷积操作为卷积核为3*3的空洞卷积操作,扩张率为2;第二空洞卷积操作为卷积核为5*5的空洞卷积操作,扩张率为2。
可选地,所述空洞金字塔网络模型还包括区域建议网络,各所述融合特征图输入所述区域建议网络,所述区域建议网络分别输出与各所述融合特征图对应的候选区域;
所述空洞金字塔网络模型还包括ROI池化层和检测头,所述ROI池化层的输入连接所述区域建议网络的输出,所述ROI池化层的输出连接所述检测头,所述检测头用于输出检测结果。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明将空洞卷积多分支结构与多尺度特征融合技术相结合,通过采用不同卷积核的空洞卷积提取特征信息,可使卷积层具有不同尺寸的感受野,有助于单一特征层获取到更丰富的多尺度上下文特征信息,增强各个特征层对不同尺度目标的敏感性,提高了目标检测的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种多尺度目标检测方法流程示意图;
图2为本发明一种多尺度目标检测方法具体流程示意图;
图3为本发明空洞金字塔网络模型结构示意图;
图4为本发明一种多尺度目标检测系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种多尺度目标检测方法及系统,提高了目标检测的准确性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明一种多尺度目标检测方法流程示意图,如图1所示,一种多尺度目标检测方法具体包括以下内容:
一种多尺度目标检测方法,包括:
步骤101:采集目标检测数据集。
首先利用车载摄像头获取不同交通场景下车辆行进过程中的图像数据,并进行图像预处理;接下来,基于图像标注软件对图像中的目标(包括各类车辆、行人、交通标识牌、路面阻挡物)进行类别和位置标注,从而得到每个图像对应的标注文件;最后,进行训练集和测试集划分,将图像数据与标注文件制成VOC2007数据集格式,从而得到目标检测数据集。
图像预处理为数据增强操作,包括:水平翻转、亮度对比度调整,以增强网络对光线变化的鲁棒性。
作为具体实施例,图像标注软件为LabelImg软件。
步骤102:构建空洞金字塔网络模型;空洞金字塔网络模型包括依次连接的多个卷积模块和多个卷积支路,各卷积模块包括卷积操作,且各卷积模块输出的图像按照图像输入方向依次减小,各卷积模块的输出分别连接一个卷积支路,卷积支路包括一个卷积操作和多个空洞卷积操作,卷积支路中的卷积操作和空洞卷积操作为并列关系;一个卷积支路中多个空洞卷积操作的扩张率相同,卷积核尺寸不同;卷积支路中的一个卷积操作和多个空洞卷积操作输出的特征图采用元素级加和操作,获得第一特征图;按照分辨率从低到高的顺序依次将各第一特征图进行上采样操作后与同尺寸的相邻第一特征图进行元素级相加,获得多个融合特征图。
多个卷积模块分别为依次连接的第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块和第五卷积模块。第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块和第五卷积模块的输出分别为C_1、C_2、C_3、C_4、C_5,第五卷积模块的输出特征图进行0.5倍下采样得到特征图C_6。
各卷积模块为resnet101卷积模块。
各卷积模块与空洞金字塔网络之间设置卷积核为1*1的卷积层,各卷积模块的输出经过卷积核为1*1的卷积层后输入空洞金字塔网络。具体为,C_1、C_2、C_3、C_4、C_5和C_6,分别输入卷积核为1*1的卷积层后分别输入空洞金字塔网络,对应输出分别为特征图P_1、P_2、P_3、P_4、P_5、P_6。
特征图P_6通过2倍上采样操作得到与特征图P_5相同尺度的特征图,并与特征图P_5进行元素级相加,得到特征图F_5;特征图P_5通过2倍上采样操作得到与特征图P_4相同尺度的特征图,并与特征图P_4进行元素级相加,得到特征图F_4;特征图P_4通过2倍上采样操作得到与特征图P_3相同尺度的特征图,并与特征图P_3进行元素级相加,得到特征图F_3;特征图P_3通过2倍上采样操作得到与特征图P_2相同尺度的特征图,并与特征图P_2进行元素级相加,得到特征图F_2;特征图P_2通过2倍上采样操作得到与特征图P_1相同尺度的特征图,并与特征图P_1进行元素级相加,得到特征图F_1;将特征图F_1、F_2、F_3、F_4经过一层卷积核为3×3的卷积操作,获得更新后的特征图F_1、F_2、F_3、F_4,以消除低层的特征混叠效应。
空洞金字塔网络模型(卷积神经网络)的骨干网络为ResNet101。
各卷积模块的输出经过卷积核为1*1的卷积层后输入卷积支路。
卷积支路包括卷积核为1*1的常规卷积操作和两个空洞卷积操作:
空洞卷积操作的数量为2,2个空洞卷积操作分别为第一空洞卷积操作和第二空洞卷积操作;第一空洞卷积操作为卷积核为3*3的空洞卷积操作,扩张率为2;第二空洞卷积操作为卷积核为5*5的空洞卷积操作,扩张率为2。
空洞金字塔网络模型还包括区域建议网络(图2中区域候选网络),各融合特征图输入区域建议网络,区域建议网络分别输出与各融合特征图对应的候选区域。
空洞金字塔网络模型还包括ROI池化层(图2中目标区域池化)和检测头,ROI池化层的输入连接区域建议网络的输出,ROI池化层的输出连接检测头,检测头用于输出检测结果。检测头包括回归支路和分类支路。
如图2-3所示,以输入图像1024×1024为例,说明本发明一种多尺度目标检测的具体过程,步骤如下:
(1)设计空洞金字塔网络,并嵌入Faster RCNN网络的骨干网络ResNet101中。本发明中Faster RCNN所使用的骨干网络为ResNet101,作用是提取输入图像的特征信息,ResNet101网络由5个卷积模块(conv1、conv2、conv3、conv4、conv5)组成,各卷积模块的输出特征图分别为C_1、C_2、C_3、C_4、C_5。设计空洞金字塔网络,并将其嵌入ResNet101卷积模块之后,以便使后续特征图都能获得丰富的多尺度上下文信息。如图3所示,以本发明输入图像1024×1024为例,将C_1、C_2、C_3、C_4、C_5作为空洞金字塔网络的输入,展示空洞金字塔网络的设计过程:
首先为了实现大尺度目标的检测,对ResNet101第5个卷积模块的输出特征图C_5进行0.5倍下采样,得到C_6,从而得到一组特征图C_1~ C_6,其特征图尺寸依次为512×512×128、256×256×256、128×128×512、64×64×1024、32×32×2048、16×16×2048。接下来,将这6个特征图分别输入一层卷积核为1*1的卷积层中,该操作是为了在保证特征图空间尺寸不变的情况下,将6个特征图的通道数统一为固定值256,即512×512×256、256×256×256、128×128×256、64×64×256、32×32×256、16×16×256。
接着,构建空洞卷积多分支结构。如图3所示,对这6个特征图分别进行如下相同操作,此处以C_5为例:第一个支路为一个卷积核为1*1的卷积操作,该支路的存在是为了保留特征图的原始特征信息,此处特征图尺寸不发生改变;第二个支路为卷积核为3*3的空洞卷积操作,空洞卷积扩张率dilated rate设为2(图3中用rate=2表示),为保证特征图尺寸恒定,设置像素填充padding为2;第三个支路为卷积核为5*5的空洞卷积操作,空洞卷积扩张率dilated rate设为2,为保证特征图尺寸恒定,设置像素填充padding为4。将C_5分别输入这三个支路中,获得三个尺寸均为32×32×256的特征图。采用元素级加和操作对这三个特征图进行特征融合,得到一个尺寸为32×32×256的特征图P_5。经过空洞卷积多分支结构后,依次得到特征图P_1、P_2、P_3、P_4、P_5、P_6,尺寸依次为512×512×256、256×256×256、128×128×256、64×64×256、32×32×256、16×16×256。图3中Conv表示卷积操作,D-Conv表示空洞卷积操作。
空洞卷积多分支结构通过采用不同卷积核的空洞卷积提取特征信息,可使卷积层获得不同尺寸的感受野,有助于提取到不同尺寸目标的特征信息。同时为了避免有助于小目标检测的细节信息丢失,该模块采用第一条支路来保留特征图的原始特征信息。此外,空洞卷积操作不改变特征图的分辨率,有助于目标的精确定位。
接下来,基于多尺度特征融合操作构建空洞金字塔结构。如图3所示,此处由特征图P_6直接得到F_6,对F_6进行2倍放大的上采样操作,得到与P_5相同尺度的特征图,并将其与P_5进行元素级相加,得到F_5。与上述操作相同,依次将上一层低分辨率强语义信息的特征图通过2倍上采样操作得到与下层同尺寸的特征图,并与下层的高分辨率特征图进行元素级相加,依次得到F_4、F_3、F_2、F_1层。将F_1、F_2、F_3、F_4层经过一层卷积核为3×3的卷积操作,以消除低层的特征混叠效应,并得到最终的F_1、F_2、F_3、F_4层。
空洞金字塔网络基于骨干网络ResNet101、空洞卷积多分支结构和多尺度特征融合操作三部分构建而成,如图3所示。通过在多层级的金字塔网络中引入空洞卷积的多分支结构,可使单一特征层获取到更丰富的多尺度上下文特征信息,并将不同尺寸目标的特征信息传递至后续层,有助于进一步提升网络对不同尺寸目标的检测准确率。
(2)设计基于空洞金字塔网络的Faster R-CNN结构。具体结构(如图3所示)为:上一步已经基于骨干网络ResNet101、空洞卷积多分支结构和多尺度特征融合操作获得空洞金字塔网络结构。以本发明输入图像1024×1024为例,空洞金字塔网络所输出6个特征图F_1~F_6的大小依次为:512×512×256、256×256×256、128×128×256、64×64×256、32×32×256、16×16×256。
接下来,构建区域建议网络(Region Proposal Network,RPN)。RPN网络以6个特征图F_1~F_6为输入,其结构由卷积核为3×3的卷积层和两个输出支路组成:支路一输出候选区域为前景目标的概率;支路二输出候选区域边框(bounding box)的左上角坐标、边框宽度和高度。RPN采用滑动锚框分别在F_1~F_6这六个特征图上进行遍历操作,并生成一系列的候选区域。最后将这六个特征图F_1~F_6上的预测结果进行连接融合。在RPN的训练过程中,与真实的标注框的IOU(交并比)大于0.7的目标为正样本(目标),IOU(交并比)小于0.3的目标则为负样本(背景)。
根据RPN生成的每个候选区域框的面积大小,分别将候选区域框映射到对应的特征层Fk进行下一步ROI Align操作,再通过ROI Align层输出一批尺寸均为7×7的候选区域特征图。ROI Align操作是为了统一候选区域特征图的尺寸,以便其输入最后的全连接层进行特征提取和分类。
候选区域特征图经过两层全连接层后,再分别输入Faster RCNN的两个检测支路(回归支路和分类支路):利用分类损失函数进行背景和前景目标的分类,确定候选区域所属的目标类别;利用回归损失完成边框回归操作后获得目标的位置信息。对网络模型进行训练,计算损失函数,并进行整个网络的参数更新,最终得到训练模型。训练损失包括两个部分,即分类损失和回归损失,计算式如下:
Figure DEST_PATH_IMAGE001
式中,
Figure 922131DEST_PATH_IMAGE002
表示每一个样本的下标,
Figure DEST_PATH_IMAGE003
Figure 357048DEST_PATH_IMAGE004
均为归一化参数,
Figure DEST_PATH_IMAGE005
为权重的平衡参数。
Figure 589315DEST_PATH_IMAGE006
表示分类损失。
Figure DEST_PATH_IMAGE007
表示该样本被预测为车辆的概率,
Figure 502301DEST_PATH_IMAGE008
是已标注的真实数据标签。
Figure DEST_PATH_IMAGE009
表示边框回归损失,定义为
Figure 893836DEST_PATH_IMAGE010
(t-t*),t表示Proposal预测目标框的平移缩放参数,t*表示Proposal对应的真实数据的平移缩放参数,
Figure DEST_PATH_IMAGE011
函数的定义为
Figure 652319DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
表示样本为正样本时,即
Figure 496516DEST_PATH_IMAGE014
,才被激活。
Figure DEST_PATH_IMAGE015
表示Proposal预测框的平移缩放参数,
Figure 947613DEST_PATH_IMAGE016
表示Proposal对应的真实数据的平移缩放参数,tx *表示预测目标框左上角坐标x的平移缩放参数,ty表示预测目标框左上角坐标y的平移缩放参数,tw表示预测目标框宽度w的平移缩放参数。th表示预测目标框高度h的平移缩放参数,tx *表示真实目标框左上角坐标x的平移缩放参数,ty *表示真实目标框左上角坐标y的平移缩放参数,tw *表示真实目标框宽度w的平移缩放参数。th *表示真实目标框高度h的平移缩放参数。
(3)基于目标检测数据集中的训练集,对以上步骤所得到的深度神经网络进行训练和参数优化,对每一张输入图像执行前向传播及反向传播步骤,并基于损失函数
Figure DEST_PATH_IMAGE017
更新模型内部参数,得到最终的目标检测模型。
步骤103:根据目标检测数据集对空洞金字塔网络模型进行模型训练,获得目标检测模型。
步骤104:利用目标检测模型对待检测图像进行目标检测。
采用目标检测数据集的测试集作为测试实例,输入到训练好的深度神经网络模型中来检测图像中的目标,具体过程如下:
(1)输入一组待测试的图像,限制输入图最大边长为1024,经过骨干网络、空洞金字塔网络的特征提取后输出特征图,将该特征图输入区域建议网络RPN,从而获得图中400个候选目标区域,即Proposals;
(2)将原图特征图和各个候选目标区域输入ROI Align层,提取候选目标区域的特征图并输出相同尺寸(7*7)的特征图,用于下一步目标的检测框回归及类别分类;
(3)Proposal的特征信息经过全连接层、回归支路和分类支路得到各个目标的检测框所在的矩形位置信息和类别信息。最终在原始图像中标出所有被标记为目标的外接矩形和类别;
(4)进行结果评测所用指标为平均精度AP及平均精度均值mAP。真反例(TureNegative, TN):被判定为负样本,事实上也是负样本;真正例(Ture Positve, TP):被判定为正样本,事实上也是正样本;假反例(False Negative, FN):被判定为负样本,但实为正样本;假正例(False Positive, FP):被判定为正样本,但实为负样本。召回率(Recall)=TP/(TP+FN),准确率(Precision)=TP/(TP+FP),Precision-Recall(P-R)曲线为以Precision和Recall作为纵、横轴坐标的二维曲线。平均精度AP为每个类别对应的P-R曲线围起来的面积,平均精度均值mAP为每个类别AP值的平均值。
采用本发明的方法有益效果主要包括:
(1)设计了空洞金字塔网络,通过采用不同卷积核的空洞卷积提取特征信息,可使卷积层具有不同尺寸的感受野,有助于单一特征层获取到更丰富的多尺度上下文特征信息,从而提升网络对不同尺寸目标的检测准确率。此外,空洞卷积操作不改变特征图的分辨率,有助于目标的精确定位。
(2)构建了基于空洞金字塔网络的Faster RCNN检测网络,整个检测网络将空洞卷积多分支结构与多尺度特征融合技术相结合,增强各个特征层对不同尺度目标的敏感性,从而联合增强了网络对多尺度目标的检测能力。
图4为本发明一种多尺度目标检测系统结构示意图,一种多尺度目标检测系统,包括:
数据集采集模块201,用于采集目标检测数据集;
空洞金字塔网络模型构建模块202,用于构建空洞金字塔网络模型;空洞金字塔网络模型包括依次连接的多个卷积模块和多个卷积支路,各卷积模块包括卷积操作,且各卷积模块输出的图像按照图像输入方向依次减小,各卷积模块的输出分别连接一个卷积支路,卷积支路包括一个卷积操作和多个空洞卷积操作,卷积支路中的卷积操作和空洞卷积操作为并列关系;一个卷积支路中多个空洞卷积操作的扩张率相同,卷积核尺寸不同;卷积支路中的一个卷积操作和多个空洞卷积操作输出的特征图采用元素级加和操作,获得第一特征图;按照分辨率从低到高的顺序依次将各第一特征图进行上采样操作后与同尺寸的相邻第一特征图进行元素级相加,获得多个融合特征图;
空洞金字塔网络模型训练模块203,用于根据目标检测数据集对空洞金字塔网络模型进行模型训练,获得目标检测模型;
目标检测模块204,用于利用目标检测模型对待检测图像进行目标检测。
各卷积模块的输出经过卷积核为1*1的卷积层后输入卷积支路。
卷积支路包括一个卷积核为1*1的卷积操作和2个空洞卷积操作,2个空洞卷积操作分别为第一空洞卷积操作和第二空洞卷积操作;第一空洞卷积操作为卷积核为3*3的空洞卷积操作,扩张率为2;第二空洞卷积操作为卷积核为5*5的空洞卷积操作,扩张率为2。
空洞金字塔网络模型还包括区域建议网络,各融合特征图输入区域建议网络,区域建议网络分别输出与各融合特征图对应的候选区域;
空洞金字塔网络模型还包括ROI池化层和检测头,ROI池化层的输入连接区域建议网络的输出,ROI池化层的输出连接检测头,检测头用于输出检测结果。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (9)

1.一种多尺度目标检测方法,其特征在于,包括:
采集目标检测数据集;
构建空洞金字塔网络模型;所述空洞金字塔网络模型包括依次连接的多个卷积模块和多个卷积支路,各卷积模块包括卷积操作,各卷积模块的输出分别连接一个卷积支路,所述卷积支路包括一个卷积操作和多个空洞卷积操作,所述卷积支路中的卷积操作和空洞卷积操作为并列关系;一个所述卷积支路中多个空洞卷积操作的扩张率相同,卷积核尺寸不同;所述卷积支路中的一个卷积操作和多个空洞卷积操作输出的特征图采用元素级加和操作,获得第一特征图;按照分辨率从低到高的顺序依次将各所述第一特征图进行上采样操作后与同尺寸的相邻第一特征图进行元素级相加,获得多个融合特征图;所述卷积支路包括一个卷积核为1*1的卷积操作和2个空洞卷积操作;
根据所述目标检测数据集对所述空洞金字塔网络模型进行模型训练,获得目标检测模型;
利用所述目标检测模型对待检测图像进行目标检测。
2.根据权利要求1所述的多尺度目标检测方法,其特征在于,各所述卷积模块的输出经过卷积核为1*1的卷积层后输入所述卷积支路。
3.根据权利要求1所述的多尺度目标检测方法,其特征在于,所述空洞金字塔网络模型还包括区域建议网络,各所述融合特征图输入所述区域建议网络,所述区域建议网络分别输出与各所述融合特征图对应的候选区域。
4.根据权利要求3所述的多尺度目标检测方法,其特征在于,所述空洞金字塔网络模型还包括ROI池化层和检测头,所述ROI池化层的输入连接所述区域建议网络的输出,所述ROI池化层的输出连接所述检测头,所述检测头用于输出检测结果。
5.根据权利要求1所述的多尺度目标检测方法,其特征在于,2个空洞卷积操作分别为第一空洞卷积操作和第二空洞卷积操作;第一空洞卷积操作为卷积核为3*3的空洞卷积操作,扩张率为2;第二空洞卷积操作为卷积核为5*5的空洞卷积操作,扩张率为2。
6.一种多尺度目标检测系统,其特征在于,包括:
数据集采集模块,用于采集目标检测数据集;
空洞金字塔网络模型构建模块,用于构建空洞金字塔网络模型;所述空洞金字塔网络模型包括依次连接的多个卷积模块和多个卷积支路,各卷积模块包括卷积操作,各卷积模块的输出分别连接一个卷积支路,所述卷积支路包括一个卷积操作和多个空洞卷积操作,所述卷积支路中的卷积操作和空洞卷积操作为并列关系;一个所述卷积支路中多个空洞卷积操作的扩张率相同,卷积核尺寸不同;所述卷积支路中的一个卷积操作和多个空洞卷积操作输出的特征图采用元素级加和操作,获得第一特征图;按照分辨率从低到高的顺序依次将各所述第一特征图进行上采样操作后与同尺寸的相邻第一特征图进行元素级相加,获得多个融合特征图;所述卷积支路包括一个卷积核为1*1的卷积操作和2个空洞卷积操作;
空洞金字塔网络模型训练模块,用于根据所述目标检测数据集对所述空洞金字塔网络模型进行模型训练,获得目标检测模型;
目标检测模块,用于利用所述目标检测模型对待检测图像进行目标检测。
7.根据权利要求6所述的多尺度目标检测系统,其特征在于,各所述卷积模块的输出经过卷积核为1*1的卷积层后输入所述卷积支路。
8.根据权利要求6所述的多尺度目标检测系统,其特征在于,2个空洞卷积操作分别为第一空洞卷积操作和第二空洞卷积操作;第一空洞卷积操作为卷积核为3*3的空洞卷积操作,扩张率为2;第二空洞卷积操作为卷积核为5*5的空洞卷积操作,扩张率为2。
9.根据权利要求6所述的多尺度目标检测系统,其特征在于,所述空洞金字塔网络模型还包括区域建议网络,各所述融合特征图输入所述区域建议网络,所述区域建议网络分别输出与各所述融合特征图对应的候选区域;
所述空洞金字塔网络模型还包括ROI池化层和检测头,所述ROI池化层的输入连接所述区域建议网络的输出,所述ROI池化层的输出连接所述检测头,所述检测头用于输出检测结果。
CN202110910802.6A 2021-08-10 2021-08-10 一种多尺度目标检测方法及系统 Active CN113361528B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110910802.6A CN113361528B (zh) 2021-08-10 2021-08-10 一种多尺度目标检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110910802.6A CN113361528B (zh) 2021-08-10 2021-08-10 一种多尺度目标检测方法及系统

Publications (2)

Publication Number Publication Date
CN113361528A CN113361528A (zh) 2021-09-07
CN113361528B true CN113361528B (zh) 2021-10-29

Family

ID=77540829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110910802.6A Active CN113361528B (zh) 2021-08-10 2021-08-10 一种多尺度目标检测方法及系统

Country Status (1)

Country Link
CN (1) CN113361528B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114005017A (zh) * 2021-09-18 2022-02-01 北京旷视科技有限公司 目标检测方法、装置、电子设备及存储介质
CN114022746A (zh) * 2021-11-03 2022-02-08 合肥工业大学 一种多项式多尺度空间特征学习方法
CN116206248B (zh) * 2023-04-28 2023-07-18 江西省水利科学院(江西省大坝安全管理中心、江西省水资源管理中心) 一种基于机器学习引导深度学习的目标检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325534A (zh) * 2018-09-22 2019-02-12 天津大学 一种基于双向多尺度金字塔的语义分割方法
CN110717527A (zh) * 2019-09-24 2020-01-21 东南大学 结合空洞空间金字塔结构的目标检测模型确定方法
CN111126202A (zh) * 2019-12-12 2020-05-08 天津大学 基于空洞特征金字塔网络的光学遥感图像目标检测方法
CN113313094A (zh) * 2021-07-30 2021-08-27 北京电信易通信息技术股份有限公司 一种基于卷积神经网络的车载图像目标检测方法和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3391290A4 (en) * 2015-12-16 2019-08-07 Intel Corporation PYRAMIDAL NETWORKS FULLY CONVOLVED FOR PEDESTRIAN DETECTION
CN112364855B (zh) * 2021-01-14 2021-04-06 北京电信易通信息技术股份有限公司 一种基于多尺度特征融合的视频目标检测方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325534A (zh) * 2018-09-22 2019-02-12 天津大学 一种基于双向多尺度金字塔的语义分割方法
CN110717527A (zh) * 2019-09-24 2020-01-21 东南大学 结合空洞空间金字塔结构的目标检测模型确定方法
CN111126202A (zh) * 2019-12-12 2020-05-08 天津大学 基于空洞特征金字塔网络的光学遥感图像目标检测方法
CN113313094A (zh) * 2021-07-30 2021-08-27 北京电信易通信息技术股份有限公司 一种基于卷积神经网络的车载图像目标检测方法和系统

Also Published As

Publication number Publication date
CN113361528A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN112200161B (zh) 一种基于混合注意力机制的人脸识别检测方法
CN113361528B (zh) 一种多尺度目标检测方法及系统
CN113255589B (zh) 一种基于多卷积融合网络的目标检测方法及系统
WO2021218786A1 (zh) 一种数据处理系统、物体检测方法及其装置
CN111461083A (zh) 基于深度学习的快速车辆检测方法
CN111783590A (zh) 一种基于度量学习的多类别小目标检测方法
CN112364855B (zh) 一种基于多尺度特征融合的视频目标检测方法及系统
CN113313094B (zh) 一种基于卷积神经网络的车载图像目标检测方法和系统
CN113762409B (zh) 一种基于事件相机的无人机目标检测方法
CN113609896A (zh) 基于对偶相关注意力的对象级遥感变化检测方法及系统
CN111860072A (zh) 泊车控制方法、装置、计算机设备及计算机可读存储介质
CN112861619A (zh) 模型的训练方法、车道线检测方法、设备及装置
CN112634369A (zh) 空间与或图模型生成方法、装置、电子设备和存储介质
CN110659601A (zh) 基于中心点的深度全卷积网络遥感图像密集车辆检测方法
CN114332473A (zh) 目标检测方法、装置、计算机设备、存储介质及程序产品
CN113436210B (zh) 一种融合上下文逐级采样的道路图像分割方法
CN114267025A (zh) 基于高分辨率网络与轻量注意力机制的交通标志检测方法
Zhang et al. Vehicle detection in UAV aerial images based on improved YOLOv3
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
Li et al. Improved YOLOv5s algorithm for small target detection in UAV aerial photography
CN117197687A (zh) 一种面向无人机航拍密集小目标的检测方法
CN112597996A (zh) 基于任务驱动的自然场景中交通标志显著性检测方法
CN116630904B (zh) 融合非临近跳连与多尺度残差结构的小目标车辆检测方法
CN114550016B (zh) 一种基于上下文信息感知的无人机定位方法及系统
CN112633162B (zh) 适于高速公路外场遮挡条件下的行人快速检测及跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant