[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111160372B - 一种基于高速卷积神经网络的大目标识别方法 - Google Patents

一种基于高速卷积神经网络的大目标识别方法 Download PDF

Info

Publication number
CN111160372B
CN111160372B CN201911392630.7A CN201911392630A CN111160372B CN 111160372 B CN111160372 B CN 111160372B CN 201911392630 A CN201911392630 A CN 201911392630A CN 111160372 B CN111160372 B CN 111160372B
Authority
CN
China
Prior art keywords
layer
target
convolution
multiplied
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911392630.7A
Other languages
English (en)
Other versions
CN111160372A (zh
Inventor
吕艳辉
张德育
刘勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Ligong University
Original Assignee
Shenyang Ligong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Ligong University filed Critical Shenyang Ligong University
Priority to CN201911392630.7A priority Critical patent/CN111160372B/zh
Publication of CN111160372A publication Critical patent/CN111160372A/zh
Application granted granted Critical
Publication of CN111160372B publication Critical patent/CN111160372B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于高速卷积神经网络的大目标识别方法,涉及计算机视觉技术领域。该方法首先通过通用型特征提取网络对目标图片进行五次特征提取,每次特征提取后均对应一次降采样处理,得到降采样的特征;建立大目标识别的目标分类与位置回归网络,并将通用型特征提取网络最后输出的降采样特征作为目标分类与位置回归网络的输入,得到全部的目标类别和目标位置;采用IOA预测框评价单元计算目标分类与位置回归网络训练得到的预测值与真实值产生的误差,使用预测误差来优化目标分类与位置回归网络,提高网络的识别精度;本发明方法可以运行在嵌入式计算平台,进行大目标的类型与位置的实时预测,并大幅度减少计算量。

Description

一种基于高速卷积神经网络的大目标识别方法
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于高速卷积神经网络的大目标识别方法。
背景技术
目标识别是计算机视觉与模式识别的一个分支,是人工智能学科的一个重要组成部分。目标识别方法分为数字图像处理法和基于卷积神经网络的目标识别法。传统的数字图像处理需要人工提取多重特征,如尺度不变特征变换(Scale-invariant featuretransform,SIFT),方向梯度直方图(Histogram of Oriented Gridients,HOG)和局部二值模式(Local Binary Patterns,LBP)等,这些特征无法表达更抽象的目标类别信息。而基于卷积神经网络的目标识别可以像人类认知过程一样,可以完成对图像中的物体进行分类、分割和场景解释等抽象的任务。卷积神经网络在图像目标识别上有较大优势,多种不同结构的卷积网络的优异表现使其成为了计算机视觉研究的核心,无论是对该领域的广度研究还是深度研究,都值得去进一步探索。但嵌入式平台的功耗低,计算能力弱,无法运行大规模卷积神经网络,或者无法高速的完成目标识别任务。对于实时性要求较高的平台,如无人机的飞行控制系统,是无法完成实时性目标识别的任务的。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于高速卷积神经网络的大目标识别方法,实现在嵌入式平台实时的识别大目标。
为解决上述技术问题,本发明所采取的技术方案是:一种基于高速卷积神经网络的大目标识别方法,包括以下步骤:
步骤1、将待识别的目标图片输入通用型特征提取网络,实现对目标图片进行五次特征提取,每次特征提取后均对应一次降采样处理,得到降采样的特征;
所述通用型特征提取网络包括一个图片尺寸转化层、五个卷积层和五个最大值池化层;所述图片尺寸转化层对目标图片进行预处理后得到标准三通道图片;图片尺寸转化层连接一个卷积层,实现对预处理后得到的标准三通道图片进行一次特征提取;五个卷积层和五个最大值池化层交替连接,实现对目标图片的五次特征提取和五次降采样处理;
图片尺寸转化层:在图片输入之前加入图片尺寸转化层,将非矩形、非标准的图片处理成416×416像素的图片,经过矩形裁剪、尺寸标准化两个步骤完成图片预处理任务,得到416×416×3的标准三通道图片;
卷积层1:标准输入格式为416×416×3,输入为预处理后416×416像素的原始图片,色彩为三通道彩色图像;该卷积层有16个卷积核,步长为(1,1),卷积核尺寸为3×3,经过全部卷积核的处理后输出416×416×16的1次特征提取特征;
最大值池化层1:标准输入格式为416×416×16,衔接卷积层1;使用2×2的池化核进行降采样,步长为(2,2),最后输出208×208×16尺寸的1次降采样特征;
卷积层2:标准输入格式为208×208×16,衔接最大值池化层1;该层有32个卷积核,步长为(1,1),卷积核尺寸为3×3,经过全部卷积核的处理后输出208×208×32的2次特征提取特征;
最大值池化层2:标准输入格式为208×208×32,衔接卷积层2;使用2x2的池化核进行降采样,步长为(2,2),最后输出104×104×32尺寸的2次降采样特征;
卷积层3:标准输入格式为104×104×32,衔接最大值池化层2;该层有64个卷积核,步长为(1,1),卷积核尺寸为3×3,经过全部卷积核的处理后输出104*104*64的3次特征提取特征;
最大值池化层3:标准输入格式为104*104*64,衔接卷积层3;使用2×2的池化核进行降采样,步长为(2,2),最后输出52×52×64尺寸的3次降采样特征;
卷积层4:标准输入格式为52×52×64,衔接最大值池化层3;该层有128个卷积核,步长为(1,1),卷积核尺寸为3×3,经过全部卷积核的处理后输出52×52×128的4次特征提取特征;
最大值池化层4:标准输入格式为52×52×128,衔接卷积层4;使用2×2的的池化核进行降采样,步长为(2,2),最后输出26×26×128尺寸的4次降采样特征;
卷积层5:标准输入格式为26×26×128,衔接最大值池化层4;该层有256个卷积核,步长为(1,1),卷积核尺寸为3×3,经过全部卷积核的处理后输出26×26×256的5次特征提取特征;
最大值池化层5:标准输入格式为26×26×256,衔接卷积层5;使用2×2的的池化核进行降采样,步长为(2,2),最后输出13×13×256尺寸的5次降采样特征;
步骤2、建立大目标识别的目标分类与位置回归网络,并将通用型特征提取网络最后输出的降采样特征作为目标分类与位置回归网络的输入,得到全部的目标类别和目标位置;
所述目标分类与位置回归网络包括四个回归网络卷积层、一个最大值池化层6和一个输出层;所述最大值池化层6衔接第一个回归网络卷积层,输出层衔接最后一个回归网络卷积层;
回归网络卷积层1:标准输入格式为13×13×256,衔接通用型特征提取网络的最大值池化层5;该层有512个卷积核,步长为(1,1),卷积核尺寸为3×3,经过全部卷积核处理后输出13×13×512的全部连接特征;
最大值池化层6:标准输入格式为13×13×512,衔接回归网络卷积层1;使用2×2的的池化核进行降采样,步长为(1,1),不改变输入尺寸,最后输出13×13×512尺寸的6次降采样特征;
回归网络卷积层2:标准输入格式为13×13×512,衔接最大值池化层6;该层有1024个卷积核,步长为(1,1),卷积核尺寸为3×3,经过全部卷积核处理后输出13×13×1024的全部连接特征;
回归网络卷积层3:标准输入格式为13×13×1024,衔接回归网络卷积层2;该层有256个卷积核,步长为(1,1),卷积核尺寸为1×1,经过全部卷积核处理后输出13×13×256的全部连接特征;
回归网络卷积层4:标准输入格式为13×13×256,衔接回归网络卷积层3;该层有512个卷积核,步长为(1,1),卷积核尺寸为3×3,经过全部卷积核处理后输出13×13×512的全部连接特征;
输出层:标准输入格式为13×13×512,衔接回归网络卷积层4;该层的卷积核数量由要识别的目标种类的数量决定,卷积核数量由公式(1)计算,步长为(1,1),卷积核尺寸为1×1;输出为全部目标类别与目标位置;
filter=3×(5+n) (1)
其中:filter为卷积核个数,n为要识别的目标种类;
步骤3、采用IOA预测框评价单元计算目标分类与位置回归网络训练得到的预测值与真实值产生的误差,使用预测误差来优化目标分类与位置回归网络,提高网络的识别精度;
目标分类与位置回归网络将输入图像分成S×S个网格;每个网格负责检测中心落在自己区域的目标类别;每个网格预测3个预测框,每个预测框预测预测框的中心坐标和宽高(x,y,w,h)以及置信度共5个值,同时,每个网格还要预测一个目标类别信息,记为C类,最后目标分类与位置回归网络输出一个S×S×(5*3+C)维的向量;所述置信度代表了本预测框中含有识别目标的置信度和这个预测框预测效果的准确率,其值计算为
Figure BDA0002345422730000031
如果有识别目标落在此网格里,则Pr(Object)取值为1,否则取值为0;
Figure BDA0002345422730000032
为通过IOA预测框评价单元判断预测框的预测效果,其值为预测框矩形和真实框矩形的交集面积与两个矩形的最小顶点与最大顶点组成的矩形面积的比值;
目标类别信息是针对每个网格的,置信度信息是针对每个预测框的;每个网格预测的目标类别信息和预测框预测的置信度信息相乘,就得到每个预测框的某一类别预测得分,如下公式所示:
Figure BDA0002345422730000041
其中,Pr(Classi|Object)为每个网格预测的目标类别信息,
Figure BDA0002345422730000042
为每个预测框预测的置信度,这个乘积即反应了预测目标属于某一类的概率,也有该预测框准确度的信息;得到每个预测框的某一目标类别预测得分以后,使用设定的阈值过滤掉得分低的预测框,对保留的预测框进行非极大值抑制(Non Maximum Suppression,NMS)处理,得到最终的目标识别的结果,实现对目标分类与位置回归网络的优化;
所述目标分类与位置回归网络采用目标分类与位置回归网络输出各项的误差加权求和作为全网络的损失函数,如下公式所示:
loss=loss1+loss2+loss3+loss4(3)
Figure BDA0002345422730000043
Figure BDA0002345422730000044
Figure BDA0002345422730000045
Figure BDA0002345422730000046
其中,λcoord和λnoobj均为加权损失项,均为常数系数;B=3为网格中预测框个数;
Figure BDA0002345422730000047
为预测框的预测是否有效的判定标识,当网格单元i中存在目标,则该网格中的第j个预测框的预测值有效,
Figure BDA0002345422730000048
取值为1,如果网格单元i中不存在目标,则该网格中的第j个预测框的预测值无效,
Figure BDA0002345422730000049
取值为0;xi、yi、ωi、hi为识别目标的预测框的中心坐标和宽、高;
Figure BDA00023454227300000410
Figure BDA00023454227300000411
为目标真实框的中心坐标和宽高;pi(c)、
Figure BDA00023454227300000412
为预测置信度和真实置信度;Ci
Figure BDA00023454227300000413
为预测类别和真实类别;
公式(4)至(7)的作用为:公式(4)为对识别目标的预测框的中心坐标做损失,公式(5)为对预测框的宽高做损失,公式(6)为对目标分类与位置回归网络预测的类别做损失,公式(7)为对目标分类与位置回归网络预测的置信度做损失。
采用上述技术方案所产生的有益效果在于:本发明提供的一种基于高速卷积神经网络的大目标识别方法,可以运行在嵌入式计算平台,进行大目标的类型与位置预测,识别目标类型最佳数量为20以内,可以做到每秒识别52张图片。该网络特征提取过程简单直接,5次降采样大幅度减少计算量;预测过程对于目标类别和位置采用一步回归得到,使用统一的多项误差和来计算优化网络的预测效果,具有方便理解和计算简单的优点。同时,本发明采用的IOA预测框评价单元可以做到更快的运行速度,并且不影响识别效果,进而实现对建立的目标分类与位置回归网络的优化。
附图说明
图1为本发明实施例提供的通用型特征提取网络的结构示意图;
图2为本发明实施例提供的通用型特征提取网络和目标分类与位置回归网络对目标图片进行识别的流程图;
图3为本发明实施例提供的IOU计算示意图;
图4为本发明实施例提供的IOA计算示意图;
图5为本发明实施例提供的IOU与IOA运行计算耗时对比图;
图6为本发明实施例提供的IOU对于目标分类与位置回归网络训练效果的影响结果图;
图7为本发明实施例提供的IOA对于目标分类与位置回归网络训练效果的影响结果图;
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施例中,一种基于高速卷积神经网络的大目标识别方法,运行在Jetson TX2嵌入式计算平台,进行大目标的类型与位置预测,包括以下步骤:
步骤1、将待识别的目标图片输入通用型特征提取网络,实现对目标图片进行五次特征提取,每次特征提取后均对应一次降采样处理,得到降采样的特征;
所述通用型特征提取网络如图1所示,包括一个图片尺寸转化层、五个卷积层和五个最大值池化层;所述图片尺寸转化层对目标图片进行预处理后得到标准三通道图片;图片尺寸转化层连接一个卷积层,实现对预处理后得到的标准三通道图片进行一次特征提取;五个卷积层和五个最大值池化层交替连接,实现对目标图片的五次特征提取和五次降采样处理;
图片尺寸转化层:在图片输入之前加入图片尺寸转化层,将非矩形、非标准的图片处理成416×416像素的图片,经过矩形裁剪、尺寸标准化两个步骤完成图片预处理任务,得到416×416×3的标准三通道图片;
卷积层1:标准输入格式为416×416×3,输入为预处理后416×416像素的原始图片,色彩为三通道彩色图像;该卷积层有16个卷积核,步长为(1,1),卷积核尺寸为3×3,经过全部卷积核的处理后输出416×416×16的1次特征提取特征;
最大值池化层1:标准输入格式为416×416×16,衔接卷积层1;使用2×2的池化核进行降采样,步长为(2,2),最后输出208×208×16尺寸的1次降采样特征;
卷积层2:标准输入格式为208×208×16,衔接最大值池化层1;该层有32个卷积核,步长为(1,1),卷积核尺寸为3×3,经过全部卷积核的处理后输出208×208×32的2次特征提取特征;
最大值池化层2:标准输入格式为208×208×32,衔接卷积层2;使用2x2的池化核进行降采样,步长为(2,2),最后输出104×104×32尺寸的2次降采样特征;
卷积层3:标准输入格式为104×104×32,衔接最大值池化层2;该层有64个卷积核,步长为(1,1),卷积核尺寸为3×3,经过全部卷积核的处理后输出104*104*64的3次特征提取特征;
最大值池化层3:标准输入格式为104*104*64,衔接卷积层3;使用2×2的池化核进行降采样,步长为(2,2),最后输出52×52×64尺寸的3次降采样特征;
卷积层4:标准输入格式为52×52×64,衔接最大值池化层3;该层有128个卷积核,步长为(1,1),卷积核尺寸为3×3,经过全部卷积核的处理后输出52×52×128的4次特征提取特征;
最大值池化层4:标准输入格式为52×52×128,衔接卷积层4;使用2×2的的池化核进行降采样,步长为(2,2),最后输出26×26×128尺寸的4次降采样特征;
卷积层5:标准输入格式为26×26×128,衔接最大值池化层4;该层有256个卷积核,步长为(1,1),卷积核尺寸为3×3,经过全部卷积核的处理后输出26×26×256的5次特征提取特征;
最大值池化层5:标准输入格式为26×26×256,衔接卷积层5;使用2×2的的池化核进行降采样,步长为(2,2),最后输出13×13×256尺寸的5次降采样特征;
步骤2、建立大目标识别的目标分类与位置回归网络,并将通用型特征提取网络最后输出的降采样特征作为目标分类与位置回归网络的输入,如图2所示,得到全部的目标类别和目标位置;
所述目标分类与位置回归网络包括四个回归网络卷积层、一个最大值池化层6和一个输出层;所述最大值池化层6衔接第一个回归网络卷积层,输出层衔接最后一个回归网络卷积层;
回归网络卷积层1:标准输入格式为13×13×256,衔接通用型特征提取网络的最大值池化层5;该层有512个卷积核,步长为(1,1),卷积核尺寸为3×3,经过全部卷积核处理后输出13×13×512的全部连接特征;该层的主要作用是扩充特征尺度,为目标识别提供跟多的特征组合。
最大值池化层6:标准输入格式为13×13×512,衔接回归网络卷积层1;使用2x2的的池化核进行降采样,步长为(1,1),不改变输入尺寸,最后输出13×13×512尺寸的6次降采样特征;该层与通用型特征提取网络的五个最大值池化层所特征提取不同,其步长为(1,1),主要作用是更多的关注纹理特征,便于目标识别。
回归网络卷积层2:标准输入格式为13×13×512,衔接最大值池化层6;该层有1024个卷积核,步长为(1,1),卷积核尺寸为3×3,经过全部卷积核处理后输出13×13×1024的全部连接特征;该层作用同回归网络卷积层1。
回归网络卷积层3:标准输入格式为13×13×1024,衔接回归网络卷积层2;该层有256个卷积核,步长为(1,1),卷积核尺寸为1x1,经过全部卷积核处理后输出13×13×256的全部连接特征;该层的特殊之处在于使用1x1的卷积核,主要作用是提取用于目标识别的关键特征。
回归网络卷积层4:标准输入格式为13×13×256,衔接回归网络卷积层3;该层有512个卷积核,步长为(1,1),卷积核尺寸为3×3,经过全部卷积核处理后输出13×13×512的全部连接特征;该层的主要作用是将回归网络卷积层3输出的特征重新组合,提供更加抽象的目标识别能力。
输出层:标准输入格式为13×13×512,衔接回归网络卷积层4;该层的卷积核数量由要识别的目标种类的数量决定,由于网络层数较浅,特征学习能力有限,所以在20类以内的目标识别表现较好。卷积核数量由公式(1)计算,步长为(1,1),卷积核尺寸为1×1;输出为全部目标类别与目标位置;
filter=3×(5+n)(1)
其中:filter为卷积核个数,n为要识别的目标种类;
步骤3、采用IOA预测框评价单元计算目标分类与位置回归网络训练得到的预测值与真实值产生的误差,使用预测误差来优化目标分类与位置回归网络,提高网络的识别精度;
目标分类与位置回归网络将输入图像分成S×S个网格;每个网格负责检测中心落在自己区域的目标类别;每个网格预测3个预测框,每个预测框预测预测框的中心坐标和宽高(x,y,w,h)以及置信度共5个值,同时,每个网格还要预测一个目标类别信息,记为C类,最后目标分类与位置回归网络输出一个S×S×(5*3+C)维的向量;所述置信度代表了本预测框中含有识别目标的置信度和这个预测框预测效果的准确率,其值计算为
Figure BDA0002345422730000081
如果有识别目标落在此网格里,则Pr(Object)取值为1,否则取值为0;
Figure BDA0002345422730000082
为通过IOA预测框评价单元判断预测框的预测效果,其值为预测框矩形和真实框矩形的交集面积与两个矩形的最小顶点与最大顶点组成的矩形面积的比值;
预测框与真实框的误差在IOA(Intersection over All)上表现的更显著。与传统IOU(Intersection over Union)相比,在预测框和真实框的边框不相等不对齐的时候,IOA的计算结果小于IOU;在预测框和真实框的边框相等且对齐的时候,IOA计算结果等于IOU。所以IOA对误差更敏感。
IOA的计算过程没有重复。使用IOU做计算会重复计算两个矩形的交集,IOA需要计算的是一次交集与一次最大面积,没有重复计算,减少计算耗时。
IOA的底层代码对于每一次比较运算都同时使用大小两个比较结果,从微观上减少计算与比较的次数,用到的四个点的全部坐标只需要比较四次,可以从如表1的C程序中看出:
表1IOA的底层代码
Figure BDA0002345422730000083
Figure BDA0002345422730000091
使用如上代码测试计算速度,执行10000000次计算统计得,执行30遍不同的测试实例后,得出IOA的平均运行时间为0.75秒,IOU的平均运行时间为0.27秒,IOA的计算耗时是IOU的36.8%,确定使用IOA代替IOU可以得到更高的运算效率。本实施例中,IOU的计算如图3示意图,IOA的计算如图4所示,IOU与IOA计算耗时的对比如图5所示。在目标分类与位置回归网络训练过程中测试IOU对训练效果的影响如图6所示,IOA对于训练效果的影响如图7所示。
目标类别信息是针对每个网格的,置信度信息是针对每个预测框的;每个网格预测的目标类别信息和预测框预测的置信度信息相乘,就得到每个预测框的某一类别预测得分,如下公式所示:
Figure BDA0002345422730000092
其中,Pr(Classi|Object)为每个网格预测的目标类别信息,
Figure BDA0002345422730000093
为每个预测框预测的置信度,这个乘积即反应了预测目标属于某一类的概率,也有该预测框准确度的信息;得到每个预测框的某一目标类别预测得分以后,使用设定的阈值过滤掉得分低的预测框,对保留的预测框进行非极大值抑制(Non Maximum Suppression,NMS)处理,得到最终的目标检测结果,实现对目标分类与位置回归网络的优化;
预测框评价单元IOA(Intersection over All),其计算过程较为简单,节省计算力,加速目标分类与位置回归网络的运行。
所述目标分类与位置回归网络采用目标分类与位置回归网络输出各项的误差加权求和作为全网络的损失函数,如下公式所示:
loss=loss1+loss2+loss3+loss4(3)
Figure BDA0002345422730000094
Figure BDA0002345422730000095
Figure BDA0002345422730000101
Figure BDA0002345422730000102
其中,λcoord和λnoobj均为加权损失项,均为常数系数,设置默认值λcoord=5,λnoobj=0.5;因为预测框的位置是目标识别的核心,当有识别目标的时候,λcoord可以为位置损失提供更高的权重;当没有识别目标的时候,本次预测没有意义,使用λnoobj提供更小的权重,减少该预测对正确识别的影响。B=3为网格中预测框个数;
Figure BDA0002345422730000103
为预测框的预测是否有效的判定标识,当网格单元i中存在目标,则该网格中的第j个预测框的预测值有效,
Figure BDA0002345422730000104
取值为1,如果网格单元i中不存在目标,则该网格中的第j个预测框的预测值无效,
Figure BDA0002345422730000105
取值为0;xi、yi、ωi、hi为识别目标的预测框的中心坐标和宽、高;
Figure BDA0002345422730000106
为目标真实框的中心坐标和宽高;pi(c)、
Figure BDA0002345422730000107
为预测置信度和真实置信度;Ci
Figure BDA0002345422730000108
为预测类别和真实类别;
公式(3)至(6)的作用为:公式(3)为对识别目标的预测框的中心坐标做损失,公式(4)为对预测框的宽高做损失,公式(5)为对目标分类与位置回归网络预测的类别做损失,公式(6)为对目标分类与位置回归网络预测的置信度做损失;
只有该网格中有目标的时候才计算类别预测误差。只有当某个预测框对某个真实框负责的时候,才会计算预测框的坐标误差。对于这个损失函数分为以下三部分,包含预测框损失值、类别预测损失值和置信度损失值。预测框损失值包括预测框中心坐标x、y的误差和预测框长宽w、h的误差。这里坐标的x,y用对应网格的尺寸归一化到(0,1)之间,w,h用图像的宽度和高度归一化到(0,1)之间。有目标的预测框的置信度损失值和类别损失的瞬时权重正常取1。在这种规则下,大预测框预测出现一点偏差的影响要小于小预测框预测出现一点偏差,为了缓和这一问题,本发明将预测框的宽度和高度取平方根代替原本的宽度和高度。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (4)

1.一种基于高速卷积神经网络的大目标识别方法,其特征在于:包括以下步骤:
步骤1、将待识别的目标图片输入通用型特征提取网络,实现对目标图片进行五次特征提取,每次特征提取后均对应一次降采样处理,得到降采样的特征;
所述通用型特征提取网络包括一个图片尺寸转化层、五个卷积层和五个最大值池化层;所述图片尺寸转化层对目标图片进行预处理后得到标准三通道图片;图片尺寸转化层连接一个卷积层,实现对预处理后得到的标准三通道图片进行一次特征提取;五个卷积层和五个最大值池化层交替连接,实现对目标图片的五次特征提取和五次降采样处理;
步骤2、建立大目标识别的目标分类与位置回归网络,并将通用型特征提取网络最后输出的降采样特征作为目标分类与位置回归网络的输入,得到全部的目标类别和目标位置;
所述目标分类与位置回归网络包括四个回归网络卷积层、一个最大值池化层6和一个输出层;所述最大值池化层6衔接第一个回归网络卷积层,输出层衔接最后一个回归网络卷积层;
步骤3、采用IOA预测框评价单元计算目标分类与位置回归网络训练得到的预测值与真实值产生的误差,使用预测误差来优化目标分类与位置回归网络,提高网络的识别精度;
目标分类与位置回归网络将输入图像分成S×S个网格;每个网格负责检测中心落在自己区域的目标类别;每个网格预测3个预测框,每个预测框预测预测框的中心坐标和宽高(x,y,w,h)以及置信度共5个值,同时,每个网格还要预测一个目标类别信息,记为C类,最后目标分类与位置回归网络输出一个S×S×(5*3+C)维的向量;所述置信度代表了本预测框中含有识别目标的置信度和这个预测框预测效果的准确率,其值计算为
Figure FDA0002345422720000011
如果有识别目标落在此网格里,则Pr(Object)取值为1,否则取值为0;
Figure FDA0002345422720000012
为通过IOA预测框评价单元判断预测框的预测效果,其值为预测框矩形和真实框矩形的交集面积与两个矩形的最小顶点与最大顶点组成的矩形面积的比值;
目标类别信息是针对每个网格的,置信度信息是针对每个预测框的;每个网格预测的目标类别信息和预测框预测的置信度信息相乘,就得到每个预测框的某一类别预测得分,如下公式所示:
Figure FDA0002345422720000013
其中,Pr(Classi|Object)为每个网格预测的目标类别信息,
Figure FDA0002345422720000014
为每个预测框预测的置信度,这个乘积即反应了预测目标属于某一类的概率,也有该预测框准确度的信息;得到每个预测框的某一目标类别预测得分以后,使用设定的阈值过滤掉得分低的预测框,对保留的预测框进行非极大值抑制处理,得到最终的目标识别的结果,实现对目标分类与位置回归网络的优化;
所述目标分类与位置回归网络采用目标分类与位置回归网络输出各项的误差加权求和作为全网络的损失函数。
2.根据权利要求1所述的一种基于高速卷积神经网络的大目标识别方法,其特征在于:所述通用型特征提取网络包括的一个图片尺寸转化层、五个卷积层和五个最大值池化层具体为:
图片尺寸转化层:在图片输入之前加入图片尺寸转化层,将非矩形、非标准的图片处理成416×416像素的图片,经过矩形裁剪、尺寸标准化两个步骤完成图片预处理任务,得到416×416×3的标准三通道图片;
卷积层1:标准输入格式为416×416×3,输入为预处理后416×416像素的原始图片,色彩为三通道彩色图像;该卷积层有16个卷积核,步长为(1,1),卷积核尺寸为3×3,经过全部卷积核的处理后输出416×416×16的1次特征提取特征;
最大值池化层1:标准输入格式为416×416×16,衔接卷积层1;使用2×2的池化核进行降采样,步长为(2,2),最后输出208×208×16尺寸的1次降采样特征;
卷积层2:标准输入格式为208×208×16,衔接最大值池化层1;该层有32个卷积核,步长为(1,1),卷积核尺寸为3×3,经过全部卷积核的处理后输出208×208×32的2次特征提取特征;
最大值池化层2:标准输入格式为208×208×32,衔接卷积层2;使用2x2的池化核进行降采样,步长为(2,2),最后输出104×104×32尺寸的2次降采样特征;
卷积层3:标准输入格式为104×104×32,衔接最大值池化层2;该层有64个卷积核,步长为(1,1),卷积核尺寸为3×3,经过全部卷积核的处理后输出104*104*64的3次特征提取特征;
最大值池化层3:标准输入格式为104*104*64,衔接卷积层3;使用2×2的池化核进行降采样,步长为(2,2),最后输出52×52×64尺寸的3次降采样特征;
卷积层4:标准输入格式为52×52×64,衔接最大值池化层3;该层有128个卷积核,步长为(1,1),卷积核尺寸为3×3,经过全部卷积核的处理后输出52×52×128的4次特征提取特征;
最大值池化层4:标准输入格式为52×52×128,衔接卷积层4;使用2×2的的池化核进行降采样,步长为(2,2),最后输出26×26×128尺寸的4次降采样特征;
卷积层5:标准输入格式为26×26×128,衔接最大值池化层4;该层有256个卷积核,步长为(1,1),卷积核尺寸为3×3,经过全部卷积核的处理后输出26×26×256的5次特征提取特征;
最大值池化层5:标准输入格式为26×26×256,衔接卷积层5;使用2×2的的池化核进行降采样,步长为(2,2),最后输出13×13×256尺寸的5次降采样特征。
3.根据权利要求2所述的一种基于高速卷积神经网络的大目标识别方法,其特征在于:所述目标分类与位置回归网络包括的四个回归网络卷积层、一个最大值池化层6和一个输出层具体为:
回归网络卷积层1:标准输入格式为13×13×256,衔接通用型特征提取网络的最大值池化层5;该层有512个卷积核,步长为(1,1),卷积核尺寸为3×3,经过全部卷积核处理后输出13×13×512的全部连接特征;
最大值池化层6:标准输入格式为13×13×512,衔接回归网络卷积层1;使用2×2的的池化核进行降采样,步长为(1,1),不改变输入尺寸,最后输出13×13×512尺寸的6次降采样特征;
回归网络卷积层2:标准输入格式为13×13×512,衔接最大值池化层6;该层有1024个卷积核,步长为(1,1),卷积核尺寸为3×3,经过全部卷积核处理后输出13×13×1024的全部连接特征;
回归网络卷积层3:标准输入格式为13×13×1024,衔接回归网络卷积层2;该层有256个卷积核,步长为(1,1),卷积核尺寸为1×1,经过全部卷积核处理后输出13×13×256的全部连接特征;
回归网络卷积层4:标准输入格式为13×13×256,衔接回归网络卷积层3;该层有512个卷积核,步长为(1,1),卷积核尺寸为3×3,经过全部卷积核处理后输出13×13×512的全部连接特征;
输出层:标准输入格式为13×13×512,衔接回归网络卷积层4;该层的卷积核数量由要识别的目标种类的数量决定,卷积核数量由公式(1)计算,步长为(1,1),卷积核尺寸为1×1;输出为全部目标类别与目标位置;
filter=3×(5+n) (1)
其中:filter为卷积核个数,n为要识别的目标种类。
4.根据权利要求1所述的一种基于高速卷积神经网络的大目标识别方法,其特征在于:所述目标分类与位置回归网络的损失函数如下公式所示:
loss=loss1+loss2+loss3+loss4 (3)
Figure FDA0002345422720000041
Figure FDA0002345422720000042
Figure FDA0002345422720000043
Figure FDA0002345422720000044
其中,λcoord和λnoobj均为加权损失项,均为常数系数;B=3为网格中预测框个数;
Figure FDA0002345422720000045
为预测框的预测是否有效的判定标识,当网格单元i中存在目标,则该网格中的第j个预测框的预测值有效,
Figure FDA0002345422720000046
取值为1,如果网格单元i中不存在目标,则该网格中的第j个预测框的预测值无效,
Figure FDA0002345422720000047
取值为0;xi、yi、ωi、hi为识别目标的预测框的中心坐标和宽、高;
Figure FDA0002345422720000048
Figure FDA0002345422720000049
为目标真实框的中心坐标和宽高;pi(c)、
Figure FDA00023454227200000410
为预测置信度和真实置信度;Ci
Figure FDA00023454227200000411
为预测类别和真实类别。
CN201911392630.7A 2019-12-30 2019-12-30 一种基于高速卷积神经网络的大目标识别方法 Active CN111160372B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911392630.7A CN111160372B (zh) 2019-12-30 2019-12-30 一种基于高速卷积神经网络的大目标识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911392630.7A CN111160372B (zh) 2019-12-30 2019-12-30 一种基于高速卷积神经网络的大目标识别方法

Publications (2)

Publication Number Publication Date
CN111160372A CN111160372A (zh) 2020-05-15
CN111160372B true CN111160372B (zh) 2023-04-18

Family

ID=70558946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911392630.7A Active CN111160372B (zh) 2019-12-30 2019-12-30 一种基于高速卷积神经网络的大目标识别方法

Country Status (1)

Country Link
CN (1) CN111160372B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898560B (zh) * 2020-08-03 2023-08-01 华南理工大学 一种目标检测中的分类回归特征解耦方法
CN113870870B (zh) * 2021-12-02 2022-04-05 自然资源部第一海洋研究所 一种基于卷积神经网络的海洋哺乳动物发声实时识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052946A (zh) * 2017-12-11 2018-05-18 国网上海市电力公司 一种基于卷积神经网络的高压机柜开关自动识别方法
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110503112A (zh) * 2019-08-27 2019-11-26 电子科技大学 一种增强特征学习的小目标检测及识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052946A (zh) * 2017-12-11 2018-05-18 国网上海市电力公司 一种基于卷积神经网络的高压机柜开关自动识别方法
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110503112A (zh) * 2019-08-27 2019-11-26 电子科技大学 一种增强特征学习的小目标检测及识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵小龙 ; 祝佳磊 ; 刘勇勇 ; 赵震 ; .基于多维特征融合的舰船目标识别技术研究.军事通信技术.2016,(第01期),全文. *

Also Published As

Publication number Publication date
CN111160372A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN109784333B (zh) 基于点云带权通道特征的三维目标检测方法及系统
CN110097051B (zh) 图像分类方法、装置及计算机可读存储介质
CN107229904B (zh) 一种基于深度学习的目标检测与识别方法
CN111753828B (zh) 一种基于深度卷积神经网络的自然场景水平文字检测方法
US8209172B2 (en) Pattern identification method, apparatus, and program
CN110334762B (zh) 一种基于四叉树结合orb和sift的特征匹配方法
CN110738207A (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
JP6192271B2 (ja) 画像処理装置、画像処理方法及びプログラム
CN108038846A (zh) 基于多层卷积神经网络的输电线路设备图像缺陷检测方法及系统
CN111310773A (zh) 一种高效的卷积神经网络的车牌定位方法
CN105574534A (zh) 基于稀疏子空间聚类和低秩表示的显著性目标检测方法
CN109215034A (zh) 一种基于空间金字塔掩盖池化的弱监督图像语义分割方法
CN113052006B (zh) 一种基于卷积神经网络的图像目标检测方法,系统及可读存储介质
CN112784869B (zh) 一种基于注意力感知与对抗学习的细粒度图像识别方法
CN113313703A (zh) 基于深度学习图像识别的无人机输电线巡检方法
CN111368637B (zh) 一种基于多掩模卷积神经网络的搬运机器人识别目标方法
CN115147488B (zh) 一种基于密集预测的工件位姿估计方法与抓取系统
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
CN117557784B (zh) 目标检测方法、装置、电子设备及存储介质
CN111160372B (zh) 一种基于高速卷积神经网络的大目标识别方法
CN113077484B (zh) 一种图像实例分割方法
CN110348311B (zh) 一种基于深度学习的道路交叉口识别系统及方法
WO2024078112A1 (zh) 一种舾装件智能识别方法、计算机设备
CN116071625B (zh) 深度学习模型的训练方法、目标检测方法及装置
CN108460772B (zh) 基于卷积神经网络的广告骚扰传真图像检测系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant