CN112348116A - 利用空间上下文的目标检测方法、装置和计算机设备 - Google Patents
利用空间上下文的目标检测方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN112348116A CN112348116A CN202011370431.9A CN202011370431A CN112348116A CN 112348116 A CN112348116 A CN 112348116A CN 202011370431 A CN202011370431 A CN 202011370431A CN 112348116 A CN112348116 A CN 112348116A
- Authority
- CN
- China
- Prior art keywords
- context
- network
- target
- feature extraction
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 148
- 238000000605 extraction Methods 0.000 claims abstract description 82
- 238000012549 training Methods 0.000 claims abstract description 59
- 238000000034 method Methods 0.000 claims abstract description 38
- 230000002441 reversible effect Effects 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 14
- 230000007246 mechanism Effects 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种利用空间上下文的目标检测方法、装置和计算机设备。所述方法包括:分别对初始图像进行标记、对检测目标的位置信息进行至少两次不同的标记,得到检测目标的定位信息以及提取检测目标的轮廓坐标,得到训练数据,将训练数据输入预目标检测网络;提取训练数据进行特征提取得到二维图像特征;提取各个方位上二维图像特征对应的上下文特征;根据上下文特征和二维图像特征,得到空间上下文特征,输出初始目标检测结果;根据定位信息和轮廓坐标构建损失函数,利用损失函数对目标检测网络进行反向训练,得到训练好的目标检测网络;将待检测图像输入训练好的目标检测网络,输出目标检测结果。采用本方法能够提高目标检测的准确率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种利用空间上下文的目标检测方法、装置和计算机设备。
背景技术
随着计算机技术和高性能计算硬件的发展,网络的普及,人们的生活触及到各种各样的多媒体设备,产生蕴含各类场景的图像,因此,对理解图像的内容和做出智能判断尤为重要。目标检测作为理解图像的一项基础任务,有着广阔的应用的范围,比如在交通的车辆、信号灯和行人组合的场景进行检测等。然而在目标检测中,对图像内容进行判断时存在目标物体发生形变、采集到的图像目标物体拍摄不全或者由于天气等因素造成待检测物体不清晰等问题,使得对检测物体的判断造成误判。
传统技术中,局部上下文信息和全局上下文信息无法有效结合,因此利用上下文信息无法准确的进行目标检测,从而导致利用上下文信息目标检测准确率低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够解决利用上下文信息准确率低问题的利用空间上下文的目标检测方法、装置、计算机设备和存储介质。
一种利用空间上下文的目标检测方法,所述方法包括:
分别对初始图像进行标记、对所述初始图像中的检测目标的位置信息进行至少两次不同的标记,得到检测目标在所述初始图像中的定位信息以及提取所述初始图像中的检测目标的轮廓坐标,得到训练数据;
将所述训练数据输入预先构建的目标检测网络;所述目标检测网络包括:基础特征提取网络、空间上下文特征提取网络以及输出网络;
通过所述基础特征提取网络提取所述训练数据进行特征提取,得到二维图像特征;
通过所述空间上下文特征提取网络提取各个方位上所述二维图像特征对应的上下文特征;
根据所述上下文特征和所述二维图像特征,得到空间上下文特征,利用输出网络根据所述空间上下文特征输出初始目标检测结果;
根据所述定位信息和所述轮廓坐标构建损失函数,利用所述损失函数对所述目标检测网络进行反向训练,得到训练好的目标检测网络;
将待检测图像输入训练好的目标检测网络,输出目标检测结果。
在其中一个实施例中,还包括:获取检测目标所在左上角的位置信息以及获取检测目标所在右下角的位置信息;对所述左上角和所述右下角的位置信息进行标记,得到检测目标在所述初始图像中的定位信息。
在其中一个实施例中,还包括:将所述二维图像特征输入所述空间上下文特征提取网络,得到各个方位上所述二维图像特征对应的上下文特征;所述空间上下文特征提取网络包括上方位上下文特征提取网络、下方位上下文特征提取网络、左方位上下文特征提取网络以及右方位上下文特征提取网络;其中,所述上方位上下文特征提取网络输出上方位上下文特征,所述下方位上下文特征提取网络输出下方位上下文特征,所述左方位上下文特征提取网络输出左方位上下文特征,所述右方位上下文提取网络输出右方位上下文特征。
在其中一个实施例中,还包括:将所述上方位上下文特征与所述二维特征图进行融合、所述下方位上下文特征与所述二维特征图进行融合、左方位上下文特征与所述二维特征图进行融合以及右方位上下文特征与所述二维特征图进行融合,均通过卷积以及下采样,得到空间上下文特征。
在其中一个实施例中,还包括:根据所述训练数据输入所述目标检测网络输出的预测定位信息与所述定位信息的偏差作为第一偏差;根据所述训练数据输入所述目标检测网络输出的预测边框坐标与所述边框坐标的偏差作为第二偏差;根据所述第一偏差和所述第二偏差,构建损失函数。
在其中一个实施例中,还包括:利用方差投票机制,根据所述第一偏差和所述第二偏差,构建损失函数。
在其中一个实施例中,还包括:对所述训练数据中的初始图像进行数据增强处理。
一种利用空间上下文的目标检测装置,所述装置包括:
图像标记模块,用于分别对初始图像进行标记、对所述初始图像中的检测目标的位置信息进行至少两次不同的标记,得到检测目标在所述初始图像中的定位信息以及提取所述初始图像中的检测目标的轮廓坐标,得到训练数据;
网络处理模块,用于将所述训练数据输入预先构建的目标检测网络;所述目标检测网络包括:基础特征提取网络、空间上下文特征提取网络以及输出网络;通过所述基础特征提取网络提取所述训练数据进行特征提取,得到二维图像特征;通过所述空间上下文特征提取网络提取各个方位上所述二维图像特征对应的上下文特征;根据所述上下文特征和所述二维图像特征,得到空间上下文特征,利用输出网络根据所述空间上下文特征输出初始目标检测结果;
训练模块,用于根据所述定位信息和所述轮廓坐标构建损失函数,利用所述损失函数对所述目标检测网络进行反向训练,得到训练好的目标检测网络;
目标检测模块,用于将待检测图像输入训练好的目标检测网络,输出目标检测结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
分别对初始图像进行标记、对所述初始图像中的检测目标的位置信息进行至少两次不同的标记,得到检测目标在所述初始图像中的定位信息以及提取所述初始图像中的检测目标的轮廓坐标,得到训练数据;
将所述训练数据输入预先构建的目标检测网络;所述目标检测网络包括:基础特征提取网络、空间上下文特征提取网络以及输出网络;
通过所述基础特征提取网络提取所述训练数据进行特征提取,得到二维图像特征;
通过所述空间上下文特征提取网络提取各个方位上所述二维图像特征对应的上下文特征;
根据所述上下文特征和所述二维图像特征,得到空间上下文特征,利用输出网络根据所述空间上下文特征输出初始目标检测结果;
根据所述定位信息和所述轮廓坐标构建损失函数,利用所述损失函数对所述目标检测网络进行反向训练,得到训练好的目标检测网络;
将待检测图像输入训练好的目标检测网络,输出目标检测结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
分别对初始图像进行标记、对所述初始图像中的检测目标的位置信息进行至少两次不同的标记,得到检测目标在所述初始图像中的定位信息以及提取所述初始图像中的检测目标的轮廓坐标,得到训练数据;
将所述训练数据输入预先构建的目标检测网络;所述目标检测网络包括:基础特征提取网络、空间上下文特征提取网络以及输出网络;
通过所述基础特征提取网络提取所述训练数据进行特征提取,得到二维图像特征;
通过所述空间上下文特征提取网络提取各个方位上所述二维图像特征对应的上下文特征;
根据所述上下文特征和所述二维图像特征,得到空间上下文特征,利用输出网络根据所述空间上下文特征输出初始目标检测结果;
根据所述定位信息和所述轮廓坐标构建损失函数,利用所述损失函数对所述目标检测网络进行反向训练,得到训练好的目标检测网络;
将待检测图像输入训练好的目标检测网络,输出目标检测结果。
上述利用空间上下文的目标检测方法、装置、计算机设备和存储介质,一方面在对初始图像处理时,除了对目标进行标记之外,还对目标的定位信息和轮廓坐标信息,对目标进行更细致的刻画,从而在损失函数构建时,融入了定位信息和轮廓坐标信息,提高了目标检测的准确率,另一方面,在特征提取上下时,提取了各个方向上的上下文特征,从而对于二维特征图中的每个像素而言,相当于融合了各个方向的信息,从而实现了局部到全局的转变,从而提高了目标检测的准确率。
附图说明
图1为一个实施例中利用空间上下文的目标检测方法的流程示意图;
图2为一个实施例中利用空间上下文的目标检测装置的结构框图;
图3为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种利用空间上下文的目标检测方法,包括以下步骤:
步骤102,分别对初始图像进行标记、对初始图像中的检测目标的位置信息进行至少两次不同的标记,得到检测目标在初始图像中的定位信息以及提取初始图像中的检测目标的轮廓坐标,得到训练数据。
初始图像指的是包含检测目标的图像数据,初始图像中的检测目标可以是一个或者多个,本发明可以对初始图像中的所有检测目标进行检测。
初始图像可以是通过图像爬虫、网页公开等方式收集,对收集到的图像进行处理,例如:数据清洗。数据筛选等。
对位置信息进行标记,可以是相对位置标记,例如目标相对于图像边框上的一个位置点的坐标,两次不同的标记可以是选取边框上不同的位置点。
轮廓坐标指的是检测目标的轮廓的坐标。
训练数据包括:训练集数据、测试集数据以及验证集数据。
步骤102,将训练数据输入预先构建的目标检测网络。
目标测网络包括:基础特征提取网络、空间上下文特征提取网络以及输出网络。基础特征提取网络可以是VGG,GoogLeNet和ResNet。本发明具体实施时,VGG是由一系列的3x3的卷积层和2x2的池化层组成,连接方式是先使用几个卷积然后使用一个池化层直连式的连接,使用小的卷积核与使用大的卷积核相比较,其计算量得到减小,GoogLeNet使用一组1x1,3x3,5x5大小的卷积核,不同之处是,VGG是直连的方式增加深度,GoogLeNet是通过曾加宽度,即增加网络对尺度的多样性,GoogLeNet有多个分支通道,最后把经过卷积层和池化层相同的特征进行相加;ResNet则由一系列的残差单元堆叠而成,残差方式可以缓解梯度消失问题,ResNet的深度能够达到100层以上。
步骤106,通过基础特征提取网络提取训练数据进行特征提取,得到二维图像特征。
步骤108,通过空间上下文特征提取网络提取各个方位上二维图像特征对应的上下文特征。
各个方向可以是上下左右或者上下左右中各个方位的组合。值得说明的是,在各个方向特征聚合的过程是相互独立的。
步骤110,根据上下文特征和二维图像特征,得到空间上下文特征,利用输出网络根据空间上下文特征输出初始目标检测结果。
步骤112,根据定位信息和轮廓坐标构建损失函数,利用损失函数对目标检测网络进行反向训练,得到训练好的目标检测网络。
步骤114,将待检测图像输入训练好的目标检测网络,输出目标检测结果。
上述利用空间上下文的目标检测方法中,一方面在对初始图像处理时,除了对目标进行标记之外,还对目标的定位信息和轮廓坐标信息,对目标进行更细致的刻画,从而在损失函数构建时,融入了定位信息和轮廓坐标信息,提高了目标检测的准确率,另一方面,在特征提取上下时,提取了各个方向上的上下文特征,从而对于二维特征图中的每个像素而言,相当于融合了各个方向的信息,从而实现了局部到全局的转变,从而提高了目标检测的准确率。
在其中一个实施例中,获取检测目标所在左上角的位置信息以及获取检测目标所在右下角的位置信息;对左上角和所述右下角的位置信息进行标记,得到检测目标在所述初始图像中的定位信息。本实施例中,所在左上角指的是相对于左上角的坐标,同理右上角指的是相对于右上角的坐标。
在其中一个实施例中,将二维图像特征输入空间上下文特征提取网络,得到各个方位上二维图像特征对应的上下文特征;空间上下文特征提取网络包括上方位上下文特征提取网络、下方位上下文特征提取网络、左方位上下文特征提取网络以及右方位上下文特征提取网络;其中,上方位上下文特征提取网络输出上方位上下文特征,下方位上下文特征提取网络输出下方位上下文特征,左方位上下文特征提取网络输出左方位上下文特征,右方位上下文提取网络输出右方位上下文特征。
本实施例中,网络检测一个物体如果从单一的角度进行检测可能由于判断条件的不充分,造成检测结果的不准确,需要从多个方面发现待检测目标之间存在的内在联系,提升检测的准确度。具有二维空间上下文的图像特征应用到以上、下、左和右四个相互独立方向的数据转换去聚合局部的空间上下文,并且将结果融合到输出空间上下文信息特征之前的中间特征途中,然后是重复前面的两个过程,一次次的以每个方向进一步去聚合空间上下文,知道最后生成全局上下文信息特征。与输入的二维图像特征相比,只是每个像素点只是对掌握目标的局部上下文,而经过以四个方向的数据转换后,获得了沿上、下、左和右四个方向的空间上下文信息,所以经过数据转换,每个像素点便可知道必要的整体空间上下文信息特征,以用来解决网络需要解决的问题。
在其中一个实施例中,将上方位上下文特征与二维特征图进行融合、下方位上下文特征与二维特征图进行融合、左方位上下文特征与二维特征图进行融合以及右方位上下文特征与二维特征图进行融合,均通过卷积以及下采样,得到空间上下文特征。
具体的,使用方向感知注意力机制,应用学习注意力机制生成方向感知空间上下文。其中方向感知注意力机制作用是有选择的学习上下左右四个方向聚集的空间的上下文信息特征,首先使用的是两个卷积层,其中卷积核大小都为3×3,两个卷积层后都使用ReLU非线性激活函数,然后紧接着连接第三个卷积层,卷积核大小为1×1,以此组成注意力矩阵W,将W分别拆分成上下左右四个方向的子权重注意力图,上面的操作可以用如下表达式表达为:
W=fat(X;θ)
其中,X表示为要输入的特征数据,θ表示为fat需要学习的参数,fat表示为注意力估计网络。
上下左右四个方向的子权重注意力图与相应方向上的空间上下文特征沿不同方向进行相乘的操作,所以,在使用训练数据集训练网络后,其中参数θ能够学到合适的参数权重,进而达到有选择地使用空间上下文信息特征。
更进一步的,方向感知空间上下文特征,将空间上下文信息特征与上下左右四个方向地权重相乘后地结果,将他们一一连接起来,使用一个卷积层,卷积核大小为1×1,将特征地维度大小缩小到维的1/4,接着进行第二轮的重复操作,最后对级联的特征使用一个卷积层,卷积核大小为1×1,ReLU非线性激活函数,形成方向感知空间上下文特征。
将得到的空间上下文特征与基础网络提取的特征相连接,然后通过上采样策略,将上下文特征和卷积特征连接得到的特征变换到与输入图像数据的大小,并且连接变换经过上采样的特征经过1x1大小的卷积层组合得到多层集成特征,并使用深度监督机制来将信号加强给每一层,将加强的多层集成特征输入应用方差投票机制的检测层。
在其中一个实施例中,根据训练数据输入目标检测网络输出的预测定位信息与定位信息的偏差作为第一偏差;根据训练数据输入目标检测网络输出的预测边框坐标与边框坐标的偏差作为第二偏差;根据第一偏差和所述第二偏差,构建损失函数。
具体的,利用方差投票机制,根据第一偏差和所述第二偏差,构建损失函数。
更进一步的,方差投票机制,待检测目标的坐标信息用(x1,y1,x2,y2)形式表示的四维向量,预测偏差和实际偏差的可以用如下的表达式表示为:
其中,px1,px2,py1,py2表示为预测的偏差,gx1,gx2,gy1,gy2表示为实际偏差,x1a,x2a,y1a,y2a,w,h表示为锚框的坐标信息,x1,y1,x2,y2表示为预测框的坐标,x′1,y′1,x′2,y′2表示为实际边框的坐标。得到了预测偏差和实际偏差,接下来对预测位置方差进行计算。
更进一步地,预测位置方差的计算,假设每个坐标是独立的,使用一维正态分布表示:
其中,θ表示为所有学习参数的集和,xe表示为预测的边框位置,σ表示为标准偏差。那么实际的边框位置也可用偏差为σ的高斯分布表示,当σ无线趋近为0时,实际的边框位置可变为:
pt(x)=δ(x-xg)
其中,xg表示为实际的边框位置。所以我们的目的是在许多样本中找到预测偏差和和实际偏差之间的最小值,使用如下表达式进行操作:
其中,为了避免梯度爆炸的问题,在训练时α=log(σ2),σ(→0),xe表示为估计的边界框位置,xg表示为预测的位置。然后利用得到的预测位置方差和学习到的相邻边界框的方差对候选位置进行投票。对经过非极大值抑制算法筛选剩下的候选框中进行投票,先选择得分最高的检测框b,其参数有{x1,y1,x2,y2,s,σx1,σy1,σx2,σy2},其位置更新的原则是根据自身边框位置和相邻边框位置共同决定的,为距离自身边框较近和不确定性即得分较低的边框分配一个大的权重,新的边框坐标计算式可以用如下表达式表示:
其中,xi表示为第i个框的坐标框,σt表示为方差投票中的一个可以调整变化的参数,方差投票机制中对于有一些边框具有方差比较大和它的IoU值很小的框,对于满足这两个条件之一的框,将分配一个较小的权重,这是由于分数低的框会有着良好的置信度。
在其中一个实施例中,对训练数据中的初始图像进行数据增强处理。
具体的,数据增强处理,例如对图像进行随机旋转、裁剪和调整图像的亮度等,然后使用增强的数据集进行训练
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图2所示,提供了一种利用空间上下文的目标检测装置,包括:图像标记模块202、网络处理模块204、训练模块206和目标检测模块208,其中:
图像标记模块202,用于分别对初始图像进行标记、对所述初始图像中的检测目标的位置信息进行至少两次不同的标记,得到检测目标在所述初始图像中的定位信息以及提取所述初始图像中的检测目标的轮廓坐标,得到训练数据;
网络处理模块204,用于将所述训练数据输入预先构建的目标检测网络;所述目标检测网络包括:基础特征提取网络、空间上下文特征提取网络以及输出网络;通过所述基础特征提取网络提取所述训练数据进行特征提取,得到二维图像特征;通过所述空间上下文特征提取网络提取各个方位上所述二维图像特征对应的上下文特征;根据所述上下文特征和所述二维图像特征,得到空间上下文特征,利用输出网络根据所述空间上下文特征输出初始目标检测结果;
训练模块206,用于根据所述定位信息和所述轮廓坐标构建损失函数,利用所述损失函数对所述目标检测网络进行反向训练,得到训练好的目标检测网络;
目标检测模块208,用于将待检测图像输入训练好的目标检测网络,输出目标检测结果。
在其中一个实施例中,图像标记模块202还用于获取检测目标所在左上角的位置信息以及获取检测目标所在右下角的位置信息;对所述左上角和所述右下角的位置信息进行标记,得到检测目标在所述初始图像中的定位信息。
在其中一个实施例中,网络处理模块204还用于将所述二维图像特征输入所述空间上下文特征提取网络,得到各个方位上所述二维图像特征对应的上下文特征;所述空间上下文特征提取网络包括上方位上下文特征提取网络、下方位上下文特征提取网络、左方位上下文特征提取网络以及右方位上下文特征提取网络;其中,所述上方位上下文特征提取网络输出上方位上下文特征,所述下方位上下文特征提取网络输出下方位上下文特征,所述左方位上下文特征提取网络输出左方位上下文特征,所述右方位上下文提取网络输出右方位上下文特征。
在其中一个实施例中,,网络处理模块204还用于将所述上方位上下文特征与所述二维特征图进行融合、所述下方位上下文特征与所述二维特征图进行融合、左方位上下文特征与所述二维特征图进行融合以及右方位上下文特征与所述二维特征图进行融合,均通过卷积以及下采样,得到空间上下文特征。
在其中一个实施例中,训练模块206还用于根据所述训练数据输入所述目标检测网络输出的预测定位信息与所述定位信息的偏差作为第一偏差;根据所述训练数据输入所述目标检测网络输出的预测边框坐标与所述边框坐标的偏差作为第二偏差;根据所述第一偏差和所述第二偏差,构建损失函数。
在其中一个实施例中,训练模块206还用于利用方差投票机制,根据所述第一偏差和所述第二偏差,构建损失函数。
在其中一个实施例中,还包括:对所述训练数据中的初始图像进行数据增强处理。
关于利用空间上下文的目标检测装置的具体限定可以参见上文中对于利用空间上下文的目标检测方法的限定,在此不再赘述。上述利用空间上下文的目标检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储初始图像数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种利用空间上下文的目标检测方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种利用空间上下文的目标检测方法,其特征在于,所述方法包括:
分别对初始图像进行标记、对所述初始图像中的检测目标的位置信息进行至少两次不同的标记,得到检测目标在所述初始图像中的定位信息以及提取所述初始图像中的检测目标的轮廓坐标,得到训练数据;
将所述训练数据输入预先构建的目标检测网络;所述目标检测网络包括:基础特征提取网络、空间上下文特征提取网络以及输出网络;
通过所述基础特征提取网络提取所述训练数据进行特征提取,得到二维图像特征;
通过所述空间上下文特征提取网络提取各个方位上所述二维图像特征对应的上下文特征;
根据所述上下文特征和所述二维图像特征,得到空间上下文特征,利用输出网络根据所述空间上下文特征输出初始目标检测结果;
根据所述定位信息和所述轮廓坐标构建损失函数,利用所述损失函数对所述目标检测网络进行反向训练,得到训练好的目标检测网络;
将待检测图像输入训练好的目标检测网络,输出目标检测结果。
2.根据权利要求1所述的方法,其特征在于,对所述初始图像中的检测目标的位置信息进行至少两次不同的标记,得到检测目标在所述初始图像中的定位信息,包括:
获取检测目标所在左上角的位置信息以及获取检测目标所在右下角的位置信息;
对所述左上角和所述右下角的位置信息进行标记,得到检测目标在所述初始图像中的定位信息。
3.根据权利要求1所述的方法,其特征在于,通过所述空间上下文特征提取网络提取各个方位上所述二维图像特征对应的上下文特征,包括:
将所述二维图像特征输入所述空间上下文特征提取网络,得到各个方位上所述二维图像特征对应的上下文特征;所述空间上下文特征提取网络包括上方位上下文特征提取网络、下方位上下文特征提取网络、左方位上下文特征提取网络以及右方位上下文特征提取网络;其中,所述上方位上下文特征提取网络输出上方位上下文特征,所述下方位上下文特征提取网络输出下方位上下文特征,所述左方位上下文特征提取网络输出左方位上下文特征,所述右方位上下文提取网络输出右方位上下文特征。
4.根据权利要求3所述的方法,其特征在于,根据所述上下文特征和所述二维图像特征,得到空间上下文特征,包括:
将所述上方位上下文特征与所述二维特征图进行融合、所述下方位上下文特征与所述二维特征图进行融合、左方位上下文特征与所述二维特征图进行融合以及右方位上下文特征与所述二维特征图进行融合,均通过卷积以及下采样,得到空间上下文特征。
5.根据权利要求2所述的方法,其特征在于,根据所述定位信息和所述轮廓坐标构建损失函数,包括:
根据所述训练数据输入所述目标检测网络输出的预测定位信息与所述定位信息的偏差作为第一偏差;
根据所述训练数据输入所述目标检测网络输出的预测边框坐标与所述边框坐标的偏差作为第二偏差;
根据所述第一偏差和所述第二偏差,构建损失函数。
6.根据权利要求5所述的方法,其特征在于,根据所述第一偏差和所述第二偏差,构建损失函数,包括:
利用方差投票机制,根据所述第一偏差和所述第二偏差,构建损失函数。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:
对所述训练数据中的初始图像进行数据增强处理。
8.一种利用空间上下文的目标检测装置,其特征在于,所述装置包括:
图像标记模块,用于分别对初始图像进行标记、对所述初始图像中的检测目标的位置信息进行至少两次不同的标记,得到检测目标在所述初始图像中的定位信息以及提取所述初始图像中的检测目标的轮廓坐标,得到训练数据;
网络处理模块,用于将所述训练数据输入预先构建的目标检测网络;所述目标检测网络包括:基础特征提取网络、空间上下文特征提取网络以及输出网络;通过所述基础特征提取网络提取所述训练数据进行特征提取,得到二维图像特征;通过所述空间上下文特征提取网络提取各个方位上所述二维图像特征对应的上下文特征;根据所述上下文特征和所述二维图像特征,得到空间上下文特征,利用输出网络根据所述空间上下文特征输出初始目标检测结果;
训练模块,用于根据所述定位信息和所述轮廓坐标构建损失函数,利用所述损失函数对所述目标检测网络进行反向训练,得到训练好的目标检测网络;
目标检测模块,用于将待检测图像输入训练好的目标检测网络,输出目标检测结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011370431.9A CN112348116B (zh) | 2020-11-30 | 2020-11-30 | 利用空间上下文的目标检测方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011370431.9A CN112348116B (zh) | 2020-11-30 | 2020-11-30 | 利用空间上下文的目标检测方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112348116A true CN112348116A (zh) | 2021-02-09 |
CN112348116B CN112348116B (zh) | 2024-02-02 |
Family
ID=74365105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011370431.9A Active CN112348116B (zh) | 2020-11-30 | 2020-11-30 | 利用空间上下文的目标检测方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112348116B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949769A (zh) * | 2021-04-07 | 2021-06-11 | 中国科学技术大学 | 一种目标检测方法及目标检测系统 |
CN113283343A (zh) * | 2021-05-26 | 2021-08-20 | 上海商汤智能科技有限公司 | 人群定位方法及装置、电子设备和存储介质 |
CN113807218A (zh) * | 2021-09-03 | 2021-12-17 | 科大讯飞股份有限公司 | 版面分析方法、装置、计算机设备和存储介质 |
CN114549926A (zh) * | 2022-01-24 | 2022-05-27 | 北京百度网讯科技有限公司 | 目标检测与目标检测模型的训练方法、装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030221184A1 (en) * | 2002-05-22 | 2003-11-27 | Gunjal Atul Narayan | Template-based application development system |
US20080069400A1 (en) * | 2006-07-07 | 2008-03-20 | Ying Zhu | Context adaptive approach in vehicle detection under various visibility conditions |
CA2595830A1 (en) * | 2007-08-01 | 2009-02-01 | Nortel Networks Limited | A smart communications system for integration into a workflow-engaged clinical environment |
CN107610113A (zh) * | 2017-09-13 | 2018-01-19 | 北京邮电大学 | 一种图像中基于深度学习的小目标的检测方法及装置 |
CN107808375A (zh) * | 2017-09-28 | 2018-03-16 | 中国科学院合肥物质科学研究院 | 融合多种上下文深度学习模型的水稻病害图像检测方法 |
CN108470138A (zh) * | 2018-01-24 | 2018-08-31 | 博云视觉(北京)科技有限公司 | 用于目标检测的方法和装置 |
US10067509B1 (en) * | 2017-03-10 | 2018-09-04 | TuSimple | System and method for occluding contour detection |
CN109583340A (zh) * | 2018-11-15 | 2019-04-05 | 中山大学 | 一种基于深度学习的视频目标检测方法 |
US20190228529A1 (en) * | 2016-08-26 | 2019-07-25 | Hangzhou Hikvision Digital Technology Co., Ltd. | Image Segmentation Method, Apparatus, and Fully Convolutional Network System |
CN111079632A (zh) * | 2019-12-12 | 2020-04-28 | 上海眼控科技股份有限公司 | 文本检测模型的训练方法、装置、计算机设备和存储介质 |
CN111950329A (zh) * | 2019-05-16 | 2020-11-17 | 长沙智能驾驶研究院有限公司 | 目标检测及模型训练方法、装置、计算机设备和存储介质 |
-
2020
- 2020-11-30 CN CN202011370431.9A patent/CN112348116B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030221184A1 (en) * | 2002-05-22 | 2003-11-27 | Gunjal Atul Narayan | Template-based application development system |
US20080069400A1 (en) * | 2006-07-07 | 2008-03-20 | Ying Zhu | Context adaptive approach in vehicle detection under various visibility conditions |
CA2595830A1 (en) * | 2007-08-01 | 2009-02-01 | Nortel Networks Limited | A smart communications system for integration into a workflow-engaged clinical environment |
US20190228529A1 (en) * | 2016-08-26 | 2019-07-25 | Hangzhou Hikvision Digital Technology Co., Ltd. | Image Segmentation Method, Apparatus, and Fully Convolutional Network System |
US10067509B1 (en) * | 2017-03-10 | 2018-09-04 | TuSimple | System and method for occluding contour detection |
CN107610113A (zh) * | 2017-09-13 | 2018-01-19 | 北京邮电大学 | 一种图像中基于深度学习的小目标的检测方法及装置 |
CN107808375A (zh) * | 2017-09-28 | 2018-03-16 | 中国科学院合肥物质科学研究院 | 融合多种上下文深度学习模型的水稻病害图像检测方法 |
CN108470138A (zh) * | 2018-01-24 | 2018-08-31 | 博云视觉(北京)科技有限公司 | 用于目标检测的方法和装置 |
CN109583340A (zh) * | 2018-11-15 | 2019-04-05 | 中山大学 | 一种基于深度学习的视频目标检测方法 |
CN111950329A (zh) * | 2019-05-16 | 2020-11-17 | 长沙智能驾驶研究院有限公司 | 目标检测及模型训练方法、装置、计算机设备和存储介质 |
CN111079632A (zh) * | 2019-12-12 | 2020-04-28 | 上海眼控科技股份有限公司 | 文本检测模型的训练方法、装置、计算机设备和存储介质 |
Non-Patent Citations (6)
Title |
---|
WOLFGANG FUHL: "Fast and Robust Eyelid Outline and Aperture Detection in Real-World Scenarios", 《2017 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION (WACV)》, pages 1 - 10 * |
佚名: "Exploring person context and local scene context for object detection", pages 1 - 15, Retrieved from the Internet <URL:《https://arxiv.org/abs/1511.08177》> * |
佚名: "通过空间上下文特征进行阴影检测", pages 1 - 10, Retrieved from the Internet <URL:《https://zhuanlan.zhihu.com/p/61730640 》> * |
孙百伟: "视频中运动目标跟踪算法研究与实现", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, pages 138 - 719 * |
蒋加伏: "结合背景差分和闭合轮廓拟合的运动人体检测", 《计算机工程与应用》, pages 198 - 202 * |
颜丹: "基于深度自动编码器的特征提取算法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, pages 138 - 3406 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949769A (zh) * | 2021-04-07 | 2021-06-11 | 中国科学技术大学 | 一种目标检测方法及目标检测系统 |
CN112949769B (zh) * | 2021-04-07 | 2022-09-06 | 中国科学技术大学 | 一种目标检测方法及目标检测系统 |
CN113283343A (zh) * | 2021-05-26 | 2021-08-20 | 上海商汤智能科技有限公司 | 人群定位方法及装置、电子设备和存储介质 |
WO2022247091A1 (zh) * | 2021-05-26 | 2022-12-01 | 上海商汤智能科技有限公司 | 人群定位方法及装置、电子设备和存储介质 |
CN113807218A (zh) * | 2021-09-03 | 2021-12-17 | 科大讯飞股份有限公司 | 版面分析方法、装置、计算机设备和存储介质 |
CN113807218B (zh) * | 2021-09-03 | 2024-02-20 | 科大讯飞股份有限公司 | 版面分析方法、装置、计算机设备和存储介质 |
CN114549926A (zh) * | 2022-01-24 | 2022-05-27 | 北京百度网讯科技有限公司 | 目标检测与目标检测模型的训练方法、装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112348116B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110751134B (zh) | 目标检测方法、装置、存储介质及计算机设备 | |
CN111814794B (zh) | 文本检测方法、装置、电子设备及存储介质 | |
CN110414507B (zh) | 车牌识别方法、装置、计算机设备和存储介质 | |
EP3971772B1 (en) | Model training method and apparatus, and terminal and storage medium | |
CN112348116A (zh) | 利用空间上下文的目标检测方法、装置和计算机设备 | |
CN110163193B (zh) | 图像处理方法、装置、计算机可读存储介质和计算机设备 | |
CN111079632A (zh) | 文本检测模型的训练方法、装置、计算机设备和存储介质 | |
CN111178245A (zh) | 车道线检测方法、装置、计算机设备和存储介质 | |
CN108986152B (zh) | 一种基于差分图像的异物检测方法及装置 | |
CN112434618B (zh) | 基于稀疏前景先验的视频目标检测方法、存储介质及设备 | |
CN110176024B (zh) | 在视频中对目标进行检测的方法、装置、设备和存储介质 | |
CN112183295A (zh) | 行人重识别方法、装置、计算机设备及存储介质 | |
CN111191533A (zh) | 行人重识别的处理方法、装置、计算机设备和存储介质 | |
CN111652181B (zh) | 目标跟踪方法、装置及电子设备 | |
CN114092833A (zh) | 遥感图像分类方法、装置、计算机设备和存储介质 | |
CN114155365A (zh) | 模型训练方法、图像处理方法及相关装置 | |
CN114359665A (zh) | 全任务人脸识别模型的训练方法及装置、人脸识别方法 | |
CN113449586A (zh) | 目标检测方法、装置、计算机设备和存储介质 | |
CN111179270A (zh) | 基于注意力机制的图像共分割方法和装置 | |
CN111709415A (zh) | 目标检测方法、装置、计算机设备和存储介质 | |
CN110866428B (zh) | 目标跟踪方法、装置、电子设备及存储介质 | |
CN112241646A (zh) | 车道线识别方法、装置、计算机设备和存储介质 | |
Sikdar et al. | Deepmao: Deep multi-scale aware overcomplete network for building segmentation in satellite imagery | |
CN113763412B (zh) | 图像处理方法、装置及电子设备、计算机可读存储介质 | |
CN114399657A (zh) | 车辆检测模型训练方法、装置、车辆检测方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |