CN111597920A - 一种自然场景下的全卷积单阶段的人体实例分割方法 - Google Patents
一种自然场景下的全卷积单阶段的人体实例分割方法 Download PDFInfo
- Publication number
- CN111597920A CN111597920A CN202010343727.5A CN202010343727A CN111597920A CN 111597920 A CN111597920 A CN 111597920A CN 202010343727 A CN202010343727 A CN 202010343727A CN 111597920 A CN111597920 A CN 111597920A
- Authority
- CN
- China
- Prior art keywords
- mask
- prototype
- crop
- human body
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000011218 segmentation Effects 0.000 title claims abstract description 44
- 238000004364 calculation method Methods 0.000 claims description 38
- 230000006870 function Effects 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 26
- 238000012360 testing method Methods 0.000 claims description 17
- 238000010586 diagram Methods 0.000 claims description 16
- 238000013135 deep learning Methods 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 10
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000011002 quantification Methods 0.000 claims description 3
- 238000007634 remodeling Methods 0.000 claims description 3
- 239000000470 constituent Substances 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 6
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000007547 defect Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种新的适用于自然场景下的全卷积单阶段的人体实例分割方法,该方法包括特征图提取、生成原型掩膜、掩膜系数计算、分类、位置回归、中心性计算、通过ROIAlign产生感兴趣区域以及原型掩膜和掩膜系数相结合得到最终的实例掩膜。在特征图提取时,采用ResNet+FPN作为网络的backbone,使用P3、P4、P5、P6、P7作为计算掩膜系数、分类和回归的特征图,使用P3作为计算原型掩膜的特征图,原型掩膜和掩膜系数的结合采用分段线性组合的方式,本方法可以在MS COCO 2017数据集上实现41.4fps速度下34.8mAP的实时人体实例分割。
Description
技术领域
本发明涉及一种自然场景下的全卷积单阶段的人体实例分割方法,属于计算机视觉技术领域。
背景技术
自然场景下的人体实例分割是当前计算机视觉领域一个新的难题,实例分割在一定程度上可以理解为目标检测和语义分割的结合,实例分割可以被广泛应用于无人驾驶、医疗图像分析、智能机器人以及地理信息系统等领域,其中人体实例分割显得尤为重要。
当下,目标检测和语义分割任务的主流解决方案通过卷积神经网络实现,实例分割也不例外,目前已经提出的性能较好的实例分割网络包括two-stage的Mask R-CNN和FCIS以及one-stage的YOLACT等。Mask R-CNN缺点主要在于检测器采用Faster-RCNN,需要设计大量的anchors,引入很多人工设计的尺度和比例参数,FCIS的主要缺点在于在第一阶段需要通过RPN生成大量的候选框,YOLACT网络的缺点在于使用基于全图的原型掩膜和掩膜系数做结合生成最终的实例掩膜,缺少对于感兴趣区域的提取。
发明内容
发明目的,本发明旨在解决现有方法需要设计大量锚点、具有双阶段架构、检测速度较慢,缺少实时应用价值的缺点,针对自然场景下的人体实例分割问题,提出一种新的自然场景下的全卷积单阶段实时人体实例分割方法,该方法应该是单阶段的、不需要使用锚点的,可以实现实时的人体实例分割,同时具有较高的查准率。
为实现本发明的目的,本发明所采用的技术方案是:一种基于深度学习的自然场景下全卷积单阶段人体实例分割方法,实现如下功能:对一张包含人体的自然场景下的图片,通过深度卷积神经网络处理实现对所有人体实例的实时分割。
本方法生成实例掩膜的思路为:通过将由卷积神经网络预测得到的原型掩膜和掩膜系数进行分段线性组合,得到最终的实例掩膜。
该方法的训练过程包括如下步骤:
步骤一:通过骨干网络从输入的包含人体的自然场景图像中实现特征图提取;
步骤二:基于骨干网络提取到的特征图,通过全卷积网络实现掩膜系数计算、中心性指标计算、分类和回归计算;
步骤三:基于骨干网络提取到的特征图,通过全卷积网络生成原型掩膜,原型掩膜是用来生成最终实例掩膜的组成元素之一;
步骤四:通过ROIAlign在生成的原型掩膜上截取感兴趣的区域;
步骤五:将原型掩膜中的感兴趣的区域和掩膜系数相结合得到最终的实例掩膜;
步骤六:根据分类结果、回归结果、中心性指标和计算得到的实例掩膜,进行分类和回归的loss计算、中心性的loss计算以及实例掩膜的loss计算;
步骤七:在COCO-2017-train数据集上采用随机梯度下降方法不断迭代优化神经网络,最终得到训练好的网络;
步骤八:将训练好的网络用于自然场景下的人体实例分割和目标检测。
进一步的,所述步骤1中的特征图提取,采用与FCOS网络相同的残差网络+特征金字塔网络作为骨干网络,从输入图片中提取到多尺度的特征图P3、P4、P5、P6、P7。
进一步的,所述步骤2中的基于提取到的特征图,通过全卷积网络实现掩膜系数、中心性指标以及分类和回归的计算,具体而言是通过全卷积网络对步骤1中输出的特征图逐点位地计算掩膜系数、中心性指标以及分类和回归结果。首先将通过骨干网络得到的金字塔特征图P3、P4、P5、P6、P7,再将其送入四层3*3卷积层,保持特征图尺寸不变,计算得到分类共享特征图,然后将分类共享特征图送入分类卷积层得到类别计算结果,将分类共享特征图送入中心性计算卷积层得到中心性计算结果,将特征图P3、P4、P5、P6、P7送入回归卷积层,即五层3*3卷积层,计算得到回归结果,将特征图P3、P4、P5、P6、P7送入掩膜系数计算卷积层,即五层3*3卷积层,计算得到掩膜系数。
其中,中心性指标以及分类和回归结果与FCOS网络相同,得到的掩膜系数维度为H×W×Ccoef,其中,H×W表示特征图的尺寸,Ccoef表示掩膜系数的通道数,且Ccoef=Scrop×Scrop×k2,其中Scrop表示利用ROIAlign在原型掩膜上截取的感兴趣区域的尺寸,k表示实例掩膜在水平和竖直两个方向上的分段组数,假设实例掩膜在水平和竖直两个方向上的分段组数相同。
进一步的,所属步骤3中的原型掩膜生成,从生成的特征图P3、P4、P5、P6、P7中选择P3送入原型掩膜生成网络,经过五层3*3卷积层后,再通过Sigmoid激活函数输出原型掩膜,原型掩膜也是针对特征图P3上的每个点输出的。原型掩膜的维度为H×W×Ccoef,其中H×W表示输入原型生成网络的特征图的尺寸,Cproto表示原型掩膜的通道数,且Cproto=Smask×Smask,其中Smask表示最终期望生成的实例掩膜尺寸。
进一步的,所述步骤4中的通过ROIAlign提取原型掩膜中感兴趣的区域,通过原型掩膜生成网络得到原型掩膜,根据原型原膜和目标人体边界框的真实值,通过ROIAlign提取原型mask中感兴趣的区域。其具体步骤包括:
1.根据尺度对应关系,计算目标人体边界框的真实值对应到特征图上的区域,不作任何量化;
2.将候选区域分割成Scrop×Scrop个单元,每个单元的边界也不做量化;
3.将每个单元按照十字形平分成四份,每一份取其中心点位置,根据每个中心点四周的像素点取值,用双线性内插的方法计算出这四个中心点位置的值,然后进行最大池化操作。
经过ROIAlign,得到的原型掩膜感兴趣区域维度为nobj×Scrop×Scrop×Cproto其中,nobj表示检测到的物体个数,Scrop表示得到的原型掩膜感兴趣区域的尺度,Cproto为得到的原型掩膜通道数。
进一步的,所述步骤5中的原型掩膜和掩膜系数的结合,其方法为:采用分段线性组合的方式,通过结合原型掩膜感兴趣区域以及掩膜系数生成实例掩膜。
具体步骤如下:
(1)设最终期望生成的实例掩膜M的大小为Smask×Smask,则对于原型掩膜而言,设置其通道数Cproto=Smask 2,设原型掩膜的感兴趣区域的边长为Scrop,经过ROIAlign,得到的原型掩膜感兴趣区域维度为nobj×Scrop 2×Cproto=nobj×Scrop 2×Smask 2,经过张量形状重塑(reshape)操作后,得到原型掩膜感兴趣区域维度为nobj×Smask 2×Scrop 2,其中nobj表示待预测的目标实例个数。
(2)对于掩膜系数而言,根据原型掩膜的感兴趣区域的边长为Scrop,设原型掩膜在水平和竖直两个方向上的都分成k段,则掩膜系数的通道数Ccoef设置为
Ccoef=Scrop 2×k2
经过对特征图上的位置进行筛选后,得到掩膜系数的维度为nobj×Ccoef=nobj×Scrop 2×k2。
(4)对于每一个待预测的目标而言,其掩膜系数张量维度为Scrop×Scrop×k2,将其沿着深度方向分为k2段,每一段掩膜系数的维度为Scrop×Scrop,可看成一个二维张量,且每一段掩膜系数与每一段原型掩膜一一对应。
(5)将每一段原型掩膜和每一段掩膜系数相结合,生成实例掩膜的每一个分段。
则实例掩膜的一个分段Mdiv可按如下式子计算:
其中,掩膜系数标量ci和原型掩膜二维张量pi的相乘为标量和张量的相乘,即ci分别乘以pi的每一个元素,从而得到新的二维张量,然后再对这些二维张量求和得到实例掩膜的一个分段。
(6)得到所有实例掩膜的分段后,将它们依次做水平和竖直方向上的连接(concat),最终可以得到大小为Smask×Smask的实例掩膜M。
进一步的,所属步骤6中的各项损失函数的计算,其中,分类损失函数采用focalloss,回归损失函数采用IOU loss,实例掩膜损失函数采用二进制交叉熵损失函数,中心性损失函数采用带有sigmoid函数的二进制交叉熵损失。
进一步的,所述步骤7中对网络采用引入动量的随机梯度下降法进行训练,选取batch size大小为8,使用两块Tesla P100 GPU进行训练。
进一步的,所述步骤8中用训练好的网络做自然场景下的人体实例分割,在COCO2017test测试该方法的时候,步骤1、步骤2、步骤3和步骤4与训练时相同,步骤5中生成原型掩膜中感兴趣区域时,采用生成的回归结果进行定位,步骤6也和训练时相同,最后得到图片中人体的实例分割结果。
有益效果:与现有技术相比,本发明的技术方案具有以下有益技术效果:
本发明所提出的自然场景下的人体实例分割方法,具有单阶段、全卷积、不需要anchors等特点,从而具有较快的运行速度,实现了实时人体实例分割;同时,本发明具备生成原型掩膜感兴趣区域的能力,并且采用了分段线性组合的方式结合掩膜系数和原型掩膜,从而得到最终的实例掩膜,因此具有较高的查准率。
本方法在MS COCO 2017数据集上完成了训练和测试,其中,训练采用COCO2017train数据集,测试采用COCO 2017val数据集,并且从两个数据集中都筛选出了包含人体实例标注的图片进行训练和测试,舍弃其余图片。本方法获得了可以与目前主流方法相比较的性能,可以实现41.4fps速度下的实时人体实例分割,同时人体实例分割的平均查准率可以达到34.8%。
附图说明
图1是本发明整体网络结构图。
图2是本发明中生成实例掩膜的方法示意图。
图3是本发明在COCO 2017val数据集上的部分测试结果图。
具体实施方式
本发明旨在设计一种新的基于深度学习的自然场景下的人体实例分割方法,该方法应该是全卷积单阶段的,通过借鉴YOLACT方法的设计思想,同时重新设计原型掩膜生成方式以及重新设计原型掩膜和掩膜系数相结合的方式,取得良好的人体实例分割以及目标检测性能。
其中,一个人体实例指图片中的一个人,对一个人体实例的定位指画出该人体实例的边界框,对人体实例的分类指的是判断该边界框属于人这个类别还是背景,对一个人体实例的分割即通过实例掩膜标注出该人体实例在图像中所覆盖的像素点。实例掩膜与实例之间是一一对应的,对于一个实例掩膜而言,在其对应的实例所在的像素取值为1,其他像素取值为0,,即在图像中标注了一个实例所在的像素。
该方法在MS COCO数据集中包含人体实例标签的图片上实现训练和测试,训练之前首先需要从COCO数据集中挑选出包含人体实例标签的图片,去除其他图片。COCO数据集通过表示一个人体实例轮廓的一系列点的位置来对该人体实例进行标注,可以在对数据集进行处理时将其转化为二进制掩膜的形式,为后续计算实例分割损失做好准备。
本方法属于基于人体实例划分的人体实例分割方法,即先对于人体实例进行检测,然后再对每个人体实例进行分割。对于人体实例进行检测的过程就等同于目标检测的过程,对人体实例进行定位和分类(二分类:背景或者人)。对人体进行目标检测的过程,通过逐点位地进行预测实现,每个点位是由原始图片经过骨干网络进行特征提取后,得到的金字塔特征图上的每个点映射到原图上的一点得到。
COCO数据集中本身已包含对人体实例的目标检测和实例分割标签,包括该人体实例的边界框真实值、所属的类别以及该人体实例的轮廓点。基于这些已有的标注和前文对于点位的计算,可以计算每个待预测的点位的回归、分类和分割的真实值。
本发明采用COCO 2017数据集作为训练和测试数据集,并且从中挑选出包含人体实例标注的图像,舍弃其余的图像。COCO的全称是Common Objects in COntext,是微软团队提供的一个可以用来进行图像识别的数据集。MS COCO数据集中的图像分为训练、验证和测试集。COCO通过在Flickr上搜索80个对象类别和各种场景类型来收集图像,其使用了亚马逊的Mechanical Turk(AMT)。Coco 2017数据集是自然场景下目标检测以及人体实例分割的公开数据集,同时也是计算机视觉领域认可的标准数据集。COCO数据集包括80个类别的物体实例标签,其中包括人和其他生活中常见物体和动物等。
在训练时使用COCO 2017train数据集,在测试时使用COCO 2017val数据集,并且从两个数据集中都筛选出了包含人体实例标注的图片进行训练和测试,舍弃其余图片。另外,在训练时采用多尺度(multi-scale)训练方式,即对于每batch送入网络的图片,在保持原图长宽比的前提下,先将图片的较短边resize到整数值区间[680,800]中的任意大小,再送入网络的backbone。测试时,在保持原图长宽比的前提下,将每个batch的图片较短的一边resize成一个设定的标准大小,然后再送入网络的Backbone。
本发明整体网络结构如图1所示。
本方法采用pytorch框架编程实现,具体实施步骤如下:
1、通过骨干网络(backbone)从输入图像中实现特征图提取;
采用残差网络+特征金字塔网络作为骨干网络从输入图片中提取特征图,将包含人体的原始图像输入残差网络,通过残差网络的conv3_x,conv4_x和conv5_x分别生成特征图C3、C4和C5,特征图C3、C4和C5分别经过1*1的卷积得到金字塔特征图P3、P4和P5,金字塔特征图P5通过两次步长为2的卷积分别得到金字塔特征图P6和P7。最终,经过骨干网络提取得到的特征图为P3、P4、P5、P6和P7这五层特征图
2、利用得到的特征图,通过全卷积网络实现掩膜系数计算、中心性指标计算、分类和回归计算;
首先将通过骨干网络得到的特征图P3、P4、P5、P6、P7,再将其送入四层3*3卷积层,保持特征图尺寸不变,计算得到分类共享特征图,然后将分类共享特征图送入分类卷积层(一层3*3卷积层),得到类别计算结果,将分类共享特征图送入中心性计算卷积层(一层3*3卷积层),得到中心性指标计算结果,将特征图P3、P4、P5、P6、P7送入回归卷积层(五层3*3卷积层),计算得到回归结果,将特征图P3、P4、P5、P6、P7送入掩膜系数计算卷积层(五层3*3卷积层),计算得到掩膜系数。
其中,中心性指标以及分类和回归结果与FCOS网络相同,得到的掩膜系数维度为H×W×Ccoef,其中,H×W表示特征图的尺寸,Ccoef表示掩膜系数的通道数,且Ccoef=Scrop×Scrop×k2,其中Scrop表示利用ROIAlign在原型掩膜上截取的感兴趣区域的尺寸,k表示实例掩膜在水平和竖直两个方向上的分段组数,假设实例掩膜在水平和竖直两个方向上的分段组数相同。
3、利用得到的特征图,通过全卷积网络生成原型掩膜;
从生成的特征图P3、P4、P5、P6、P7中选择P3送入原型掩膜生成网络,经过五层3*3卷积层后,再通过Sigmoid激活函数输出原型掩膜,原型掩膜也是针对特征图P3上的每个点输出的。原型掩膜的维度为H×W×Ccoef,其中H×W表示输入原型生成网络的特征图的尺寸,Cproto表示原型掩膜的通道数,且Cproto=Smask×Smask,其中Smask表示最终期望生成的实例掩膜尺寸。
4、使用Mask R-CNN中的ROIAlign在生成的原型掩膜上截取感兴趣的区域;
通过原型掩膜生成网络得到原型掩膜,根据原型原膜和目标人体边界框的真实值,通过ROIAlign提取原型mask中感兴趣的区域。其具体步骤包括:
1.根据尺度对应关系,计算目标人体边界框的真实值对应到特征图上的区域,不作任何量化;
2.将候选区域分割成Scrop×Scrop个单元,每个单元的边界也不做量化;
3.将每个单元按十字形平分成四份,每一份取其中心点位置,根据每个中心点四周的像素值,用双线性内插的方法计算出这四个中心点位置的值,然后进行最大池化操作。
经过ROIAlign,得到的原型掩膜感兴趣区域维度为nobj×Scrop×Scrop×Cproto其中,nobj表示检测到的物体个数,Scrop表示得到的原型掩膜感兴趣区域的尺度,Cproto为得到的原型掩膜通道数。
5、将原型掩膜中的感兴趣的区域和掩膜系数相结合得到最终的实例掩膜;
通过ROIAlign获得原型掩膜中感兴趣的区域后,采用分段线性组合的方式,通过结合原型掩膜感兴趣区域以及掩膜系数生成实例掩膜。如图2所示,具体步骤如下:
(1)设最终期望生成的实例掩膜M的大小为Smask×Smask,则对于原型掩膜而言,设置其通道数Cproto=Smask 2,设原型掩膜的感兴趣区域的边长为Scrop,经过ROIAlign,得到的原型掩膜感兴趣区域维度为nobj×Scrop 2×Cproto=nobj×Scrop 2×Smask 2,经过张量形状重塑(reshape)操作后,得到原型掩膜感兴趣区域维度为nobj×Smask 2×Scrop 2,其中nobj表示待预测的目标实例个数。
(2)对于掩膜系数而言,根据原型掩膜的感兴趣区域的边长为Scrop,设原型掩膜在水平和竖直两个方向上的都分成k段,则掩膜系数的通道数Ccoef设置为
Ccoef=Scrop 2×k2
经过对特征图上的位置进行筛选后,得到掩膜系数的维度为nobj×Ccoef=nobj×Scrop 2×k2。
(3)对于每一个待预测的目标而言,其原型掩膜张量维度为Smask×Smask×Scrop 2,沿其水平和竖直方向各分为k段,每一段原型掩膜的维度为即将原型掩膜共分成k2段。如图2中所示,设置分段数目k=2,即将原型掩膜共分成4段。
(4)对于每一个待预测的目标而言,其掩膜系数张量维度为Scrop×Scrop×k2,将其沿着深度方向分为k2段,每一段掩膜系数的维度为Scrop×Scrop,可看成一个二维张量,且每一段掩膜系数与每一段原型掩膜一一对应。如图2中所示,设置分段数目k=2,即掩膜系数共分成4段,且每一段掩膜系数与每一段原型掩膜一一对应,如掩膜系数中蓝色的分段和原型掩膜中蓝色的分段对应。
(5)将每一段原型掩膜和每一段掩膜系数相结合,生成实例掩膜的每一个分段。
对于每一个维度为Scrop×Scrop的掩膜系数分段,可看成由Scrop 2个掩膜系数标量组成的二维张量,可将这些掩膜系数标量记为如图2中所示,可设置Scrop=7,则每个掩膜系数分段由49个掩膜系数标量组成。
则实例掩膜的一个分段Mdiv可按如下式子计算:
其中,掩膜系数标量ci和原型掩膜二维张量pi的相乘为标量和张量的相乘,即ci分别乘以pi的每一个元素,从而得到新的二维张量,然后再对这些二维张量求和得到实例掩膜的一个分段。
如图2中所示,对图中蓝色的分段进行上述操作后,需要对每一个掩膜系数和对应的原型掩膜分段都进行上述的操作。
(6)如图2中所示,得到所有实例掩膜的分段后,将它们依次做水平和竖直方向上的连接(concat),图中取k=2,则将四块颜色分别为蓝色、橙色、黄色和绿色的分段连接在一起,得到最终的实例掩膜。最终,可以得到大小为Smask×Smask的实例掩膜M。
在一个具体实施例中,最终的实例掩膜大小设置为28*28,在原图上进行展现时,可以通过上采样将实例掩膜还原到原来图片中人体的尺度。
6、进行分类和回归的loss计算、中心性的loss计算以及实例掩膜的loss计算:
分类损失函数采用focal loss,其具体表达式如下:
回归损失函数采用IOU loss,其具体表达式如下:
实例掩膜损失函数采用二进制交叉熵损失函数(Binary Cross Entropy loss),对每个实例掩膜而言,其具体表达式如下:
中心性损失函数采用带有sigmoid函数的二进制交叉熵损失,中心性定义采用FCOS网络的定义,表征一个位置的中心性(Center-ness),其表达式如下:
其中,l*表示预测得到的该位置距离边界框左边界的距离,r*表示预测得到的该位置距离边界框右边界的距离,t*表示预测得到的该位置距离边界框上边界的距离,b*表示预测得到的该位置距离边界框下边界的距离。
带有sigmoid函数的二进制交叉熵损失函数如下:
7、采用随机梯度下降方法不断迭代优化神经网络,最终得到训练好的网络
所述步骤7中对网络采用引入动量的随机梯度下降法进行训练,选取batch size大小为8,使用两块Tesla P100GPU进行训练,设置基础学习率为0.005。
本发明测试的具体实现步骤如下:
1.通过骨干网络(backbone)从输入图像中实现特征图提取,与训练时相同;
2.利用得到的特征图,通过全卷积网络实现掩膜系数计算、中心性指标计算、分类和回归计算,与训练时相同;
3.利用得到的特征图,通过全卷积网络生成原型掩膜,与训练的时候相同;
4.使用ROIAlign在生成的原型掩膜上截取感兴趣的区域,测试时使用步骤2回归得到的边界框进行ROIAlign操作,截取原型掩膜上感兴趣的区域;
5.将原型掩膜中的感兴趣的区域和掩膜系数相结合得到最终的实例掩膜,与训练时相同;
6.根据COCO 2017val数据集的标签真实值评测网络性能,评测主要考察两个指标:通过人体实例分割得到的实例掩膜的平均查准率(mAP)以及实现人体实例分割的速度(41.4fps)。测试结果如下表所示:
表格1:人体实例分割性能
Method | Backbone | AP | AP<sub>50</sub> | AP<sub>75</sub> | AP<sub>s</sub> | AP<sub>M</sub> | AP<sub>L</sub> | FPS |
Ours | ResNet50+FPN | 34.8 | 70.2 | 31.6 | 12.7 | 41.1 | 56.8 | 41.4 |
根据表格1给出的结果,本发明实现了实时人体实例分割,并且具有较高的查准率,说明本发明有具有较好的算法性能和实用价值。本发明在COCO 2017val数据集上的部分测试图片如图2所示。
Claims (9)
1.一种基于深度学习的自然场景下全卷积单阶段人体实例分割方法,其特征在于,该方法包括如下步骤:
步骤一:通过骨干网络从输入的包含人体的自然场景图像中实现特征图提取;
步骤二:利用得到的特征图,通过全卷积网络实现掩膜系数计算、中心性指标计算、分类和回归计算;
步骤三:利用得到的特征图,通过全卷积网络生成原型掩膜,原型掩膜是用来生成最终实例掩膜的组成元素之一;
步骤四:通过ROIAlign在生成的原型掩膜上截取感兴趣的区域;
步骤五:将原型掩膜中的感兴趣的区域和掩膜系数相结合得到最终的实例掩膜;
步骤六:根据分类结果、回归结果、中心性指标和计算得到的实例掩膜,进行分类和回归的loss计算、中心性的loss计算以及实例掩膜的loss计算;
步骤七:在COCO-2017-train数据集上采用随机梯度下降方法不断迭代优化神经网络,最终得到训练好的网络;
步骤八:将训练好的网络用于自然场景下的人体实例分割和目标检测。
2.根据权利1所述的一种基于深度学习的自然场景下全卷积单阶段人体实例分割方法,其特征在于,所述步骤1中的特征图提取,采用残差网络+特征金字塔网络作为骨干网络从输入图片中提取特征图。
3.根据权利1所述的一种基于深度学习的自然场景下全卷积单阶段人体实例分割方法,其特征在于,所述步骤2中对掩膜系数、中心性指标以及分类和回归的计算,是通过全卷积网络对步骤1中输出的特征图进行处理实现的,通过全卷积网络对步骤1中输出的特征图逐点位地计算掩膜系数、中心性指标以及分类和回归结果,其中,中心性指标以及分类和回归结果与FCOS网络相同,得到的掩膜系数维度为H×W×Ccoef,其中,H×W表示特征图的尺寸,Ccoef表示掩膜系数的通道数,且Ccoef=Scrop×Scrop×k2,其中,Scrop表示利用ROIAlign在原型掩膜上截取的感兴趣区域的尺寸,k表示实例掩膜在水平和竖直两个方向上的分段组数,假设实例掩膜在水平和竖直两个方向上的分段组数相同。
4.根据权利1所述的一种基于深度学习的自然场景下全卷积单阶段人体实例分割方法,其特征在于,所属步骤3中的原型掩膜生成,选取特征图中的最浅层特征图送入原型生成网络,经过五层3*3的卷积层,再经过Sigmoid函数后,得到针对于整体特征图而言的原型掩膜,原型掩膜的维度为H×W×Ccoef,其中,H×W表示输入原型生成网络的特征图的尺寸,Cproto表示原型掩膜的通道数,且Cproto=Smask×Smask,其中,Smask表示最终期望生成的实例掩膜尺寸。
5.根据权利1中所属的一种基于深度学习的自然场景下全卷积单阶段人体实例分割方法,其特征在于,所述步骤4中的通过ROIAlign提取原型掩膜中感兴趣的区域,得到原型掩膜后,根据原型掩膜和目标人体边界框的真实值,通过ROIAlign提取原型mask中感兴趣的区域,其具体步骤包括:
(1)根据尺度对应关系,计算目标人体边界框的真实值对应到特征图上的区域,不作任何量化;
(2)将候选区域分割成Scrop×Scrop个单元,每个单元的边界不做量化;
(3)将每个单元按照十字形平分成四份,每一份取其中心点位置,根据每个中心点四周的像素点取值,用双线性内插的方法计算出这四个中心点位置的值,然后进行最大池化操作;
经过ROIAlign,得到的原型掩膜感兴趣区域维度为nobj×Scrop×Scrop×Cproto,其中,nobj表示待预测的目标实例个数,Scrop表示得到的原型掩膜感兴趣区域的尺度,Cproto为得到的原型掩膜通道数。
6.根据权利1所述的一种基于深度学习的自然场景下全卷积单阶段人体实例分割方法,其特征在于,所述步骤5中的原型掩膜和掩膜系数的结合,其方法为:采用分段线性组合的方式,通过结合原型掩膜感兴趣区域以及掩膜系数生成实例掩膜,具体步骤如下:
(1)设最终期望生成的实例掩膜M的大小为Smask×Smask,则对于原型掩膜而言,设置其通道数Cproto=Smask 2,设原型掩膜的感兴趣区域的边长为Scrop,经过ROIAlign,得到的原型掩膜感兴趣区域维度为nobj×Scrop 2×Cproto=nobj×Scrop 2×Smask 2,经过张量形状重塑操作后,得到原型掩膜感兴趣区域维度为nobj×Smask 2×Scrop 2,其中,nobj表示待预测的目标实例个数;
(2)对于掩膜系数而言,根据原型掩膜的感兴趣区域的边长为Scrop,设原型掩膜在水平和竖直两个方向上的都分成k段,则掩膜系数的通道数Ccoef设置为:
Ccoef=Scrop 2×k2
经过对特征图上的位置进行筛选后,得到掩膜系数的维度为nobj×Ccoef=nobj×Scrop 2×k2;
(4)对于每一个待预测的目标而言,其掩膜系数张量维度为Scrop×Scrop×k2,将其沿着深度方向分为k2段,每一段掩膜系数的维度为Scrop×Scrop,可看成一个二维张量,且每一段掩膜系数与每一段原型掩膜一一对应;
(5)将每一段原型掩膜和每一段掩膜系数相结合,生成实例掩膜的每一个分段;
则实例掩膜的一个分段Mdiv可按如下式子计算:
其中,掩膜系数标量ci和原型掩膜二维张量pi的相乘为标量和张量的相乘,即ci分别乘以pi的每一个元素,从而得到新的二维张量,然后再对这些二维张量求和得到实例掩膜的一个分段;
(6)得到所有实例掩膜的分段后,将它们依次做水平和竖直方向上的连接,最终可以得到大小为Smask×Smask的实例掩膜M。
7.根据权利1中所述的一种基于深度学习的自然场景下全卷积单阶段人体实例分割方法,其特征在于,所属步骤6中的各项损失函数的计算,其中,分类损失函数采用focalloss,回归损失函数采用IOU loss,实例掩膜损失函数采用二进制交叉熵损失函数,中心性损失函数采用带有sigmoid函数的二进制交叉熵损失。
8.根据权利1中所述的一种基于深度学习的自然场景下全卷积单阶段人体实例分割方法,其特征在于,所述步骤7中对网络采用引入动量的随机梯度下降法进行训练,选取batchsize大小为8,使用两块Tesla P100 GPU进行训练。
9.根据权利1中所属的基于深度学习的自然场景下全卷积单阶段人体实例分割方法,其特征在于,所述步骤8中用训练好的网络做自然场景下的人体实例分割,在COCO 2017test测试该方法的时候,步骤1、步骤2、步骤3和步骤4与训练时相同,步骤5中生成原型掩膜中感兴趣区域时,采用生成的回归结果进行定位,步骤6也和训练时相同,最后得到图片中人体的实例分割结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010343727.5A CN111597920B (zh) | 2020-04-27 | 2020-04-27 | 一种自然场景下的全卷积单阶段的人体实例分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010343727.5A CN111597920B (zh) | 2020-04-27 | 2020-04-27 | 一种自然场景下的全卷积单阶段的人体实例分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111597920A true CN111597920A (zh) | 2020-08-28 |
CN111597920B CN111597920B (zh) | 2022-11-15 |
Family
ID=72192118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010343727.5A Active CN111597920B (zh) | 2020-04-27 | 2020-04-27 | 一种自然场景下的全卷积单阶段的人体实例分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111597920B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112085728A (zh) * | 2020-09-17 | 2020-12-15 | 哈尔滨工程大学 | 一种海底管道及泄漏点检测方法 |
CN112164077A (zh) * | 2020-09-25 | 2021-01-01 | 陕西师范大学 | 基于自下而上路径增强的细胞实例分割方法 |
CN112232200A (zh) * | 2020-10-15 | 2021-01-15 | 浙江凌图科技有限公司 | 一种基于Yolact目标分割模型的停机坪状态监管方法 |
CN112396601A (zh) * | 2020-12-07 | 2021-02-23 | 中山大学 | 一种基于内窥镜图像的实时的神经外科手术器械分割方法、设备及存储介质 |
CN112907605A (zh) * | 2021-03-19 | 2021-06-04 | 南京大学 | 用于实例分割的数据增强方法 |
CN116721263A (zh) * | 2023-05-23 | 2023-09-08 | 山东大学 | 一种基于实时实例分割的轨道扣件状态识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109584248A (zh) * | 2018-11-20 | 2019-04-05 | 西安电子科技大学 | 基于特征融合和稠密连接网络的红外面目标实例分割方法 |
CN109800631A (zh) * | 2018-12-07 | 2019-05-24 | 天津大学 | 基于掩膜区域卷积神经网络的荧光编码微球图像检测方法 |
CN111046880A (zh) * | 2019-11-28 | 2020-04-21 | 中国船舶重工集团公司第七一七研究所 | 一种红外目标图像分割方法、系统、电子设备及存储介质 |
-
2020
- 2020-04-27 CN CN202010343727.5A patent/CN111597920B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109584248A (zh) * | 2018-11-20 | 2019-04-05 | 西安电子科技大学 | 基于特征融合和稠密连接网络的红外面目标实例分割方法 |
CN109800631A (zh) * | 2018-12-07 | 2019-05-24 | 天津大学 | 基于掩膜区域卷积神经网络的荧光编码微球图像检测方法 |
CN111046880A (zh) * | 2019-11-28 | 2020-04-21 | 中国船舶重工集团公司第七一七研究所 | 一种红外目标图像分割方法、系统、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
朱有产等: "基于改进Mask R-CNN的绝缘子目标识别方法", 《微电子学与计算机》 * |
瑚敏君等: "基于实例分割模型的建筑物自动提取", 《测绘通报》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112085728A (zh) * | 2020-09-17 | 2020-12-15 | 哈尔滨工程大学 | 一种海底管道及泄漏点检测方法 |
CN112164077A (zh) * | 2020-09-25 | 2021-01-01 | 陕西师范大学 | 基于自下而上路径增强的细胞实例分割方法 |
CN112164077B (zh) * | 2020-09-25 | 2023-12-29 | 陕西师范大学 | 基于自下而上路径增强的细胞实例分割方法 |
CN112232200A (zh) * | 2020-10-15 | 2021-01-15 | 浙江凌图科技有限公司 | 一种基于Yolact目标分割模型的停机坪状态监管方法 |
CN112396601A (zh) * | 2020-12-07 | 2021-02-23 | 中山大学 | 一种基于内窥镜图像的实时的神经外科手术器械分割方法、设备及存储介质 |
CN112907605A (zh) * | 2021-03-19 | 2021-06-04 | 南京大学 | 用于实例分割的数据增强方法 |
CN112907605B (zh) * | 2021-03-19 | 2023-11-17 | 南京大学 | 用于实例分割的数据增强方法 |
CN116721263A (zh) * | 2023-05-23 | 2023-09-08 | 山东大学 | 一种基于实时实例分割的轨道扣件状态识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111597920B (zh) | 2022-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111597920B (zh) | 一种自然场景下的全卷积单阶段的人体实例分割方法 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN110378381B (zh) | 物体检测方法、装置和计算机存储介质 | |
CN111598030B (zh) | 一种航拍图像中车辆检测和分割的方法及系统 | |
CN108647585B (zh) | 一种基于多尺度循环注意力网络的交通标识符检测方法 | |
CN106683048B (zh) | 一种图像超分辨率方法及设备 | |
CN112488210A (zh) | 一种基于图卷积神经网络的三维点云自动分类方法 | |
CN110032925B (zh) | 一种基于改进胶囊网络与算法的手势图像分割与识别方法 | |
CN110619638A (zh) | 一种基于卷积块注意模块的多模态融合显著性检测方法 | |
CN108960059A (zh) | 一种视频动作识别方法及装置 | |
CN104484886B (zh) | 一种mr图像的分割方法及装置 | |
CN111583285A (zh) | 一种基于边缘关注策略的肝脏影像语义分割方法 | |
CN111507275B (zh) | 一种基于深度学习的视频数据时序信息提取方法及装置 | |
CN116452937A (zh) | 基于动态卷积与注意力机制的多模态特征目标检测方法 | |
CN109670555B (zh) | 基于深度学习的实例级行人检测和行人重识别系统 | |
CN114495029A (zh) | 一种基于改进YOLOv4的交通目标检测方法及系统 | |
CN109977834B (zh) | 从深度图像中分割人手与交互物体的方法和装置 | |
CN113221731B (zh) | 一种多尺度遥感图像目标检测方法及系统 | |
CN113111740A (zh) | 一种遥感图像目标检测的特征编织方法 | |
CN114445715A (zh) | 一种基于卷积神经网络的农作物病害识别方法 | |
CN111739037B (zh) | 一种针对室内场景rgb-d图像的语义分割方法 | |
CN116757988A (zh) | 基于语义丰富和分割任务的红外与可见光图像融合方法 | |
CN113570573A (zh) | 混合注意力机制的肺结节假阳性排除方法、系统、设备 | |
CN111179272B (zh) | 一种面向道路场景的快速语义分割方法 | |
CN114882011A (zh) | 一种基于改进Scaled-YOLOv4模型的织物瑕疵检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |