CN111915628B

CN111915628B - 一种基于预测目标密集边界点的单阶段实例分割方法

Info

Publication number: CN111915628B
Application number: CN202010587875.1A
Authority: CN
Inventors: 张宇; 杨涵清
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2023-11-24
Anticipated expiration: 2040-06-24
Also published as: CN111915628A

Abstract

本发明公开了一种基于预测目标密集边界点的单阶段实例分割方法。人类可以很容易的通过物体边界来定位物体，而无需对物体的每个像素做判断。本发明将实例分割任务转变为三个并行任务：实例中心分类、密集边界点的位置和属性预测，然后通过对预测的边界点插值的方法获得实例分割掩码图像。另外，本发明提出更有效的处理高质量中心样例的方法和新的堆叠卷积结构来进一步提高分割性能。通过很少的改动就可以把该实例分割架构转变成检测架构，统一了分割和检测任务。本发明相比于前人提出的二阶段边界点预测方法具有更少的浮点运算次数和参数量，且优于大多数单阶段实例分割方法，有助于推动实例分割领域向目标边界点学习的方向发展。

Description

一种基于预测目标密集边界点的单阶段实例分割方法

技术领域

本发明属于图像实例分割技术领域，具体是涉及一种基于预测目标密集边界点的单阶段实例分割方法。

背景技术

图像实例分割是许多计算机视觉任务的基础，如：自动驾驶，视频理解，智能机器人。实例分割需要识别出一幅图像中的所有物体，同时也要在像素级别上分割出每一个实例。目前图像的实例分割方法分为基于像素和基于轮廓两类，其中基于像素的方法占据大部分。基于像素的实例分割方法大多遵循先检测后基于像素分割的流程，其中Mask RCNN是该类方法的开拓者，通过Faster RCNN检测器获得目标的候选边界框，然后对边界框内进行像素级别的分割。相比于基于像素的分割方法，基于轮廓边界的方法可以不用受限于粗糙的边界框提取。最近有学者提出了使用基于轮廓或边界进行实例分割的方法，其中基于轮廓的方法是通过对轮廓使用极坐标方式进行编码，可以直接预测物体的掩码信息，但该方法对凹结构和中间有洞的物体分割性能不佳。基于边界的分割方法是通过自适应的分布一系列的点在物体的重要位置上，通过对点的位置和属性进行监督来解决实例分割任务，并使用二阶段对点进行进一步细化的位置监督，缺点是网络浮点运算次数和参数量较大。

发明内容

为此本发明所要解决的技术问题是如何设计一种同时满足以下条件的实例分割方法：1.基于目标边界学习，2.对凹轮廓的结构仍有较好效果，3.网络浮点运算次数和参数量相对较小。

本发明提出一种基于预测目标密集边界点的单阶段实例分割方法。该方法是单阶段无需锚框的方法，将实例分割任务转变成三个并行任务：1.实例中心分类预测，2.密集边界点的属性预测，3.密集边界点的位置预测。输入一副图片后，通过所提出的网络算法处理获得目标的密集边界点，该密集边界点分布在目标对象轮廓的两侧，然后对密集边界点插值获得图像的掩码，实现实例分割。为了更好的利用本框架预测的密集边界点的信息，本发明提出一种更有效的处理采样高质量的中心实例的方法，显著提高了对大物体的分割性能。本发明还提出了一种新的堆叠卷积结构来近似前人使用的二阶段特征提取的过程。另外，通过很少的改动就可以把所提出的实例分割架构转变成检测架构，统一了分割和检测任务。

本发明的目的是通过以下技术方案来实现的：一种基于预测目标密集边界点的单阶段实例分割方法，该方法包括如下步骤：

步骤1：读取数据集中训练样本的图像和对应的标签，对输入图像保持比例的进行缩放。

步骤2：构建特征提取网络，特征融合网络，以及对实例中心分类、密集边界点属性预测和位置预测的网络；利用步骤1得到的图像和标签生成目标密集边界点的属性和位置信息，将图像和生成的边界点的属性和位置信息作为训练集对网络进行训练，得到可用于实例分割的网络架构。

步骤3：读取待分割的图像，输入到已训练好的特征提取网络和特征融合网络中，提取不同层级的特征图信息；获得的不同层级的特征图信息同时输入到实例中心分类、密集边界点属性预测和位置预测的网络中，获取特征图中每个位置预测类别的置信度分数，每个位置的重心权重，每个位置对应物体边界点的属性值和位置坐标。

步骤4：把预测的密集边界点的左上右下的两个极值点构成的框作为该物体的检测框；将预测的每个位置的重心权重乘以每个位置预测类别的置信度分数做权重衰减，使得更靠近重心的候选点可以获得更高的类别置信度分数；将每个候选点的检测框的坐标和对应的衰减过的类别置信度输入到非极大抑制算法中对重叠度高于阈值的候选点进行过滤。

步骤5：对步骤4过滤后的候选位置对应边界点的位置和属性值使用线性插值的方法获得掩码分数图，该掩码分数图每个位置的大小代表了每个位置属于前景的概率值，将分数图进行二值化获得二值化的掩码，从而实现实例分割。

进一步地，所述步骤2中特征图处理步骤如下：

步骤21：采用ResNet网络作为特征提取网络，输出C3，C4和C5三个层级的特征图信息。

步骤22：采用FPN网络作为特征融合网络，将步骤21中输出的3个层级的特征图信息进行融合，输出5个层级的特征图信息。

步骤23：将5个层级的特征图信息同时输入到3个并行的任务分支中；每个任务分支都先由堆叠卷积结构进行特征提取，再分别进行实例中心分类预测、密集边界点属性预测和位置预测；中心分类预测有两个分支，分别对每个位置类别的置信度分数和每个位置的重心权重进行预测。

进一步地，所述步骤22中特征图信息融合具体为：利用FPN将C3，C4，C5转换成P3，P4，P5，然后对P5使用3x3且stride＝2的卷积输出P6，最后再对P6使用3x3且stride＝2的卷积输出P7，从而获得5个层级的特征图信息P3，P4，P5，P6，P7。

进一步地，所述步骤23中堆叠卷积结构具体为：将原有的堆叠卷积结构的前后的普通卷积用可形变卷积进行替换。

进一步地，所述步骤2中，利用步骤1得到的图像和标签来生成目标密集边界点的属性和位置信息，将图像和生成的边界点的属性和位置信息作为训练集用于网络架构的输入，具体流程如下：

(1)采样实例的多个候选点，并把实例掩码缩放到一个固定尺寸；

(2)在缩放后的尺寸下，求出每个实例的所有轮廓点位置信息，接着定义一个初始值为0，形状大小为缩放后的实例掩码大小的距离图，在距离图中根据轮廓点划线，利用距离变换函数获得一系列边界点；

(3)从上述的边界点中随机采样n个，并加上偏移量，偏移量是0-1的随机数；

(4)把采样后的点按照之前缩放的比例再缩放回原大小，落入物体前景区域的点定义为前景点，落入物体背景区域的点定义为背景点，从而获得目标边界点的属性和位置坐标。

进一步地，所述步骤2中训练时采样高质量的实例的步骤如下：

(1)计算每个候选点位置和其对应的轮廓点之间的距离；

(2)移除最小和最大的m个距离值，并计算剩下的a个最小值和b个最大值定义为d_min和d_max；

(3)将d_min和d_max比值的平方根作为该候选位置的重心权重的目标值进行训练。

进一步地，所述步骤2中训练采用的损失函数为：

L＝L_cls+L_center+L_attr+L_loc

其中L_cls是Focal loss函数，将预测的类别置信度分数和真实的类别序号输入，用于类别分类损失优化；L_center和L_attr都是二值化交叉熵函数，其中L_center是将预测的重心权重和重心权重的目标值输入，用于重心权重预测损失优化，L_attr是将预测的密集边界点属性值和目标密集边界点的属性值输入，用于密集边界点的属性预测损失优化；L_loc是Chamfer Loss函数，将预测的密集边界点的位置和生成的目标密集边界点的位置输入，用于密集边界点位置损失优化。

进一步地，所述步骤4中测试时过滤低质量的候选目标的步骤如下：

步骤41：使用0.05置信度阈值过滤掉类别置信度低于该值的候选预测目标；

步骤42：对类别置信度分数排序，选择出前1000的置信度预测目标；

步骤43：将选择出的预测目标输入到0.5阈值的非极大抑制算法中，保留最多100个预测目标。

进一步地，所述步骤5中，根据预测值获得实例掩码的步骤如下：

步骤51：使用三角剖分方法将空间图分成三角区域，顶点由预测的密集边界点组成；

步骤52：实例中的每个像素都会落入获得的三角区域内，通过从三角形顶点进行线性插值的方法获得每个像素对应的点分数，从而获得分数图；

步骤53：使用0.5阈值对获得的分数图进行二值化来获得二值化的掩码。

综上所述，本发明提出的一种基于预测目标密集边界点的单阶段实例分割方法，设计了一个新的用于实例分割的单阶段框架，将实例分割转变成预测中心类别，预测边界点的位置和属性三个任务；提出一种新的采样高质量中心实例的方法和一种新的堆叠卷积结构，明显提升分割性能；所提出的网络结构具有较低的浮点运算次数和参数量且优于大多数单阶段实例分割方法。

本发明相比于现有技术具有以下优点：本发明是单阶段基于目标边界点的无需锚框的实例分割方法，具有较低的浮点运算次数和参数量，且不会受限于凹轮廓的结构；提出一种新的采样高质量的中心实例的方法，充分利用了预测的密集边界点的信息，更加适配于分割任务，显著提升大物体的分割性能；采用提出的新的堆叠卷积结构来近似前人使用的二阶段特征提取的过程，可以提高网络的有效感受野，让网络看到更多更有用的信息，进而提升分割效果。

附图说明

图1为本发明的直观处理示意图；

图2为本发明的网络结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

本发明提出了一种基于预测目标密集边界点的单阶段实例分割方法，图1是该方法的直观处理示意图，将一副图片输入网络后输出密集边界点，然后通过插值的方法获得图像掩码，具体包括如下步骤：

步骤2：如图2所示，构建特征提取网络，特征融合网络，以及对实例中心分类、密集边界点属性预测和位置预测的网络。利用步骤1得到的图像和标签生成目标密集边界点的属性和位置信息，将图像和生成的边界点的属性和位置信息作为训练集用于网络架构的输入，对上述网络进行训练，得到可用于实例分割的网络架构。

步骤3：读取待分割的图像，输入到已训练好的特征提取网络和特征融合网络中，提取不同层级的特征图信息；获得的不同层级的特征图信息同时输入到实例中心分类、密集边界点属性预测和位置预测的网络中。获取特征图中每个位置预测类别的置信度分数，每个位置的重心权重，每个位置对应物体边界点的属性值和位置坐标。

步骤4：把预测的密集边界点的左上右下的两个极值点构成的框作为该物体的检测框。将预测的每个位置的重心权重乘以每个位置预测类别的置信度分数，这种衰减方式是为了让更靠近重心的候选点可以获得更高的类别置信度分数。将每个候选点的检测框的坐标和对应的衰减过的类别置信度输入到非极大抑制算法中对重叠度高于某一阈值的候选点进行过滤。

步骤5：对步骤4过滤后的候选位置对应边界点的位置和属性值使用线性插值的方法获得掩码分数图，该掩码分数图每个位置的大小代表了每个位置属于前景的概率值，将一个阈值用于该分数图进行二值化获得二值化的掩码，从而达到实例分割的效果。

进一步地，所述步骤1中，标签是指每一个实例的边界框坐标和二值化掩码信息，输入图像缩放的具体参数为：在保持原图长宽比的前提下，最大限度地将短边和长边分别缩放到小于或等于800和1333。

进一步地，所述步骤2中特征图的具体处理步骤如下：

步骤21，使用ResNet网络作为特征提取网络，输出C3，C4和C5三个层级的特征图信息；

步骤22，采用FPN网络作为特征融合网络，将步骤21中输出的3个层级的特征图信息进行融合，具体的做法是：利用FPN将C3，C4，C5转换成P3，P4，P5，然后对P5使用3x3且stride＝2的卷积输出P6，最后再对P6使用3x3且stride＝2的卷积输出P7，从而获得5个层级的特征图信息，分别是P3，P4，P5，P6，P7；

步骤23，将获得的5个层级的特征图信息同时输入到3个并行的任务分支中。每个任务分支都先由新设计的堆叠卷积结构进行特征提取，再分别进行实例中心分类预测、密集边界点属性预测和位置预测。其中，新设计的堆叠卷积结构是通过把原有的堆叠卷积结构的前后的普通卷积用可形变卷积进行替换，输出特征图的形状是HxWx256，其中H和W分别代表特征图的高度和宽度。中心分类预测有两个分支，分别对每个位置类别的置信度分数和每个位置的重心权重进行预测，通过中心分类分支分别输出HxWxC和HxWx1的特征图信息，其中C代表的是预测类别的个数。通过边界点属性分支输出HxWxn1的密集边界点属性信息，其中n1代表的是预测的属性个数，该值小于或等于预测的边界点个数，用少量的属性值来代表所有边界点的属性信息，这里的属性值大小代表着该点属于前景的概率。通过边界点位置分支输出HxWx2n2密集边界点位置信息，其中n2代表的是预测的边界点的个数。

进一步地，利用步骤1得到的图像和标签来生成目标密集边界点的属性和位置信息，将图像和生成的边界点的属性和位置信息作为训练集用于网络架构的输入，具体流程如下：

(1)对于每个实例，采样实例的多个候选点，具体采样方法是把实例的重心点作为起点，把1.5倍的特征图步长参数作为距离，从起点以该距离到上下左右四个方向所围成的区域定义为采样区域，采样区域里的点为候选点；并把实例掩码缩放到一个固定尺寸；

(2)在缩放后的尺寸下，求出每个实例的所有轮廓点位置信息，接着定义一个初始值为0，形状大小为缩放后的实例掩码大小的距离图，接着先使用opencv中的画线函数在距离图中根据轮廓点划线，然后使用opencv中的距离变换函数来获得一系列边界点；

(3)从上述的边界点中随机采样n个，并加上偏移量，偏移量是0-1的随机数，这样可以让采样点分布变得离散，增加泛化性能；

进一步地，所述步骤2中训练时而不能发明提出一种更有效的处理采样高质量的实例的方法，具体流程如下：

(1)计算每个候选点位置和其对应的轮廓点之间的距离；

(2)移除最小和最大的m个距离值，并计算剩下的a个最小值和b个最大值定义为d_min和d_max；例如本实例中，移除最小和最大的5个距离值，并计算剩下的10个最小值和10个最大值定义为d_min和d_max；

进一步地，所述步骤2中训练采用的损失函数为：

L＝L_cls+L_center+L_attr+L_loc

进一步地，所述步骤4中，测试时过滤低质量的候选目标的具体流程如下：

步骤41，使用0.05的置信度阈值过滤掉类别置信度低于该值的候选预测目标；

步骤42，对类别置信度分数排序，选择出前1000的置信度预测目标；

步骤43，将选择出的预测目标输入到0.5阈值的非极大抑制算法中，保留最多100个预测目标。

进一步地，所述步骤5中，根据预测值获得实例掩码的具体流程如下：

步骤51，使用三角剖分方法将空间图分成三角区域，顶点由预测的密集边界点组成；

步骤52，实例中的每个像素都会落入获得的三角区域内，通过从三角形顶点进行线性插值的方法获得每个像素对应的点分数，从而获得分数图；

步骤53，使用0.5作为阈值对获得的分数图进行二值化来获得二值化的掩码。

为了体现本发明提出方法的进步性，在COCO数据集上，我们首先针对提出的更有效地处理高质量中心样例的方法和原有的方法做了对比试验，接着又针对提出的新的堆叠卷积结构和原有的堆叠卷积结构做了对比试验，然后又对本发明的实例架构转变成的检测架构性能和常用的检测器进行了对比，接着又对本发明的浮点运算次数，参数量和前人的方法做了对比，最后又将本发明提出的完整的方法与目前已有的代表性的二阶段和单阶段的实例分割方法进行了比较。目前实例分割方法大多采用AP作为评估指标，AP越大说明分割精度越高，效果越好。AP₅₀和AP₇₅分别是在iou>0.5和iou>0.75时的AP指标，AP_s，AP_m和AP_L分别是对小，中，大物体的AP指标。

表1

Centerness	AP	AP₅₀	AP₇₅	AP_s	AP_m	AP_L
							Box	31.4	52.0	32.8	16.3	34.4	42.8
DensePoints(ours)	31.9	52.4	33.5	15.9	35.4	44.2

表1是本发明提出的更有效地处理高质量中心样例的方法和原有的方法在COCO验证数据集上的对比试验。可以看出相比于原方法，我们的方法在AP指标上有0.5精度的提升，且在AP₇₅和AP_L有更大的提升，分别有0.7和1.4精度的提升。

表2

Stacking head	AP	AP₅₀	AP₇₅	AP_s	AP_m	AP_L
							Origin	31.9	52.4	33.5	15.9	35.4	44.2
DBA(ours)	33.1	53.4	34.9	16.2	36.0	46.6

表2是本发明提出的新的堆叠卷积结构和原有的堆叠卷积结构在COCO验证数据集上的对比试验。可以看出相比于原方法，我们的方法在AP指标上有1.2精度的提升，且在AP_L有2.4精度的显著的提升。

表3

Method	AP	AP₅₀	AP₇₅
				RepPoints	38.2	59.7	40.7
FCOS	36.6	56.0	38.9
				DensePointsDet(ours)	38.8	57.5	41.4

表3是将本发明的实例分割架构转变成检测架构后和二阶段的RepPoints算法以及单阶段的FCOS算法在COCO验证数据集上的对比实验。具体的转变方法是移除掉掩码预测分支，并为了高效性将预测的点数转变成9个点。

表4

Method	FLOPs	Params	AP
				DenseRepPoints	416.47G	42.9M	33.8
DensePointsMask(ours)	296.25G	38.4M	33.1

表4是本发明的实例分割架构和前人提出的二阶段实例分割架构在计算消耗上和精度上的比较。对于1288x800的输入图像，本发明的架构和前人的架构相比，在性能近似相等的前提下，节省了大约120G的FLOPs，并具有更少的参数量。

表5

表5是本发明提出的完整的方法与目前已有的代表性的二阶段和单阶段的实例分割方法在coco的test-dev数据集上进行的比较。可以看出，我们提出的基于预测目标密集边界点的单阶段实例分割方法优于目前已有的大多数单阶段实例分割方法，相比于基于轮廓预测的PolarMask方法来说，在相同的条件下，我们的方法有4.6精度的提升。相比于目前的代表性的二阶段方法，我们的单阶段方法也有着近似的性能。

以上所述仅是本发明的优选实施方式，虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种基于预测目标密集边界点的单阶段实例分割方法，其特征在于，该方法包括如下步骤：

步骤1：读取数据集中训练样本的图像和对应的标签，对输入图像保持比例的进行缩放；

步骤2：构建特征提取网络，特征融合网络，以及对实例中心分类、密集边界点属性预测和位置预测的网络；利用步骤1得到的图像和标签生成目标密集边界点的属性和位置信息，将图像和生成的边界点的属性和位置信息作为训练集对网络进行训练，得到可用于实例分割的网络架构；

步骤3：读取待分割的图像，输入到已训练好的特征提取网络和特征融合网络中，提取不同层级的特征图信息；获得的不同层级的特征图信息同时输入到实例中心分类、密集边界点属性预测和位置预测的网络中，获取特征图中每个位置预测类别的置信度分数，每个位置的重心权重，每个位置对应物体边界点的属性值和位置坐标；

步骤4：把预测的密集边界点的左上右下的两个极值点构成的框作为该物体的检测框；将预测的每个位置的重心权重乘以每个位置预测类别的置信度分数做权重衰减，使得更靠近重心的候选点可以获得更高的类别置信度分数；将每个候选点的检测框的坐标和对应的衰减过的类别置信度输入到非极大抑制算法中对重叠度高于阈值的候选点进行过滤；

2.根据权利要求1所述的一种基于预测目标密集边界点的单阶段实例分割方法，其特征在于，所述步骤2中特征图处理步骤如下：

步骤21：采用ResNet网络作为特征提取网络，输出C3，C4和C5三个层级的特征图信息；

步骤22：采用FPN网络作为特征融合网络，将步骤21中输出的3个层级的特征图信息进行融合，输出5个层级的特征图信息；

3.根据权利要求2所述的一种基于预测目标密集边界点的单阶段实例分割方法，其特征在于，所述步骤22中特征图信息融合具体为：利用FPN将C3，C4，C5转换成P3，P4，P5，然后对P5使用3x3且stride＝2的卷积输出P6，最后再对P6使用3x3且stride＝2的卷积输出P7，从而获得5个层级的特征图信息P3，P4，P5，P6，P7。

4.根据权利要求2所述的一种基于预测目标密集边界点的单阶段实例分割方法，其特征在于，所述步骤23中堆叠卷积结构具体为：将原有的堆叠卷积结构的前后的普通卷积用可形变卷积进行替换。

5.根据权利要求1所述的一种基于预测目标密集边界点的单阶段实例分割方法，其特征在于，所述步骤2中，利用步骤1得到的图像和标签来生成目标密集边界点的属性和位置信息，将图像和生成的边界点的属性和位置信息作为训练集用于网络架构的输入，具体流程如下：

(3)从边界点中随机采样n个，并加上偏移量，偏移量是0-1的随机数；

6.根据权利要求1所述的一种基于预测目标密集边界点的单阶段实例分割方法，其特征在于，所述步骤2中训练时采样高质量的实例的步骤如下：

(1)计算每个候选点位置和其对应的轮廓点之间的距离；

7.根据权利要求1所述的一种基于预测目标密集边界点的单阶段实例分割方法，其特征在于，所述步骤2中训练采用的损失函数为：

L＝L_cls+L_center+L_attr+L_loc

其中L_cls是Focal loss函数，将预测的类别置信度分数和真实的类别序号输入，用于类别分类损失优化；L_center和L_attr都是二值化交叉熵函数，其中L_center是将预测的重心权重和重心权重的目标值输入，用于重心权重预测损失优化，L_attr是将预测的密集边界点属性值和目标密集边界点的属性值输入，用于密集边界点的属性预测损失优化；L_loc是ChamferLoss函数，将预测的密集边界点的位置和生成的目标密集边界点的位置输入，用于密集边界点位置损失优化。

8.根据权利要求1所述的一种基于预测目标密集边界点的单阶段实例分割方法，其特征在于，所述步骤4中测试时过滤低质量的候选目标的步骤如下：

9.根据权利要求1所述的一种基于预测目标密集边界点的单阶段实例分割方法，其特征在于，所述步骤5中，根据预测值获得实例掩码的步骤如下：