CN111583288A - 一种视频多目标关联与分割方法及系统 - Google Patents
一种视频多目标关联与分割方法及系统 Download PDFInfo
- Publication number
- CN111583288A CN111583288A CN202010318375.8A CN202010318375A CN111583288A CN 111583288 A CN111583288 A CN 111583288A CN 202010318375 A CN202010318375 A CN 202010318375A CN 111583288 A CN111583288 A CN 111583288A
- Authority
- CN
- China
- Prior art keywords
- target
- video
- segmentation
- main
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 166
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000001514 detection method Methods 0.000 claims abstract description 32
- 230000007246 mechanism Effects 0.000 claims abstract description 16
- 238000012216 screening Methods 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000007637 random forest analysis Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000005520 cutting process Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims 9
- 238000013507 mapping Methods 0.000 claims 2
- 230000002123 temporal effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 12
- 230000006872 improvement Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000005192 partition Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种视频多目标关联与分割方法及系统,所述方法首先采用目标检测方法对视频的每一帧生成多个目标候选,结合注意力机制生成的视频感兴趣区域,筛选出视频主要目标;然后利用孪生网络计算不同目标之间的相似性,得到视频主要目标在时间上的一致性关系;最后利用目标分割网络得到视频主要目标的分割预测。本发明能够提升视频多目标分割的准确率。
Description
技术领域
本发明属于计算机视觉技术领域,特别涉及一种视频多目标关联与分割方法及系统。
背景技术
视频分割技术作为视频处理的关键步骤,对视频分析有很大的影响,在理论和实际应用中有重要的研究价值。
目前,传统的视频分割方法普遍存在以下问题:
(1)多数无监督式视频分割方法是针对视频中只有一个主要目标,而在许多现实视频中往往需要分析多个视频目标,现有方法不太适用;
(2)现有的无监督式视频多目标分割方法少之又少,并且都假设视频每一帧都包含目标,而这一假设在现实视频中是不成立的,目标往往会交替出入视野,而且常常有不包含目标的视频帧(噪声帧),现有方法在处理含有噪声帧的视频时分割准确度会降低。
综上,从实际应用情况出发,针对未剪辑长视频,亟需一种多目标数据关联与分割方法。
发明内容
本发明的目的在于提供一种视频多目标关联与分割方法及系统,以解决上述存在的一个或多个技术问题。本发明的方法,可在没有额外输入的条件下确定视频的主要目标,可在有噪声帧的情况下完成数据关联,能够更有效地对视频主要目标进行分割,提高分割结果的准确性。
为达到上述目的,本发明采用以下技术方案:
本发明的一种视频多目标关联与分割方法,包括以下步骤:
步骤1,用可变形的R-FCN网络对视频的每一帧进行目标检测,得到所述每一帧的N个目标提议以及每个目标提议的置信度分数;基于注意力机制,定位出视频主要目标所在区域R;基于门控机制,计算每个目标提议是视频主要目标的置信度分数,设定阈值筛选出目标,将筛选出的目标作为视频主要目标;
步骤2,利用相同类别相同实例的正样本、相同类别不同实例的负样本和不同类别不同实例的负样本三类数据训练孪生网络,获得训练好的孪生网络;将视频当前帧中某一待匹配视频主要目标与前一帧中所有视频主要目标,两两成对地输入训练好的孪生网络,进行特征提取;计算两个视频主要目标之间的相似度Ab,设定阈值,判断当前帧待匹配视频主要目标属于的实例,获得当前帧待匹配视频主要目标的关联信息;匹配失败,则将当前帧待匹配视频主要目标与已有目标特征集进行匹配,计算相似度Av,设定阈值,判断当前帧待匹配视频主要目标属于的实例,获得待匹配视频主要目标的关联信息;
步骤3,二值分割网络模型的生成,包括:
步骤3.1)采集原始图片,用可变形的R-FCN网络对采集的原始图片进行目标检测,获得目标的边界框;对原始图片进行1:1、1:2和2:1三种尺寸的缩放,得到三张不同分辨率的图像;
步骤3.2)对于每种分辨率的图像,利用分水岭算法得到边缘概率映射的轮廓图,根据轮廓图生成图像的超度量轮廓图;利用超度量轮廓图获取图像的M个超像素,将每个超像素记为一个叶子结点,两两合并成M-1个非叶子结点,构造出一颗完全二叉树,所述分辨率的图像为根节点,共有2M-1个分割提议;从二叉树中分离P组分割提议;
步骤3.3)将三张超度量轮廓图融合在一起,获得第四张超度量轮廓图;基于四张超度量轮廓图,得到4P组分割提议;将获得的4P组分割提议进行重叠率筛选,将重叠率大于等于 0.95的筛选出来剔除,然后进行孔填充,获得筛选填充后的分割提议;
步骤3.4)提取每个筛选填充后的分割提议的2D特征,训练随机森林回归器,对筛选填充后的分割提议进行排名,获得排名后的分割提议;
步骤3.5)计算步骤3.4)获得的排名后的分割提议与步骤3.1)获得的目标的边界框的重叠率;其中,将重叠率最大值对应的分割提议作为伪标注信息;
步骤3.6)通过伪标注信息对应的边界框对原始图片进行裁剪;裁剪后,边界框内的信息作为检测结果;将伪标注信息以及与其对应的检测结果作为训练数据集,训练二值分割网络,获得训练好的二值分割网络模型;
步骤4,将步骤1获得的视频主要目标输入步骤3训练好的二值分割网络模型,获得分割结果;将获得的分割结果与步骤2获得的关联信息相结合,获得视频主要目标的最终输出,完成视频多目标关联与分割。
本发明的进一步改进在于,步骤1中,视频主要目标选择的表达式为,
本发明的进一步改进在于,步骤1中,α、β的取值分别为0.8、0.2。
本发明的进一步改进在于,步骤2中,任意两个目标之间的相似性关系Ab的计算表达式为,
本发明的进一步改进在于,步骤2中,匹配失败后,相似性Av计算表达式为,
式中,Zq表示第q个目标的检测框集合。
本发明的进一步改进在于,步骤3中,根据超度量轮廓图获得分割提议的计算表达式为,
式中,UCM是超度量轮廓图,S是目标分割块;
其中,对每个层次进行迭代,将超度量轮廓图映射到一组目标分割块{S*,S1,S2,...SN}。
本发明的一种视频多目标关联与分割系统,包括:
视频主要目标获取模块,用于通过可变形的R-FCN网络对视频的每一帧进行目标检测,得到所述每一帧的N个目标提议以及每个目标提议的置信度分数;基于注意力机制,定位出视频主要目标所在区域R;基于门控机制,计算每个目标提议是视频主要目标的置信度分数,设定阈值筛选出目标,将筛选出的目标作为视频主要目标;
关联信息获取模块,用于利用相同类别相同实例的正样本、相同类别不同实例的负样本和不同类别不同实例的负样本三类数据训练孪生网络,获得训练好的孪生网络;将视频当前帧中某一待匹配视频主要目标与前一帧中所有视频主要目标,两两成对地输入训练好的孪生网络,进行特征提取;计算两个视频主要目标之间的相似度Ab,设定阈值,判断当前帧待匹配视频主要目标属于的实例,获得当前帧待匹配视频主要目标的关联信息;匹配失败,则将当前帧待匹配视频主要目标与已有目标特征集进行匹配,计算相似度Av,设定阈值,判断当前帧待匹配视频主要目标属于的实例,获得待匹配视频主要目标的关联信息;
二值分割网络模型获取模块,包括:
图像获取模块,用于采集原始图片,用可变形的R-FCN网络对采集的原始图片进行目标检测,获得目标的边界框;对原始图片进行1:1、1:2和2:1三种尺寸的缩放,得到三张不同分辨率的图像;
分割提议获取模块,用于对每种分辨率的图像,利用分水岭算法得到边缘概率映射的轮廓图,根据轮廓图生成图像的超度量轮廓图;利用超度量轮廓图获取图像的M个超像素,将每个超像素记为一个叶子结点,两两合并成M-1个非叶子结点,构造出一颗完全二叉树,所述分辨率的图像为根节点,共有2M-1个分割提议;从二叉树中分离P组分割提议;
分割提议筛选填充模块,用于将三张超度量轮廓图融合在一起,获得第四张超度量轮廓图;基于四张超度量轮廓图,得到4P组分割提议;将获得的4P组分割提议进行重叠率筛选,将重叠率大于等于0.95的筛选出来剔除,然后进行孔填充,获得筛选填充后的分割提议;
分割提议排名模块,用于提取每个筛选填充后的分割提议的2D特征,训练随机森林回归器,对筛选填充后的分割提议进行排名,获得排名后的分割提议;
伪标注信息获取模块,用于计算获得的排名后的分割提议与目标的边界框的重叠率;其中,将重叠率最大值对应的分割提议作为伪标注信息;
二值分割网络模型训练模块,用于通过伪标注信息对应的边界框对原始图片进行裁剪;裁剪后,边界框内的信息作为检测结果;将伪标注信息以及与其对应的检测结果作为训练数据集,训练二值分割网络,获得训练好的二值分割网络模型;
多目标关联与分割模块,用于将视频主要目标获取模块获得的视频主要目标输入二值分割网络模型获取模块训练好的二值分割网络模型,获得分割结果;将获得的分割结果与关联信息获取模块获得的关联信息相结合,获得视频主要目标的最终输出,完成视频多目标关联与分割。
本发明的进一步改进在于,视频主要目标获取模块中,视频主要目标选择的表达式为,
本发明的进一步改进在于,关联信息获取模块中,任意两个目标之间的相似性关系Ab的计算表达式为,
匹配失败后,相似性Av计算表达式为,
式中,Zq表示第q个目标的检测框集合。
本发明的进一步改进在于,二值分割网络模型获取模块中,根据超度量轮廓图获得分割提议的计算表达式为,
式中,UCM是超度量轮廓图,S是目标分割块;
其中,对每个层次进行迭代,将超度量轮廓图映射到一组目标分割块{S*,S1,S2,...SN}。
与现有技术相比,本发明具有以下有益效果:
本发明的方法是一种未剪辑长视频中的多目标数据关联与分割方法,针对当前视频分割方法中存在的视频多目标分割算法少、大多数无监督式视频分割方法适用于视频单目标分割、数据集中噪声帧少等问题;本发明方法首先采用目标检测方法对视频的每一帧生成多个目标候选,结合注意力机制生成的视频感兴趣区域,筛选出多个视频主要目标,进一步解决视频多目标分割问题;然后利用孪生网络计算不同目标之间的相似性,得到视频主要目标在时间上的一致性关系,这种相似计算方法可以解决未剪辑长视频帧中出现的噪声帧等问题,视频主要目标在重现时便可以重新得到关联关系;最后利用目标分割网络得到视频主要目标的分割预测,提升了视频多目标分割的准确率。本发明使用检测与注意力机制相结合的方法自动确认视频主要目标,并计算不同目标之间的相似性来进行数据关联,再用全卷积网络对已确认目标进行分割,提升了分割性能。本发明的方法可以在没有人工额外输入的条件下自动确定视频的主要目标,并且在有噪声真的情况下完成数据关联,从而更有效的对视频主要目标进行分割,提高分割结果的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图做简单的介绍;显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种多目标数据关联与分割方法的流程示意图;
图2是本发明实施例中的验证数据集示意图;其中,图2中的(a)为DAVIS2016数据集示意图,图2中的(b)为UNVOSeg数据集示意图;
图3是本发明实施例中,生成分割结果的示意图;
图4是本发明实施例中,多尺度超度量轮廓示意图;
图5是本发明实施例中,在UNVOSeg数据集上的验证结果示意图。
具体实施方式
为使本发明实施例的目的、技术效果及技术方案更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例是本发明一部分实施例。基于本发明公开的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例,都应属于本发明保护的范围。
请参阅图1,本发明实施例的一种多目标数据关联与分割方法,是一种未剪辑长视频中的多目标关联与分割方法,包括如下步骤:
步骤1,视频主要目标生成,包括:
1.1)对未剪辑视频的每一帧用可变形的R-FCN网络进行目标检测,得到所述每一帧中所有的N个目标提议以及每个目标提议置信度分数;
1.2)利用注意力机制定位出视频主要目标所在区域R;其中,视频主要目标可以有多个;
1.3)用一个门控机制来计算每个目标提议是视频目标的置信度分数,选取得分大于一定阈值的目标作为视频主要目标,进行后续数据关联与分割。
步骤2,多目标的数据关联,包括:
2.1)利用相同类别相同实例的正样本、相同类别不同实例的负样本和不同类别不同实例的负样本三类数据训练孪生网络,获得训练好的孪生网络;
2.2)将某一当前帧待匹配的视频主要目标和前一帧中所有视频主要目标,两两成对地输入训练好的孪生网络,进行特征提取;通过计算两个视频主要目标之间的相似度Ab,判断当前帧待匹配的视频主要目标属于哪个实例,获得待匹配视频主要目标的关联信息;
2.3)若上一步中数据匹配失败,将当前帧待匹配的视频主要目标与已有的目标特征集进行匹配,计算相似度Av,判断当前帧待匹配的视频主要目标属于哪个实例,获得待匹配视频主要目标的关联信息。
步骤3,弱监督分割网络伪标注信息的生成,包括:
3.1)采集原始图片,用可变形的R-FCN网络进行目标检测,获得目标的边界框;对原始图片进行1:1、1:2和2:1三种尺寸的缩放,得到三张不同分辨率的图像;
3.2)对于每种分辨率的图像,利用分水岭算法得到边缘概率映射的轮廓图,根据轮廓图生成图像的超度量轮廓图;
3.3)利用超度量轮廓图获取图像的M个超像素,将每个超像素看成一个叶子结点,两两合并成M-1个非叶子结点,构造出一颗完全二叉树,所述分辨率的图像为根节点,共有2M-1 个分割提议;
3.4)从二叉树中分离P组分割提议;
3.5)将三张超度量轮廓图融合在一起,加上三张超度量轮廓图就可以得到4P组分割提议;将获得的4P组分割提议进行重叠率筛选,将重叠率大于等于0.95的筛选出来剔除,然后进行孔填充,获得筛选填充后的分割提议;
3.6)提取每个筛选填充后的分割提议的2D特征,训练随机森林回归器,对筛选填充后的分割提议进行排名,获得排名后的分割提议;
3.7)计算步骤3.6)获得的排名后的分割提议与步骤3.1)获得的目标的边界框的重叠率;将重叠率最大值对应的分割提议作为伪标注信息。
步骤4,视频目标的分割,包括:
4.1)通过伪标注信息对应的边界框对原始图片进行裁剪;裁剪后,边界框内的信息作为检测结果;将伪标注信息以及与其对应的检测结果作为训练数据集,训练二值分割网络,获得训练好的二值分割网络模型;所述分割网络模型只区分前景背景;
4.2)将步骤1获得的视频主要目标,输入训练好的二值分割网络模型,获得分割结果,如图3所示;将分割结果与步骤2获得的关联信息相结合,获得视频主要目标的最终输出。
本发明实施例中,步骤4.2)中的将分割结果与步骤2获得的关联信息相结合,具体可以是:将视频主要目标的关联信息映射为三维的RGB值,相同的实例具有相同的RGB值,用RGB 值代替二值分割结果的前景值,得到最终视频主要目标的分割结果。
本发明实施例中,步骤1.3)中,对视频主要目标的选择如下:
本发明实施例中,步骤2.2)中,任意两个目标之间的相似性关系Ab如下:
本发明实施例中,所述步骤2.3)中,当目标重现时,其相似性Av计算如下:
其中,Zq表示第q个目标的检测框集合。
本发明实施例中,步骤3.3)中,由超度量轮廓图转化为分割候选的计算如下:
其中,UCM是超度量轮廓图,S是目标分割块,对每个层次进行迭代,就可以将超度量轮廓图映射到一组目标分割块{S*,S1,S2,...SN}。
综上,本发明实施例公开了一种未剪辑长视频中的多目标数据关联与分割方法,该方法针对包含较多噪声帧的视频,首先利用目标检测方法检测出视频帧中的所有目标,然后利用注意力机制找出视频目标主要出现的位置,二者结合过滤掉无关目标,确定视频主要目标,再利用孪生网络对视频序列中的目标进行数据关联,之后利用全卷积网络对检测的目标进行分割。该方法与现有方法进行对比,在DAVIS2016和UNVOSeg两个数据集上验证了视频多目标关联与分割算法的有效性和准确性。
本发明的具体实施例,图2中的(a)、(b)分别是验证本发明方法可行性的数据集:图2 中的(a)是DAVIS2016数据集中的部分视频帧示例,该数据集包含50个视频,每个视频都包含有目标,不含有噪声帧。图2中的(b)是UNVOSeg数据集中的部分视频帧示例,该数据集包含63个视频,视频的时长比较长而且视频中不包含目标的帧数较多。这两个示例中上面一行是视频中的部分视频帧,下面一行是其对应的真值。
参见图1,为本发明所述的未剪辑长视频中的多目标数据关联与分割方法流程图,本发明实施例的方法,具体包括步骤如下:
步骤1,视频目标生成,包括:
1.3)用一个门控机制来计算每个目标提议是视频目标的置信度分数,计算方法如下:
选取得分大于一定阈值的目标作为视频主要目标,进行后续数据关联与分割。
步骤2,多目标的数据关联:
2.1)利用相同类别相同实例的正样本、相同类别不同实例的负样本和不同类别不同实例的负样本三类数据训练孪生网络;
2.2)取步骤1中生成的相邻帧的视频目标,两两成对地输入孪生网络提取特征,通过计算两个目标之间的相似度来判断这两个视频目标是否属于同一实例,任意两个目标之间的相似性关系Ab如下:
2.3)若上一步中数据匹配失败,将计算该目标与已有的目标特征集进行匹配,其相似性Av计算如下:
其中,Zq表示第q个目标的检测框集合;
步骤3,弱监督分割网络伪标注信息的生成,包括:
3.1)对原始图片进行1:1、1:2和2:1三种尺寸的缩放,得到三张不同分辨率的图像;
3.2)对于每种分辨的图像,利用分水岭算法得到边缘概率映射的轮廓图,进一步生成这张图片的超度量轮廓图;
3.3)利用超度量轮廓图获取图像的M个超像素,由超度量轮廓图转化为分割候选的计算如下:
其中,UCM是超度量轮廓图,S是目标分割块,对每个层次进行迭代,就可以将超度量轮廓图映射到一组目标分割块{S*,S1,S2,...SN},如图4所示。
将每个超像素看成一个叶子结点,两两合并成M-1个非叶子结点,构造出一颗完全二叉树,整个图片即为根节点,一共有2M-1个分割提议;
3.4)从二叉树中分离P组分割提议;
3.5)将三张超度量轮廓图融合在一起,加上三张超度量轮廓图就可以得到4P组分割提议,将这些分割候选重叠率大于0.95的筛选出来,进行孔填充,;
3.6)提取每个分割提议的2D特征,训练随机森林回归器对这些分割候选排名;
3.7)计算出步骤3.6)中分割候选与步骤3.1)中检测结果的重叠率,将最大值对应的分割候选作为伪标注信息。
步骤4,视频目标的分割,包括:
4.1)利用图像中的检测结果和伪标注信息训练一个只区分前景背景的二值分割网络;
4.2)对视频目标进行分割,结合关联信息确定视频目标的最终输出。
表1a、1b分别是视频多目标关联与分割方法的实验结果,表1a为在DAVIS2016数据集上的实验结果,表1b为在UNVOSeg数据集上的部分实验结果。
请参阅图5,图5为UNVOSeg数据集上部分视频帧的分割结果,从表1a、1b和图5中可以看出,本发明能够有效地提高视频目标分割的准确率
表1a.在DAVIS2016数据集上的实验结果
表1b.在UNVOSeg数据集上的部分实验结果
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质 (包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/ 或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。
Claims (10)
1.一种视频多目标关联与分割方法,其特征在于,包括以下步骤:
步骤1,用可变形的R-FCN网络对视频的每一帧进行目标检测,得到所述每一帧的N个目标提议以及每个目标提议的置信度分数;基于注意力机制,定位出视频主要目标所在区域R;基于门控机制,计算每个目标提议是视频主要目标的置信度分数,设定阈值筛选出目标,将筛选出的目标作为视频主要目标;
步骤2,利用相同类别相同实例的正样本、相同类别不同实例的负样本和不同类别不同实例的负样本三类数据训练孪生网络,获得训练好的孪生网络;将视频当前帧中某一待匹配视频主要目标与前一帧中所有视频主要目标,两两成对地输入训练好的孪生网络,进行特征提取;计算两个视频主要目标之间的相似度Ab,设定阈值,判断当前帧待匹配视频主要目标属于的实例,获得当前帧待匹配视频主要目标的关联信息;匹配失败,则将当前帧待匹配视频主要目标与已有目标特征集进行匹配,计算相似度Av,设定阈值,判断当前帧待匹配视频主要目标属于的实例,获得待匹配视频主要目标的关联信息;
步骤3,二值分割网络模型的生成,包括:
步骤3.1)采集原始图片,用可变形的R-FCN网络对采集的原始图片进行目标检测,获得目标的边界框;对原始图片进行1:1、1:2和2:1三种尺寸的缩放,得到三张不同分辨率的图像;
步骤3.2)对于每种分辨率的图像,利用分水岭算法得到边缘概率映射的轮廓图,根据轮廓图生成图像的超度量轮廓图;利用超度量轮廓图获取图像的M个超像素,将每个超像素记为一个叶子结点,两两合并成M-1个非叶子结点,构造出一颗完全二叉树,所述分辨率的图像为根节点,共有2M-1个分割提议;从二叉树中分离P组分割提议;
步骤3.3)将三张超度量轮廓图融合在一起,获得第四张超度量轮廓图;基于四张超度量轮廓图,得到4P组分割提议;将获得的4P组分割提议进行重叠率筛选,将重叠率大于等于0.95的筛选出来剔除,然后进行孔填充,获得筛选填充后的分割提议;
步骤3.4)提取每个筛选填充后的分割提议的2D特征,训练随机森林回归器,对筛选填充后的分割提议进行排名,获得排名后的分割提议;
步骤3.5)计算步骤3.4)获得的排名后的分割提议与步骤3.1)获得的目标的边界框的重叠率;其中,将重叠率最大值对应的分割提议作为伪标注信息;
步骤3.6)通过伪标注信息对应的边界框对原始图片进行裁剪;裁剪后,边界框内的信息作为检测结果;将伪标注信息以及与其对应的检测结果作为训练数据集,训练二值分割网络,获得训练好的二值分割网络模型;
步骤4,将步骤1获得的视频主要目标输入步骤3训练好的二值分割网络模型,获得分割结果;将获得的分割结果与步骤2获得的关联信息相结合,获得视频主要目标的最终输出,完成视频多目标关联与分割。
3.根据权利要求2所述的一种视频多目标关联与分割方法,其特征在于,步骤1中,α、β的取值分别为0.8、0.2。
7.一种视频多目标关联与分割系统,其特征在于,包括:
视频主要目标获取模块,用于通过可变形的R-FCN网络对视频的每一帧进行目标检测,得到所述每一帧的N个目标提议以及每个目标提议的置信度分数;基于注意力机制,定位出视频主要目标所在区域R;基于门控机制,计算每个目标提议是视频主要目标的置信度分数,设定阈值筛选出目标,将筛选出的目标作为视频主要目标;
关联信息获取模块,用于利用相同类别相同实例的正样本、相同类别不同实例的负样本和不同类别不同实例的负样本三类数据训练孪生网络,获得训练好的孪生网络;将视频当前帧中某一待匹配视频主要目标与前一帧中所有视频主要目标,两两成对地输入训练好的孪生网络,进行特征提取;计算两个视频主要目标之间的相似度Ab,设定阈值,判断当前帧待匹配视频主要目标属于的实例,获得当前帧待匹配视频主要目标的关联信息;匹配失败,则将当前帧待匹配视频主要目标与已有目标特征集进行匹配,计算相似度Av,设定阈值,判断当前帧待匹配视频主要目标属于的实例,获得待匹配视频主要目标的关联信息;
二值分割网络模型获取模块,包括:
图像获取模块,用于采集原始图片,用可变形的R-FCN网络对采集的原始图片进行目标检测,获得目标的边界框;对原始图片进行1:1、1:2和2:1三种尺寸的缩放,得到三张不同分辨率的图像;
分割提议获取模块,用于对每种分辨率的图像,利用分水岭算法得到边缘概率映射的轮廓图,根据轮廓图生成图像的超度量轮廓图;利用超度量轮廓图获取图像的M个超像素,将每个超像素记为一个叶子结点,两两合并成M-1个非叶子结点,构造出一颗完全二叉树,所述分辨率的图像为根节点,共有2M-1个分割提议;从二叉树中分离P组分割提议;
分割提议筛选填充模块,用于将三张超度量轮廓图融合在一起,获得第四张超度量轮廓图;基于四张超度量轮廓图,得到4P组分割提议;将获得的4P组分割提议进行重叠率筛选,将重叠率大于等于0.95的筛选出来剔除,然后进行孔填充,获得筛选填充后的分割提议;
分割提议排名模块,用于提取每个筛选填充后的分割提议的2D特征,训练随机森林回归器,对筛选填充后的分割提议进行排名,获得排名后的分割提议;
伪标注信息获取模块,用于计算获得的排名后的分割提议与目标的边界框的重叠率;其中,将重叠率最大值对应的分割提议作为伪标注信息;
二值分割网络模型训练模块,用于通过伪标注信息对应的边界框对原始图片进行裁剪;裁剪后,边界框内的信息作为检测结果;将伪标注信息以及与其对应的检测结果作为训练数据集,训练二值分割网络,获得训练好的二值分割网络模型;
多目标关联与分割模块,用于将视频主要目标获取模块获得的视频主要目标输入二值分割网络模型获取模块训练好的二值分割网络模型,获得分割结果;将获得的分割结果与关联信息获取模块获得的关联信息相结合,获得视频主要目标的最终输出,完成视频多目标关联与分割。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010318375.8A CN111583288B (zh) | 2020-04-21 | 2020-04-21 | 一种视频多目标关联与分割方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010318375.8A CN111583288B (zh) | 2020-04-21 | 2020-04-21 | 一种视频多目标关联与分割方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111583288A true CN111583288A (zh) | 2020-08-25 |
CN111583288B CN111583288B (zh) | 2022-12-09 |
Family
ID=72112500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010318375.8A Active CN111583288B (zh) | 2020-04-21 | 2020-04-21 | 一种视频多目标关联与分割方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111583288B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109191485A (zh) * | 2018-08-29 | 2019-01-11 | 西安交通大学 | 一种基于多层超图模型的多视频目标协同分割方法 |
CN110097568A (zh) * | 2019-05-13 | 2019-08-06 | 中国石油大学(华东) | 一种基于时空双分支网络的视频对象检测与分割方法 |
CN110910391A (zh) * | 2019-11-15 | 2020-03-24 | 安徽大学 | 一种双模块神经网络结构视频对象分割方法 |
-
2020
- 2020-04-21 CN CN202010318375.8A patent/CN111583288B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109191485A (zh) * | 2018-08-29 | 2019-01-11 | 西安交通大学 | 一种基于多层超图模型的多视频目标协同分割方法 |
CN110097568A (zh) * | 2019-05-13 | 2019-08-06 | 中国石油大学(华东) | 一种基于时空双分支网络的视频对象检测与分割方法 |
CN110910391A (zh) * | 2019-11-15 | 2020-03-24 | 安徽大学 | 一种双模块神经网络结构视频对象分割方法 |
Non-Patent Citations (2)
Title |
---|
付利华等: "基于孪生网络的快速视频目标分割", 《电子学报》 * |
鄂贵等: "基于R-FCN框架的多候选关联在线多目标跟踪", 《光电工程》 * |
Also Published As
Publication number | Publication date |
---|---|
CN111583288B (zh) | 2022-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Adaptive fusion for RGB-D salient object detection | |
Shen et al. | Submodular trajectories for better motion segmentation in videos | |
Sankaranarayanan et al. | Learning from synthetic data: Addressing domain shift for semantic segmentation | |
CN110321813B (zh) | 基于行人分割的跨域行人重识别方法 | |
CN109614985B (zh) | 一种基于密集连接特征金字塔网络的目标检测方法 | |
CN113269237B (zh) | 基于注意力机制的装配体变化检测方法、设备和介质 | |
WO2020221298A1 (zh) | 文本检测模型训练方法、文本区域、内容确定方法和装置 | |
US9129191B2 (en) | Semantic object selection | |
US9129192B2 (en) | Semantic object proposal generation and validation | |
CN113298815A (zh) | 一种半监督遥感图像语义分割方法、装置和计算机设备 | |
CN107730515B (zh) | 基于区域增长和眼动模型的全景图像显著性检测方法 | |
CN110348435B (zh) | 一种基于区域候选网络的目标检测方法及系统 | |
Esmaeili et al. | Fast-at: Fast automatic thumbnail generation using deep neural networks | |
Varnousfaderani et al. | Weighted color and texture sample selection for image matting | |
US9626585B2 (en) | Composition modeling for photo retrieval through geometric image segmentation | |
CN109886128B (zh) | 一种低分辨率下的人脸检测方法 | |
Fang et al. | Deep3DSaliency: Deep stereoscopic video saliency detection model by 3D convolutional networks | |
CN110033514B (zh) | 一种基于点线特征快速融合的重建方法 | |
JP4926266B2 (ja) | 学習データ作成装置、学習データ作成方法及びプログラム | |
CN112131944B (zh) | 一种视频行为识别方法及系统 | |
Peng et al. | Hers superpixels: Deep affinity learning for hierarchical entropy rate segmentation | |
CN113762149A (zh) | 基于分割注意力的特征融合人体行为识别系统及方法 | |
Li et al. | 3D large-scale point cloud semantic segmentation using optimal feature description vector network: OFDV-Net | |
CN117911697A (zh) | 基于大模型分割的高光谱目标跟踪方法、系统、介质和设备 | |
CN115115847B (zh) | 三维稀疏重建方法、装置及电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240516 Address after: 519099 Room 97, Building E, Shitao Yuan, Wailingding Island, Wanshan Management District, Zhuhai City, Guangdong Province Patentee after: ZHUHAI YOUJIE TECHNOLOGY Co.,Ltd. Country or region after: China Address before: 710049 No. 28 West Xianning Road, Shaanxi, Xi'an Patentee before: XI'AN JIAOTONG University Country or region before: China |