CN115457079A - 一种用于目标人物的跟踪方法 - Google Patents
一种用于目标人物的跟踪方法 Download PDFInfo
- Publication number
- CN115457079A CN115457079A CN202211008836.7A CN202211008836A CN115457079A CN 115457079 A CN115457079 A CN 115457079A CN 202211008836 A CN202211008836 A CN 202211008836A CN 115457079 A CN115457079 A CN 115457079A
- Authority
- CN
- China
- Prior art keywords
- tracking
- target
- data set
- tracker
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/247—Aligning, centring, orientation detection or correction of the image by affine transforms, e.g. correction due to perspective effects; Quadrilaterals, e.g. trapezoids
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种用于目标人物的跟踪方法,属于视觉目标跟踪技术领域,包括:S1、运动模型建立:运动模型主要对目标在视频中的运动轨迹进行建模和估计,生成候选样本的速度与质量直接决定了跟踪系统表现的优劣,S2、特征提取:依据运动模型确定当前帧的目标搜索范围后,接下来需要对候选区域或候选样本进行特征提取,S3、观测模型:根据观测模型的不同,跟踪算法大体上可以分为生成式和判别式跟踪器,生成式模型仅仅使用前景的目标信息来构造跟踪模型,通过衡量候选样本的重构误差或相似性来挑选最优样本。本发明在实现对视频目标跟踪的基础上,还可以对患者的特征信息进行多角度提取,且可以同时多个目标进行跟踪。
Description
技术领域
本发明涉及视觉目标跟踪技术领域,更具体地说,涉及一种用于目标人物的跟踪方法。
背景技术
视觉目标跟踪是计算机视觉领域中非常具有挑战性的问题之一。视觉目标跟踪的任务是在视频序列中给定目标在初始帧的状态(即位置、尺寸等信息)的情况下,估计目标在后续帧的状态,而视频多目标跟踪是指需要对同一场景下的多类目标进行跟踪。视频多目标跟踪包括目标检测和目标跟踪两个步骤:其中,常见的目标检测方法有光流法、帧间差分法、背景减差法和基于深度学习的目标检测方法等;比较成熟目标跟踪方法有卡尔曼滤波器算法、Meanshift算法和Camshift算法。
医院大环境一般表现在三个方面,一个是人流量大、一个是背景相似,一个是较为嘈杂,虽然近年来视觉目标跟踪技术发展迅速,但是由于在跟踪过程中多种目标、多目标间交替遮挡、外观形变、快速运动、光照变化、尺度变化和背景复杂等因素的影响,视觉目标跟踪技术的应用仍然困难重重,且视频目标跟踪时运动目标外观变化、目标和背景相似问题是不能很好地对患者进行跟踪,为此我们提出一种用于目标人物的跟踪方法。
发明内容
1.要解决的技术问题
针对现有技术中存在的问题,本发明的目的在于提供一种用于目标人物的跟踪方法,本发明在实现对视频目标跟踪的基础上,还可以对患者的特征信息进行多角度提取,且可以同时多个目标进行跟踪。
2.技术方案
为解决上述问题,本发明采用如下的技术方案:
一种用于目标人物的跟踪方法,包括:
S1、运动模型建立:运动模型主要对目标在视频中的运动轨迹进行建模和估计,生成候选样本的速度与质量直接决定了跟踪系统表现的优劣;
S2、特征提取:依据运动模型确定当前帧的目标搜索范围后,接下来需要对候选区域或候选样本进行特征提取;
S3、观测模型:根据观测模型的不同,跟踪算法大体上可以分为生成式和判别式跟踪器,生成式模型仅仅使用前景的目标信息来构造跟踪模型,通过衡量候选样本的重构误差或相似性来挑选最优样本;
S4、模型更新:稀疏表达跟踪器利用新收集的正样本来更新稀疏字典;基于SVM的跟踪算法使用后续帧中收集的正、负样本来更新决策平面,相关滤波器将后续桢中得到的滤波器以指数型滑动平均的策略更新初始滤波器;基于分类网络的跟踪器不断收集新的正、负样本来在线微调分类网络;
S5、跟踪数据集更新:跟踪数据集包含OTB-2013和OTB-2015两个版本。其中OTB-2013包含51个以往跟踪领域的常用测试视频,该数据集及评价标准为跟踪算法提供了统一的测试与评估环境,OTB-2015数据集是OTB-2013的扩充,共包含100个挑战性视频,该数据集还对视频标出了遮挡、形变、快速运动、光照变化、模糊10个视频属性,便于分析跟踪器应对不同场景的能力;
S6、人脸锁定:根据S4和S5对患者人脸进行多次取样后对患者人脸进行跟踪。
作为本发明的一种优选方案,在所述S1每一帧中,采用CAM Shift目标跟踪算法,所述CAM Shift目标跟踪算法用标准RGB颜色空间16等级量化来表征目标颜色外观,考虑到目标中心区域重要性和目标外围点易受噪声影响,对不同位置像素点采用核函数方法赋予不同权重,通过将颜色和灰度图像边缘检测方法相结合来建立目标联合概率密度分布图。
作为本发明的一种优选方案,所述S2特征提取中鉴别性的特征表示是目标跟踪的关键之一,根据目标的情况选择不同的特征表示,常用的特征采用深度特征,所述深度特征是通过大量的训练样本学习出来的特征,利用深度特征的跟踪方法通常很轻松就能获得一个不错的效果在跟踪任务中,良好的特征表达不仅需要刻画候选目标丰富的、鲁棒的、具有(旋转、形变和光照)不变性的外观表达,颜色直方图的统计特性使得这类算法可以更加鲁棒地处理目标形变,深度相关滤波器算法普遍地采用多层CNN特征,将特征提取网络和相关滤波器进行联合训练,使得深度特征更加适合于相关滤波算法,相关滤波器的建模方式被广泛地应用于跟踪框架中,基于分类网络的跟踪器(如MDNet、VITAL)主要采用VGG-M网络进行特征提取并在线地训练全连接层进行样本分类,且所述CAM Shift目标跟踪算法采用ResNet-50网络。
作为本发明的一种优选方案,所述S3中常见的生成式跟踪框架包含稀疏表达和子空间学习,所述判别式跟踪器同时考虑前景信息和背景信息,以学习到具有区分为的判别式模型,所述判别式跟踪器包括随机森林分类器、SVM跟踪器和相关滤波器,所述生成式模型基于子空间学习的跟踪算法,所述生成式模型算法的核心思想在于将特征从高维到低维进行映射,从而构造一系列子空间对目标外观进行建模,进一步计算候选样本在子空间下的重构误差或相似性以挑选出最可能的目标,所述判别式模型基于SVM的跟踪算法通过SVM学习的分类器模型来区分正负样本,所述相关滤波器的跟踪算法通过学习一个具有区分为的滤波器来处理待跟踪图片,其输出结果为一个响应图,表示目标在后续帧中不同位置的置信度,所述相关滤波器通过利用循环样本和循环矩阵的性质求解岭回归问题,将不同层的深度特征分别训练相关滤波器并进行由粗到精(coarse to fine)的融合,得到了频域上的高效闭合解,随后使用交替方向乘子法进行优化。
作为本发明的一种优选方案,在S4中由于目标遮挡、形变、跟踪漂移因素,跟踪过程中收集的受污染正样本可能导致模型退化,所述基于SVM的跟踪算法通过挖掘困难负样本(hard negative mining)来增强算法的鲁棒性,并且通过设计损失函数来抑制冗余的负样本,为了更好地适应目标外观变化,所述基于SVM的跟踪算法利用LSTM(Long Short TermMemory)结构挖掘历史帧的模板信息以更新当前帧的模板,训练一个独立的卷积网络并利用历史模板在下一帧预测一个最优的模板特征,所述基于SVM的跟踪算法通过梯度信息更新模板,一定程度上可以抑制模板中的背景信息。
作为本发明的一种优选方案,在S2特征提取中该深度跟踪网络包含一系列卷积层以提取候选样本的鲁棒特征表达,并通过后续的全连接层对样本进行二分类,该方法使用分类式网络进行目标跟踪,该视频中的目标可能成为其他视频中的背景物体,引入了多数据域的训练框架,对搜索区域进行共享特征提取,然后再使用ROI-Align裁剪出候选样本特征,使得精度仅有轻微影响的情况下跟踪速度提高2.5倍以上。
作为本发明的一种优选方案,所述S2中RGB颜色空间表征目标颜色提取的方法:初始化时建立目标颜色模型(比如脸的颜色、手臂颜色和皮肤颜色),在后继视频图像中用Sobel边缘检测算子对图像进行边缘检测,由边缘和颜色特征获得不同权重的联合概率密度分布图。
作为本发明的一种优选方案,所述S5中跟踪数据集对于遮挡的解决方法:利用检测机制判断目标是否被遮挡,从而决定是否更新模板,保证模板对遮挡的鲁棒性,把目标分成多个块,利用没有被遮挡的块进行有效地跟踪。对于目标被完全遮挡的情况,当前也并没有有效的方法能够完全解决;
所述S5中视频跟踪数据集对于形变的解决发方法:更新目标的表观模型,使其适应表观的变化;
所述S5中视频跟踪数据集对于背景杂斑的解决发方法:利用目标的运动信息,预测运动的大致轨迹,防止跟踪器跟踪到相似的其他目标上,或是利用目标周围的大量样本框对分类器进行更新训练,提高分类器对背景与目标的辨别能力;
所述S5中视频跟踪数据集对于尺度变换的解决发方法:在运动模型产生候选样本的时候,生成大量尺度大小不一的候选框,或是在多个不同尺度目标上进行目标跟踪,产生多个预测结果,选择其中最优的作为最后的预测目标。
所述S5中视频跟踪数据集对于运动模糊的解决发方法:指目标或摄像机的运动导致的目标区域变模糊,导致跟踪效果不佳。常用均值偏移跟踪方法来进行跟踪,无需去模糊,利用从运动模糊中得到的信息,就能够完成跟踪目标。
所述S5中视频跟踪数据集对于光照的解决发方法:将S2中RGB颜色空间获取的RGB颜色信息与纹理信息以置信度相融合方法来抑制阴影,提高运动目标跟踪在光照变换情况下的鲁棒性;
所述S5中视频跟踪数据集对于旋转的解决发方法:在跟踪模块引入仿射变换,仿射变换能够根据变换的自由度参数旋转变换坐标系的位置或目标的边界框,实现准确的目标跟踪。
所述S5中视频跟踪数据集对于快速运动的解决发方法:采用时间差分的方法将运动目标从背景中提取出来,再根据连通区域分析法来确定每个目标块的具体位置,最后通过区域对应和基于颜色的最小欧氏距离的方法画出每个目标的运动轨迹。
所述S5中视频跟踪数据集对于超出视野的解决发方法:通过引入一个检测器(TLD算法提出跟踪和检测是可以互相促进的),用于在跟踪失败时的补充,跟踪为检测器提供正样本,检测器在跟踪失败时重新初始化跟踪器。使得跟踪鲁棒性增强。
所述S5中视频跟踪数据集对于低分辨率的解决发方法:采用非负矩阵分解的方法来建立目标模型,通过非负矩阵分解迭代计算提取目标重要轮廓信息,以一个字典矩阵的形式表示目标,进而完成跟踪。
3.有益效果
相比于现有技术,本发明的优点在于:
本发明提供的基于多特征融合的视频多目标跟踪方法,将多目标识别、多目标跟踪、目标特征提取、视频目标结构化、目标最优匹配进行有效集成,该方法通过基于并行的多目标检测有效提高检测效率,并将目标特征信息进行提取,且本发明通过标准RGB颜色空间16等级量化来表征目标颜色外观,考虑到目标中心区域重要性和目标外围点易受噪声影响,对不同位置像素点采用核函数方法赋予不同权重,通过将颜色和灰度图像边缘检测方法相结合来建立目标联合概率密度分布图。从而增加其鲁棒性,结合多目标结构化、多目标跟踪和基于特征的最优匹配方法,克服多目标运动交叠、部分遮挡、形变情况,实现对视频多目标的有效跟踪,具有速度快、效率高的优点,可广泛应用于实战中,能够创造一定的经济效益和使用价值。
附图说明
图1为本发明一种用于目标人物的跟踪方法的整体流程图;
图2为本发明一种用于目标人物的跟踪方法中运动模型建立的示意图;
图3为本发明一种用于目标人物的跟踪方法中观测模型的示意图;
图4为本发明一种用于目标人物的跟踪方法中跟踪数据集的示意图;
图5为本发明一种用于目标人物的跟踪方法中RGB颜色空间表征目标颜色提取的流程图;
图6为本发明一种用于目标人物的跟踪方法中跟踪数据集的内容处理图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“上”、“下”、“内”、“外”、“顶/底端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“设置有”、“套设/接”、“连接”等,应做广义理解,例如“连接”,可以是固定连接,也可以是可拆卸连接,或一体的连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例:
请参阅图1-6,一种用于目标人物的跟踪方法,包括:
S1、运动模型建立:运动模型主要对目标在视频中的运动轨迹进行建模和估计,生成候选样本的速度与质量直接决定了跟踪系统表现的优劣;
S2、特征提取:依据运动模型确定当前帧的目标搜索范围后,接下来需要对候选区域或候选样本进行特征提取;
S3、观测模型:根据观测模型的不同,跟踪算法大体上可以分为生成式和判别式跟踪器,生成式模型仅仅使用前景的目标信息来构造跟踪模型,通过衡量候选样本的重构误差或相似性来挑选最优样本;
S4、模型更新:稀疏表达跟踪器利用新收集的正样本来更新稀疏字典;基于SVM的跟踪算法使用后续帧中收集的正、负样本来更新决策平面,相关滤波器将后续桢中得到的滤波器以指数型滑动平均的策略更新初始滤波器;基于分类网络的跟踪器不断收集新的正、负样本来在线微调分类网络;
S5、跟踪数据集更新:跟踪数据集包含OTB-2013和OTB-2015两个版本。其中OTB-2013包含51个以往跟踪领域的常用测试视频,该数据集及评价标准为跟踪算法提供了统一的测试与评估环境,OTB-2015数据集是OTB-2013的扩充,共包含100个挑战性视频,该数据集还对视频标出了遮挡、形变、快速运动、光照变化、模糊10个视频属性,便于分析跟踪器应对不同场景的能力;
S6、人脸锁定:根据S4和S5对患者人脸进行多次取样后对患者人脸进行跟踪。
在本发明的具体实施例中,本发明提供的基于多特征融合的视频多目标跟踪方法,将多目标识别、多目标跟踪、目标特征提取、视频目标结构化、目标最优匹配进行有效集成,该方法通过基于并行的多目标检测有效提高检测效率,并将目标特征信息进行提取,且本发明通过标准RGB颜色空间16等级量化来表征目标颜色外观,考虑到目标中心区域重要性和目标外围点易受噪声影响,对不同位置像素点采用核函数方法赋予不同权重,通过将颜色和灰度图像边缘检测方法相结合来建立目标联合概率密度分布图。从而增加其鲁棒性,结合多目标结构化、多目标跟踪和基于特征的最优匹配方法,克服多目标运动交叠、部分遮挡、形变情况,实现对视频多目标的有效跟踪,具有速度快、效率高的优点,可广泛应用于实战中,能够创造一定的经济效益和使用价值。
具体的,在S1每一帧中,采用CAM Shift目标跟踪算法,CAM Shift目标跟踪算法用标准RGB颜色空间16等级量化来表征目标颜色外观,考虑到目标中心区域重要性和目标外围点易受噪声影响,对不同位置像素点采用核函数方法赋予不同权重,通过将颜色和灰度图像边缘检测方法相结合来建立目标联合概率密度分布图。
在本发明的具体实施例中,通过CAM Shift目标跟踪算法的设置,可以用标准RGB颜色空间16等级量化来表征目标颜色外观,从而提高了对患者模型的精准性。
具体的,S2特征提取中鉴别性的特征表示是目标跟踪的关键之一,根据目标的情况选择不同的特征表示,常用的特征采用深度特征,深度特征是通过大量的训练样本学习出来的特征,利用深度特征的跟踪方法通常很轻松就能获得一个不错的效果在跟踪任务中,良好的特征表达不仅需要刻画候选目标丰富的、鲁棒的、具有(旋转、形变和光照)不变性的外观表达,颜色直方图的统计特性使得这类算法可以更加鲁棒地处理目标形变,深度相关滤波器算法普遍地采用多层CNN特征,将特征提取网络和相关滤波器进行联合训练,使得深度特征更加适合于相关滤波算法,相关滤波器的建模方式被广泛地应用于跟踪框架中,基于分类网络的跟踪器(如MDNet、VITAL)主要采用VGG-M网络进行特征提取并在线地训练全连接层进行样本分类,且CAM Shift目标跟踪算法采用ResNet-50网络。
在本发明的具体实施例中,通过深度特征的设置,可以通过大量的训练样本学习出来的特征,利用深度特征的跟踪方法通常很轻松就能获得一个不错的效果在跟踪任务中,良好的特征表达不仅需要刻画候选目标丰富的、鲁棒的、具有不变性的外观表达。
具体的,S3中常见的生成式跟踪框架包含稀疏表达和子空间学习,判别式跟踪器同时考虑前景信息和背景信息,以学习到具有区分为的判别式模型,判别式跟踪器包括随机森林分类器、SVM跟踪器和相关滤波器,生成式模型基于子空间学习的跟踪算法,生成式模型算法的核心思想在于将特征从高维到低维进行映射,从而构造一系列子空间对目标外观进行建模,进一步计算候选样本在子空间下的重构误差或相似性以挑选出最可能的目标,判别式模型基于SVM的跟踪算法通过SVM学习的分类器模型来区分正负样本,相关滤波器的跟踪算法通过学习一个具有区分为的滤波器来处理待跟踪图片,其输出结果为一个响应图,表示目标在后续帧中不同位置的置信度,相关滤波器通过利用循环样本和循环矩阵的性质求解岭回归问题,将不同层的深度特征分别训练相关滤波器并进行由粗到精(coarse to fine)的融合,得到了频域上的高效闭合解,随后使用交替方向乘子法进行优化。
在本发明的具体实施例中,通过判别式模型基于SVM的跟踪算法的设置,可以通过SVM学习的分类器模型来区分正负样本,从而更好地对区分后的正负样本进行分析和对比。
具体的,在S4中由于目标遮挡、形变、跟踪漂移因素,跟踪过程中收集的受污染正样本可能导致模型退化,基于SVM的跟踪算法通过挖掘困难负样本(hard negativemining)来增强算法的鲁棒性,并且通过设计损失函数来抑制冗余的负样本,为了更好地适应目标外观变化,基于SVM的跟踪算法利用LSTM(Long Short Term Memory)结构挖掘历史帧的模板信息以更新当前帧的模板,训练一个独立的卷积网络并利用历史模板在下一帧预测一个最优的模板特征,基于SVM的跟踪算法通过梯度信息更新模板,一定程度上可以抑制模板中的背景信息。
在本发明的具体实施例中,通过SVM的跟踪算法利用LSTM结构挖掘历史帧的模板信息以更新当前帧的模板,训练一个独立的卷积网络并利用历史模板在下一帧预测一个最优的模板特征,从而提高了该方法的准确性。
具体的,在S2特征提取中该深度跟踪网络包含一系列卷积层以提取候选样本的鲁棒特征表达,并通过后续的全连接层对样本进行二分类,该方法使用分类式网络进行目标跟踪,该视频中的目标可能成为其他视频中的背景物体,引入了多数据域的训练框架,对搜索区域进行共享特征提取,然后再使用ROI-Align裁剪出候选样本特征,使得精度仅有轻微影响的情况下跟踪速度提高2.5倍以上。
在本发明的具体实施例中,通过深度跟踪网络的设置,可以对样本进行分类,从而实现同时对多个目标进行跟踪。
具体的,S2中RGB颜色空间表征目标颜色提取的方法:初始化时建立目标颜色模型(比如脸的颜色、手臂颜色和皮肤颜色),在后继视频图像中用Sobel边缘检测算子对图像进行边缘检测,由边缘和颜色特征获得不同权重的联合概率密度分布图。
在本发明的具体实施例中,通过S2中RGB颜色空间表征目标颜色提取的设置,可以提高对目标识别的精准性,从而更好地对目标进行辨别。
具体的,S5中跟踪数据集对于遮挡的解决方法:利用检测机制判断目标是否被遮挡,从而决定是否更新模板,保证模板对遮挡的鲁棒性,把目标分成多个块,利用没有被遮挡的块进行有效地跟踪。对于目标被完全遮挡的情况,当前也并没有有效的方法能够完全解决;
S5中视频跟踪数据集对于形变的解决发方法:更新目标的表观模型,使其适应表观的变化;
S5中视频跟踪数据集对于背景杂斑的解决发方法:利用目标的运动信息,预测运动的大致轨迹,防止跟踪器跟踪到相似的其他目标上,或是利用目标周围的大量样本框对分类器进行更新训练,提高分类器对背景与目标的辨别能力;
S5中视频跟踪数据集对于尺度变换的解决发方法:在运动模型产生候选样本的时候,生成大量尺度大小不一的候选框,或是在多个不同尺度目标上进行目标跟踪,产生多个预测结果,选择其中最优的作为最后的预测目标。
S5中视频跟踪数据集对于运动模糊的解决发方法:指目标或摄像机的运动导致的目标区域变模糊,导致跟踪效果不佳。常用均值偏移跟踪方法来进行跟踪,无需去模糊,利用从运动模糊中得到的信息,就能够完成跟踪目标。
S5中视频跟踪数据集对于光照的解决发方法:将S2中RGB颜色空间获取的RGB颜色信息与纹理信息以置信度相融合方法来抑制阴影,提高运动目标跟踪在光照变换情况下的鲁棒性;
S5中视频跟踪数据集对于旋转的解决发方法:在跟踪模块引入仿射变换,仿射变换能够根据变换的自由度参数旋转变换坐标系的位置或目标的边界框,实现准确的目标跟踪。
S5中视频跟踪数据集对于快速运动的解决发方法:采用时间差分的方法将运动目标从背景中提取出来,再根据连通区域分析法来确定每个目标块的具体位置,最后通过区域对应和基于颜色的最小欧氏距离的方法画出每个目标的运动轨迹。
S5中视频跟踪数据集对于超出视野的解决发方法:通过引入一个检测器(TLD算法提出跟踪和检测是可以互相促进的),用于在跟踪失败时的补充,跟踪为检测器提供正样本,检测器在跟踪失败时重新初始化跟踪器。使得跟踪鲁棒性增强。
S5中视频跟踪数据集对于低分辨率的解决发方法:采用非负矩阵分解的方法来建立目标模型,通过非负矩阵分解迭代计算提取目标重要轮廓信息,以一个字典矩阵的形式表示目标,进而完成跟踪。
在本发明的具体实施例中,通过S5中视频跟踪数据集对不同情况处理的介绍,使得该方法可以应对多种特殊情况,从而增加了该方法的实用性。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其改进构思加以等同替换或改变,都应涵盖在本发明的保护范围内。
Claims (8)
1.一种用于目标人物的跟踪方法,其特征在于,包括:
S1、运动模型建立:运动模型主要对目标在视频中的运动轨迹进行建模和估计,生成候选样本的速度与质量直接决定了跟踪系统表现的优劣;
S2、特征提取:依据运动模型确定当前帧的目标搜索范围后,接下来需要对候选区域或候选样本进行特征提取;
S3、观测模型:根据观测模型的不同,跟踪算法大体上可以分为生成式和判别式跟踪器,生成式模型仅仅使用前景的目标信息来构造跟踪模型,通过衡量候选样本的重构误差或相似性来挑选最优样本;
S4、模型更新:稀疏表达跟踪器利用新收集的正样本来更新稀疏字典;基于SVM的跟踪算法使用后续帧中收集的正、负样本来更新决策平面,相关滤波器将后续桢中得到的滤波器以指数型滑动平均的策略更新初始滤波器;基于分类网络的跟踪器不断收集新的正、负样本来在线微调分类网络;
S5、跟踪数据集更新:跟踪数据集包含OTB-2013和OTB-2015两个版本。其中OTB-2013包含51个以往跟踪领域的常用测试视频,该数据集及评价标准为跟踪算法提供了统一的测试与评估环境,OTB-2015数据集是OTB-2013的扩充,共包含100个挑战性视频,该数据集还对视频标出了遮挡、形变、快速运动、光照变化、模糊10个视频属性,便于分析跟踪器应对不同场景的能力;
S6、人脸锁定:根据S4和S5对患者人脸进行多次取样后对患者人脸进行跟踪。
2.根据权利要求1所述的一种用于目标人物的跟踪方法,其特征在于,在所述S1每一帧中,采用CAM Shift目标跟踪算法,所述CAM Shift目标跟踪算法用标准RGB颜色空间16等级量化来表征目标颜色外观,考虑到目标中心区域重要性和目标外围点易受噪声影响,对不同位置像素点采用核函数方法赋予不同权重,通过将颜色和灰度图像边缘检测方法相结合来建立目标联合概率密度分布图。
3.根据权利要求1所述的一种用于目标人物的跟踪方法,其特征在于,所述S2特征提取中鉴别性的特征表示是目标跟踪的关键之一,根据目标的情况选择不同的特征表示,常用的特征采用深度特征,所述深度特征是通过大量的训练样本学习出来的特征,利用深度特征的跟踪方法通常很轻松就能获得一个不错的效果在跟踪任务中,良好的特征表达不仅需要刻画候选目标丰富的、鲁棒的、具有(旋转、形变和光照)不变性的外观表达,颜色直方图的统计特性使得这类算法可以更加鲁棒地处理目标形变,深度相关滤波器算法普遍地采用多层CNN特征,将特征提取网络和相关滤波器进行联合训练,使得深度特征更加适合于相关滤波算法,相关滤波器的建模方式被广泛地应用于跟踪框架中,基于分类网络的跟踪器(如MDNet、VITAL)主要采用VGG-M网络进行特征提取并在线地训练全连接层进行样本分类,且所述CAM Shift目标跟踪算法采用ResNet-50网络。
4.根据权利要求1所述的一种用于目标人物的跟踪方法,其特征在于,所述S3中常见的生成式跟踪框架包含稀疏表达和子空间学习,所述判别式跟踪器同时考虑前景信息和背景信息,以学习到具有区分为的判别式模型,所述判别式跟踪器包括随机森林分类器、SVM跟踪器和相关滤波器,所述生成式模型基于子空间学习的跟踪算法,所述生成式模型算法的核心思想在于将特征从高维到低维进行映射,从而构造一系列子空间对目标外观进行建模,进一步计算候选样本在子空间下的重构误差或相似性以挑选出最可能的目标,所述判别式模型基于SVM的跟踪算法通过SVM学习的分类器模型来区分正负样本,所述相关滤波器的跟踪算法通过学习一个具有区分为的滤波器来处理待跟踪图片,其输出结果为一个响应图,表示目标在后续帧中不同位置的置信度,所述相关滤波器通过利用循环样本和循环矩阵的性质求解岭回归问题,将不同层的深度特征分别训练相关滤波器并进行由粗到精(coarse to fine)的融合,得到了频域上的高效闭合解,随后使用交替方向乘子法进行优化。
5.根据权利要求1所述的一种用于目标人物的跟踪方法,其特征在于,在S4中由于目标遮挡、形变、跟踪漂移因素,跟踪过程中收集的受污染正样本可能导致模型退化,所述基于SVM的跟踪算法通过挖掘困难负样本(hard negative mining)来增强算法的鲁棒性,并且通过设计损失函数来抑制冗余的负样本,为了更好地适应目标外观变化,所述基于SVM的跟踪算法利用LSTM(Long Short Term Memory)结构挖掘历史帧的模板信息以更新当前帧的模板,训练一个独立的卷积网络并利用历史模板在下一帧预测一个最优的模板特征,所述基于SVM的跟踪算法通过梯度信息更新模板,一定程度上可以抑制模板中的背景信息。
6.根据权利要求1所述的一种用于目标人物的跟踪方法,其特征在于,在S2特征提取中该深度跟踪网络包含一系列卷积层以提取候选样本的鲁棒特征表达,并通过后续的全连接层对样本进行二分类,该方法使用分类式网络进行目标跟踪,该视频中的目标可能成为其他视频中的背景物体,引入了多数据域的训练框架,对搜索区域进行共享特征提取,然后再使用ROI-Align裁剪出候选样本特征,使得精度仅有轻微影响的情况下跟踪速度提高2.5倍以上。
7.根据权利要求1所述的一种用于目标人物的跟踪方法,其特征在于,所述S2中RGB颜色空间表征目标颜色提取的方法:初始化时建立目标颜色模型(比如脸的颜色、手臂颜色和皮肤颜色),在后继视频图像中用Sobel边缘检测算子对图像进行边缘检测,由边缘和颜色特征获得不同权重的联合概率密度分布图。
8.根据权利要求1所述的一种用于目标人物的跟踪方法,其特征在于,所述S5中跟踪数据集对于遮挡的解决方法:利用检测机制判断目标是否被遮挡,从而决定是否更新模板,保证模板对遮挡的鲁棒性,把目标分成多个块,利用没有被遮挡的块进行有效地跟踪。对于目标被完全遮挡的情况,当前也并没有有效的方法能够完全解决;
所述S5中视频跟踪数据集对于形变的解决发方法:更新目标的表观模型,使其适应表观的变化;
所述S5中视频跟踪数据集对于背景杂斑的解决发方法:利用目标的运动信息,预测运动的大致轨迹,防止跟踪器跟踪到相似的其他目标上,或是利用目标周围的大量样本框对分类器进行更新训练,提高分类器对背景与目标的辨别能力;
所述S5中视频跟踪数据集对于尺度变换的解决发方法:在运动模型产生候选样本的时候,生成大量尺度大小不一的候选框,或是在多个不同尺度目标上进行目标跟踪,产生多个预测结果,选择其中最优的作为最后的预测目标。
所述S5中视频跟踪数据集对于运动模糊的解决发方法:指目标或摄像机的运动导致的目标区域变模糊,导致跟踪效果不佳。常用均值偏移跟踪方法来进行跟踪,无需去模糊,利用从运动模糊中得到的信息,就能够完成跟踪目标。
所述S5中视频跟踪数据集对于光照的解决发方法:将S2中RGB颜色空间获取的RGB颜色信息与纹理信息以置信度相融合方法来抑制阴影,提高运动目标跟踪在光照变换情况下的鲁棒性;
所述S5中视频跟踪数据集对于旋转的解决发方法:在跟踪模块引入仿射变换,仿射变换能够根据变换的自由度参数旋转变换坐标系的位置或目标的边界框,实现准确的目标跟踪。
所述S5中视频跟踪数据集对于快速运动的解决发方法:采用时间差分的方法将运动目标从背景中提取出来,再根据连通区域分析法来确定每个目标块的具体位置,最后通过区域对应和基于颜色的最小欧氏距离的方法画出每个目标的运动轨迹。
所述S5中视频跟踪数据集对于超出视野的解决发方法:通过引入一个检测器(TLD算法提出跟踪和检测是可以互相促进的),用于在跟踪失败时的补充,跟踪为检测器提供正样本,检测器在跟踪失败时重新初始化跟踪器。使得跟踪鲁棒性增强。
所述S5中视频跟踪数据集对于低分辨率的解决发方法:采用非负矩阵分解的方法来建立目标模型,通过非负矩阵分解迭代计算提取目标重要轮廓信息,以一个字典矩阵的形式表示目标,进而完成跟踪。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211008836.7A CN115457079A (zh) | 2022-08-22 | 2022-08-22 | 一种用于目标人物的跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211008836.7A CN115457079A (zh) | 2022-08-22 | 2022-08-22 | 一种用于目标人物的跟踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115457079A true CN115457079A (zh) | 2022-12-09 |
Family
ID=84297887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211008836.7A Withdrawn CN115457079A (zh) | 2022-08-22 | 2022-08-22 | 一种用于目标人物的跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115457079A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118379331A (zh) * | 2024-06-24 | 2024-07-23 | 南京卓宇智能科技有限公司 | 复杂背景下地面目标稳定跟踪算法 |
-
2022
- 2022-08-22 CN CN202211008836.7A patent/CN115457079A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118379331A (zh) * | 2024-06-24 | 2024-07-23 | 南京卓宇智能科技有限公司 | 复杂背景下地面目标稳定跟踪算法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xu et al. | Detecting tiny objects in aerial images: A normalized Wasserstein distance and a new benchmark | |
Basalamah et al. | Scale driven convolutional neural network model for people counting and localization in crowd scenes | |
CN108470332B (zh) | 一种多目标跟踪方法及装置 | |
Dang et al. | A Feature Matching Method based on the Convolutional Neural Network. | |
CN108470354A (zh) | 视频目标跟踪方法、装置和实现装置 | |
CN104200495A (zh) | 一种视频监控中的多目标跟踪方法 | |
CN107424171A (zh) | 一种基于分块的抗遮挡目标跟踪方法 | |
CN106815323B (zh) | 一种基于显著性检测的跨域视觉检索方法 | |
CN111460976B (zh) | 一种数据驱动的基于rgb视频的实时手部动作评估方法 | |
CN110472081B (zh) | 一种基于度量学习的鞋图片跨域检索方法 | |
CN112085765A (zh) | 结合粒子滤波及度量学习的视频目标跟踪方法 | |
Li et al. | Robust object tracking with discrete graph-based multiple experts | |
CN117541994A (zh) | 一种密集多人场景下的异常行为检测模型及检测方法 | |
CN114861761A (zh) | 一种基于孪生网络特征与几何验证的回环检测方法 | |
Huang et al. | Tracking-by-detection of 3d human shapes: from surfaces to volumes | |
Kanaujia et al. | Part segmentation of visual hull for 3d human pose estimation | |
CN115457079A (zh) | 一种用于目标人物的跟踪方法 | |
CN110910497A (zh) | 实现增强现实地图的方法和系统 | |
CN114627156A (zh) | 消费级无人机视频运动目标精准追踪方法 | |
CN106023256A (zh) | 面向增强现实辅助维修系统平面目标粒子滤波跟踪的状态观测方法 | |
CN114743257A (zh) | 图像目标行为的检测识别方法 | |
Moridvaisi et al. | An extended KCF tracking algorithm based on TLD structure in low frame rate videos | |
Yang | Face feature tracking algorithm of aerobics athletes based on Kalman filter and mean shift | |
CN112183215B (zh) | 一种结合多特征级联svm与人眼模板的人眼定位方法及系统 | |
Liu et al. | [Retracted] Mean Shift Fusion Color Histogram Algorithm for Nonrigid Complex Target Tracking in Sports Video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20221209 |
|
WW01 | Invention patent application withdrawn after publication |