CN109584270A - 基于判别字典学习的视觉跟踪方法 - Google Patents
基于判别字典学习的视觉跟踪方法 Download PDFInfo
- Publication number
- CN109584270A CN109584270A CN201811345623.7A CN201811345623A CN109584270A CN 109584270 A CN109584270 A CN 109584270A CN 201811345623 A CN201811345623 A CN 201811345623A CN 109584270 A CN109584270 A CN 109584270A
- Authority
- CN
- China
- Prior art keywords
- dictionary
- target
- formula
- matrix
- indicate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/513—Sparse representations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉领域,具体涉及复杂背景及遮挡等问题下,基于判别字典学习的目标跟踪方法,首先根据目标在时间及空间的局部相关性获取目标及背景样本,然后基于稀疏表示建立字典学习模型,使用误差项捕获遮挡等产生的异常值,并利用非凸MCP函数惩罚稀疏编码矩阵和误差矩阵,且对字典施加不一致约束项以提高字典鲁棒性和判别性;利用MM‑IALM优化方法求解所提非凸字典学习模型以获得较好收敛性;由所得字典计算候选目标重构误差以构建目标观测模型,并基于贝叶斯推理框架实现目标的精确跟踪。仿真结果表明,与现有主流算法相比,本发明在光照变化、尺度变化、遮挡及背景杂波等环境下具有较高跟踪精度及鲁棒性。
Description
技术领域
本发明属于计算机视觉领域,具体涉及复杂背景及遮挡等问题下,基于判别字典学习视觉跟踪方法。
背景技术
目标跟踪是计算机视觉领域具有挑战性的研究方向之一,其在视频监控、自动驾驶、人机交互等方面具有广泛应用。近年来,视觉跟踪方法取得显著进步,许多高效、鲁棒的跟踪算法被提出。然而,许多具有挑战性的问题仍未得到有效解决,如光照变化、尺度变化、遮挡及背景杂波等问题,从而导致跟踪算法性能显著下降。因此,如何提高跟踪算法性能是视觉跟踪领域的研究热点。
针对上述问题,Mei等提出基于稀疏表示的视觉跟踪方法,其利用目标及单位模板重构候选目标以减轻遮挡和噪声等对目标跟踪的影响。然而,该方法直接利用当前跟踪结果替换与其相似度最低的模板,从而使外界干扰信息易被更新到模板,进而导致模板漂移。针对此问题,Wang等提出用于模板更新的在线非负字典学习方法,其将最近获得的跟踪结果融合以产生更鲁棒的模板,进而利用该模板实现目标的精确跟踪。然而,当存在较为复杂的背景杂波时,该算法难以有效区分目标与相似背景。针对此问题,Yang等提出基于稀疏表示和判别字典学习的跟踪算法,该算法将字典原子与标签信息关联以学习具有判别能力的字典,从而能有效区分目标和背景。然而,该方法分别从目标区域及远离目标的区域选择目标及背景样本,没有考虑目标与背景的空间局部相关性,其所学字典不足以表示候选目标,且字典判别能力较差。针对此问题,Xie等对目标及邻近背景的外观信息编码,利用样本训练线性判别模型提高判别能力,并利用改进的关键点匹配模式改善跟踪性能。然而,在目标及邻近背景位置选取的样本存在某些共同特征,即所学目标及背景字典具有共同原子,从而导致字典的判别能力显著降低。针对此问题,Liu等提出基于多类判别字典的跟踪方法,其同时利用类内信息和类间相关性学习类内和共享字典,并对字典施加正交性约束,使所学字典具有较强判别能力。然而,该算法未考虑遮挡或噪声等干扰,使其易受异常值影响而导致跟踪漂移。针对此问题,Sui等构造子空间表示目标和邻近背景,并提出一种判别准则以提高字典判别能力。此外,该方法使用稀疏误差项补偿损坏样本以提高算法对遮挡或噪声等的鲁棒性。然而,该方法使用有偏的范数惩罚误差矩阵,其可能过度惩罚较大变量而导致优化问题取得次优,进而影响目标跟踪精度。针对此问题,Li等利用近乎无偏的矩阵MCP(Minimax Concave Plus)函数惩罚误差矩阵,其能够克服范数对误差矩阵不平衡惩罚的缺点,从而得到比现有凸方法更加鲁棒和稀疏的表示。然而,该非凸约束方法并没有被有效地应用于视觉跟踪领域。
发明内容
针对视觉跟踪领域存在的上述问题,本发明提出一种基于判别字典学习的目标跟踪方法,该方法包括如下步骤:
1.初始化
在第一帧中手动选择一个矩形区域获得目标,用l(x,y)*表示所得矩形区域中心,在范围内采样获得q1个图像块作为目标样本,其中li表示第i个图像块的中心,r表示圆形区域半径。同样地,在范围内采样获得q2个图像块作为背景样本,其中lj表示第j个图像块的中心,R表示外环半径。随机挑选若干目标及背景样本分别组成初始目标及背景字典。利用随机正态分布初始化稀疏编码矩阵和辅助矩阵,并分别初始化误差矩阵和拉格朗日乘子为0。
2.判别字典学习模型
给定训练样本集其中d表示各训练样本的特征维度,qi表示第i类训练样本集的数量。根据训练样本集学习得到字典其中,ki表示第i类字典的原子数量。为第i类训练样本集Xi在字典Di上的编码系数矩阵。不同于传统判别字典学习模型学习整个字典,本发明对目标及背景样本独立学习得到目标及背景字典。
基于稀疏表示理论,字典Di可较好表示训练样本Xi,即Xi≈DiCi,则基本的字典学习模型如下:
其中,||·||F为Frobenius范数算子,||·||0为矩阵范数算子,α为正则化参数。
由于训练样本取自测试序列,而测试序列中难免存在遮挡或噪声等问题,这将导致当前训练样本中存在异常值,进而降低字典学习算法鲁棒性。针对此问题,本发明在字典学习模型中加入误差项以捕捉遮挡或噪声等产生的异常值,从而提高字典学习算法鲁棒性,即:
其中Pi表示误差矩阵,β为正则化参数。
式(2)中范数优化问题为NP-hard问题,通常使用范数松弛处理。然而,范数为有偏估计量,其可能对较大的变量过度惩罚。针对此问题,本发明采用非凸MCP函数代替范数以获得近乎无偏估计,其可得到比现有凸方法更加稀疏的表示。下面给出MCP函数的定义:
设向量当υ>0,γ>1,MCP惩罚函数表示如下:
其中,(z)+=max{z,0}。设A为矩阵,将矢量MCP函数扩展到矩阵形式,表示如下:
Mυ,γ(A)=∑mnJυ,γ(Amn) (4)
简单起见,令Jγ(A)=J1,γ(A),Mγ(A)=M1,γ(A),则当γ→∞时,Jγ(A)→|A|,其为对应范数的软阈值算子,当γ→1时,其是对应范数的硬阈值算子,设γ∈(1,∞)。
利用MCP函数代替式(2)中范数,则字典学习模型可表示如下:
本发明独立学习目标及背景字典,但学习的目标及背景字典中可能存在一些具有共同特征的原子。然而,这些原子无任何判别能力且使得字典冗余,从而导致字典判别能力下降,此外,减少字典原子间的一致性有助于提高稀疏表示的有效性。针对此问题,可在字典学习模型中施加字典不一致约束项使学习到的目标及背景字典更具独立性以提高字典判别能力。
综上所述,判别字典学习模型构建如下:
其中,i,j=1,2,j≠i,λ为正则化参数。
3.模型优化方法
本发明利用MM-IALM方法求解目标函数,其可看作MM方法的特例。MM方法是一种迭代优化方法,每次迭代逼近原非凸目标函数得到一上界函数并求其最小值,多次迭代求解结果可逼近原目标函数最优解。
MM-IALM优化方法包含内环和外环。每次迭代中,外环使用局部线性近逼近原非凸问题将其转化为加权凸优化问题。内环用IALM方法交替求解该凸优化问题的各个变量以将其最小化。为便于表述,给定可微凹函数f(x)∈(0,+∞),令f(x|xt)=f(xt)+f′(x)(x-xt)为其一阶泰勒展开式,则f(x)≤f(x|xt),当且仅当x=xt时取等号,且当t>1时,f(xt+1)≤f(xt)。
给出详细优化过程前,需引入广义收缩算子Dτ,W(H)。对于τ≥0,γ>1,矩阵A,H,Aold和有:
Dτ,W(H)=sign(Hmn)(|Hmn|-τWmn)+ (7)
其可看作式(8)的闭环解:
给定Aold,则式(8)中Qγ(A|Aold)即为Mγ(A)的局部线性近似,可表示为:
基于以上MM-IALM算法,本发明给出所提非凸判别字典优化问题的求解方法,如下所述:
外环:为减少计算量,本发明采用一步LLA方法,即只运行外环一次,而非等待收敛或达到最大迭代次数。
基于式(9),利用代理函数及分别替代Mγ(Ci)和Mγ(Pi)得到式(10)的上界函数:
注意到问题(10)中第一个约束项关于Di和Ci乘积耦合,为利用形如式(7)的闭环解求解变量Ci,需引入辅助优化变量Bi=Ci,则式(10)等价为:
利用拉格朗日乘子法将约束优化问题(11)转化为无约束优化问题,则目标函数可写为:
其中,Vi为拉格朗日乘子,μi>0为惩罚参数。
内环:在第q+1次迭代中,按如下顺序交替更新各变量:
固定其余变量,求解:
已知式(7)为问题(8)的解,则式(13)的解可表示为:
固定其余变量,求解Ci:
式(15)为凸问题,由矩阵微分可知:
为求解最优Ci,令d f(Ci)=0,由式(16)可得:
固定其余变量,求解Pi:
已知式(7)为问题(8)的解,则式(18)的解可表示为:
固定其余变量,求解Di:
式(20)为凸问题,由矩阵微分可知:
为求解最优Di,令d f(Di)=0,由式(21)可得:
更新Vi和μ1:
4.基于贝叶斯推理的目标跟踪框架
令仿射参数zt={lx,ly,ν,s,ψ,φ}表示目标状态,其中lx,ly,ν,s,ψ,φ分别表示水平位移、垂直位移、水平尺度因子、旋转角度、宽高比例和扭曲角。在第t帧给定一组观测图像y1:t={y1,y2,…,yt},目标状态变量zt可通过最大后验估计计算:
基于马尔科夫假设,后验概率p(zt|y1:t)可利用贝叶斯定理递归推导,即:
p(zt|y1:t)∝p(yt|zt)∫p(zt|zt-1)p(zt-1|y1:t-1)dzt-1 (25)
其中,p(yt|zt)为状态zt下yt的观测模型。p(zt|zt-1)表示两个连续状态间的运动模型。假设状态变量相互独立,利用高斯分布对两个连续帧间的目标运动模型建模如下:
p(zt|zt-1)=N(zt;zt-1,∑) (26)
其中,N(zt;zt-1,∑)表示zt服从均值和方差分别为zt-1和∑的高斯分布,为对角协方差矩阵,其元素表示各仿射参数的方差。
5.目标观测模型
对于当前候选目标集Y,需解决如下优化问题:
其中,Ci表示利用字典Di表示候选目标集Y所得稀疏编码矩阵,Pi表示对应误差项,β1为正则化参数。
问题(27)的求解方法同问题(6),此处不再详述。根据问题(27)求解所得最优稀疏系数矩阵可知,较相关的候选目标应被目标字典较好表示,即相应重构误差较小,其中,表示对应D1的稀疏系数向量。同时,该候选目标应不易被背景字典表示,即相应重构误差较大,其中,表示对应D2的稀疏系数向量。则目标观测模型可构造为:
其中,σ为常数,δ为避免分母为零的约束因子。根据式(28)可估计各候选目标的后验概率。将所得p(yt|zt)代入式(25),并通过式(24)可得目标状态最优估计,从而实现目标精确追踪。
6.字典更新
为确保所提方法能适应目标外观变化,定时在线更新字典Di。由于目标在第一帧中手动选择,因此首帧目标始终真实,本发明在整个字典学习过程中始终保留首帧获取的训练样本集X1以缓解漂移问题。为获得更具鲁棒性和判别性的字典,算法从连续T帧中收集目标及背景样本,并设置样本池Xtrain和临时样本池Xtemp,Xtemp={Xt-T+1,Xt-T+2,…,Xt}表示从前T帧收集的所有训练样本,Xt表示根据第t帧跟踪结果收集的训练样本,从而得到一个样本池Xtrain={X1,Xtemp}。使用样本池Xtrain即可学得新字典Di以用于跟踪下一帧中的目标。学得字典后需清空Xtemp以用于收集新的训练样本。
样本收集过程中,当样本积累到Xtemp中时,跟踪结果可能包含遮挡或噪声等干扰,若跟踪器确定的目标最优位置的评估值大于重构误差阈值θ,则跟踪结果不可靠,跳过此帧以避免引入噪声,否则将该帧所得样本积累到Xtemp中。当某一帧被跳过时,若临时样本池未收集完毕,则不更新字典。
与现有技术相比本发明具备以下有益效果:
第一,本发明考虑目标时空局部相关性,时间局部相关表明目标之间时域上具有显著局部相关性,空间局部相关表明背景与目标的空间距离越近,目标与背景的相关性越强。
第二,本发明采用非凸MCP函数惩罚稀疏编码矩阵和误差矩阵以获得近乎无偏估计,达到比现有凸方法更加稀疏的表示,从而获得更高跟踪精度。
第三,针对目标及背景字典中具有共同特征的原子,本发明在判别字典学习模型中施加字典不一致约束项,使得目标及背景字典更具独立性,从而提高字典的判别能力。
第四,针对遮挡或噪声等问题,本发明在字典学习模型中加入误差项以进一步提高算法鲁棒性和精度。
附图说明
图1是本发明实现流程图;
图2是判别字典学习的视觉跟踪框架;
图3是不同算法的跟踪结果对比。
具体实施方式
以下结合附图和具体的实施方式对本发明的实现步骤做进一步详细描述。如图1所示为本发明的流程图。包括如下步骤:
1.初始化
在第一帧中手动选择一个矩形区域获得目标,用l(x,y)*表示所得矩形区域中心,在范围内采样获得q1个图像块作为目标样本,其中li表示第i个图像块的中心,r表示圆形区域半径。同样地,在范围内采样获得q2个图像块作为背景样本,其中lj表示第j个图像块的中心,R表示外环半径。随机挑选若干目标及背景样本分别组成初始目标及背景字典。利用随机正态分布初始化稀疏编码矩阵和辅助矩阵,并分别初始化误差矩阵和拉格朗日乘子为0。
2.判别字典学习模型
给定训练样本集其中d表示各训练样本的特征维度,qi表示第i类训练样本集的数量。根据训练样本集学习得到字典其中,ki表示第i类字典的原子数量。为第i类训练样本集Xi在字典Di上的编码系数矩阵。不同于传统判别字典学习模型学习整个字典,本发明对目标及背景样本独立学习得到目标及背景字典。
基于稀疏表示理论,字典Di可较好表示训练样本Xi,即Xi≈DiCi,则基本的字典学习模型如下:
其中,||·||F为Frobenius范数算子,||·||0为矩阵范数算子,α为正则化参数。
由于训练样本取自测试序列,而测试序列中难免存在遮挡或噪声等问题,这将导致当前训练样本中存在异常值,进而降低字典学习算法鲁棒性。针对此问题,本发明在字典学习模型中加入误差项以捕捉遮挡或噪声等产生的异常值,从而提高字典学习算法鲁棒性,即:
其中Pi表示误差矩阵,β为正则化参数。
式(30)中范数优化问题为NP-hard问题,通常使用范数松弛处理。然而,范数为有偏估计量,其可能对较大的变量过度惩罚。针对此问题,本发明采用非凸MCP函数代替范数以获得近乎无偏估计,其可得到比现有凸方法更加稀疏的表示。下面给出MCP函数的定义:
设向量当υ>0,γ>1,MCP惩罚函数表示如下:
其中,(z)+=max{z,0}。设A为矩阵,将矢量MCP函数扩展到矩阵形式,表示如下:
Mυ,γ(A)=∑mnJυ,γ(Amn) (32)
简单起见,令Jγ(A)=J1,γ(A),Mγ(A)=M1,γ(A),则当γ→∞时,Jγ(A)→|A|,其为对应范数的软阈值算子,当γ→1时,其是对应范数的硬阈值算子,设γ∈(1,∞)。
利用MCP函数代替式(30)中范数,则字典学习模型可表示如下:
本发明独立学习目标及背景字典,但学习的目标及背景字典中可能存在一些具有共同特征的原子。然而,这些原子无任何判别能力且使得字典冗余,从而导致字典判别能力下降,此外,减少字典原子间的一致性有助于提高稀疏表示的有效性。针对此问题,可在字典学习模型中施加字典不一致约束项使学习到的目标及背景字典更具独立性以提高字典判别能力。
综上所述,判别字典学习模型构建如下:
其中,i,j=1,2,j≠i,λ为正则化参数。
3.模型优化方法
本发明利用MM-IALM方法求解目标函数,其可看作MM方法的特例。MM方法是一种迭代优化方法,每次迭代逼近原非凸目标函数得到一上界函数并求其最小值,多次迭代求解结果可逼近原目标函数最优解。
MM-IALM优化方法包含内环和外环。每次迭代中,外环使用局部线性近逼近原非凸问题将其转化为加权凸优化问题。内环用IALM方法交替求解该凸优化问题的各个变量以将其最小化。为便于表述,给定可微凹函数f(x)∈(0,+∞),令f(x|xt)=f(xt)+f′(x)(x-xt)为其一阶泰勒展开式,则f(x)≤f(x|xt),当且仅当x=xt时取等号,且当t>1时,f(xt+1)≤f(xt)。
给出详细优化过程前,需引入广义收缩算子Dτ,W(H)。对于τ≥0,γ>1,矩阵A,H,Aold和有:
Dτ,W(H)=sign(Hmn)(|Hmn|-τWmn)+ (35)
其可看作式(36)的闭环解:
给定Aold,则式(36)中Qγ(A|Aold)即为Mγ(A)的局部线性近似,可表示为:
基于以上MM-IALM算法,本发明给出所提非凸判别字典优化问题的求解方法,如下所述:
外环:为减少计算量,本发明采用一步LLA方法,即只运行外环一次,而非等待收敛或达到最大迭代次数。
基于式(37),利用代理函数及分别替代Mγ(Ci)和Mγ(Pi)得到式(34)的上界函数:
注意到问题(38)中第一个约束项关于Di和Ci乘积耦合,为利用形如式(35)的闭环解求解变量Ci,需引入辅助优化变量Bi=Ci,则式(38)等价为:
利用拉格朗日乘子法将约束优化问题(39)转化为无约束优化问题,则目标函数可写为:
其中,Vi为拉格朗日乘子,μi>0为惩罚参数。
内环:在第q+1次迭代中,按如下顺序交替更新各变量:
固定其余变量,求解:
已知式(35)为问题(36)的解,则式(41)的解可表示为:
固定其余变量,求解Ci:
式(43)为凸问题,由矩阵微分可知:
为求解最优Ci,令d f(Ci)=0,由式(44)可得:
固定其余变量,求解Pi:
已知式(35)为问题(36)的解,则式(46)的解可表示为:
固定其余变量,求解Di:
式(48)为凸问题,由矩阵微分可知:
为求解最优Di,令d f(Di)=0,由式(49)可得:
更新Vi和μ1:
4.基于贝叶斯推理的目标跟踪框架
令仿射参数zt={lx,ly,ν,s,ψ,φ}表示目标状态,其中lx,ly,ν,s,ψ,φ分别表示水平位移、垂直位移、水平尺度因子、旋转角度、宽高比例和扭曲角。在第t帧给定一组观测图像y1:t={y1,y2,…,yt},目标状态变量zt可通过最大后验估计计算:
基于马尔科夫假设,后验概率p(zt|y1:t)可利用贝叶斯定理递归推导,即:
p(zt|y1:t)∝p(yt|zt)∫p(zt|zt-1)p(zt-1|y1:t-1)dzt-1 (53)
其中,p(yt|zt)为状态zt下yt的观测模型。p(zt|zt-1)表示两个连续状态间的运动模型。假设状态变量相互独立,利用高斯分布对两个连续帧间的目标运动模型建模如下:
p(zt|zt-1)=N(zt;zt-1,∑) (54)
其中,N(zt;zt-1,∑)表示zt服从均值和方差分别为zt-1和∑的高斯分布,为对角协方差矩阵,其元素表示各仿射参数的方差。
5.目标观测模型
对于当前候选目标集Y,需解决如下优化问题:
其中,Ci表示利用字典Di表示候选目标集Y所得稀疏编码矩阵,Pi表示对应误差项,β1为正则化参数。
问题(55)的求解方法同问题(34),此处不再详述。根据问题(55)求解所得最优稀疏系数矩阵可知,较相关的候选目标应被目标字典较好表示,即相应重构误差较小,其中,表示对应D1的稀疏系数向量。同时,该候选目标应不易被背景字典表示,即相应重构误差较大,其中,表示对应D2的稀疏系数向量。则目标观测模型可构造为:
其中,σ为常数,δ为避免分母为零的约束因子。根据式(56)可估计各候选目标的后验概率。将所得p(yt|zt)代入式(53),并通过式(52)可得目标状态最优估计,从而实现目标精确追踪。
6.字典更新
为确保所提方法能适应目标外观变化,定时在线更新字典Di。由于目标在第一帧中手动选择,因此首帧目标始终真实,本发明在整个字典学习过程中始终保留首帧获取的训练样本集X1以缓解漂移问题。为获得更具鲁棒性和判别性的字典,算法从连续T帧中收集目标及背景样本,并设置样本池Xtrain和临时样本池Xtemp,Xtemp={Xt-T+1,Xt-T+2,…,Xt}表示从前T帧收集的所有训练样本,Xt表示根据第t帧跟踪结果收集的训练样本,从而得到一个样本池Xtrain={X1,Xtemp}。使用样本池Xtrain即可学得新字典Di以用于跟踪下一帧中的目标。学得字典后需清空Xtemp以用于收集新的训练样本。
样本收集过程中,当样本积累到Xtemp中时,跟踪结果可能包含遮挡或噪声等干扰,若跟踪器确定的目标最优位置的评估值大于重构误差阈值θ,则跟踪结果不可靠,跳过此帧以避免引入噪声,否则将该帧所得样本积累到Xtemp中。当某一帧被跳过时,若临时样本池未收集完毕,则不更新字典。
本发明的方法的步骤可总结为:
(1)获取目标、背景及候选样本,并初始化矩阵及参数;
(2)构建判别字典学习模型,即
(3)利用MM-IALM方法求解所提非凸字典学习问题;
(4)基于所得字典对候选目标稀疏表示,得到稀疏编码矩阵;
(5)基于所得稀疏编码矩阵建立目标观测模型;
(6)基于贝叶斯推理目标跟踪框架实现目标精确追踪;
(7)根据所得跟踪结果更新字典,并用于下一帧目标跟踪。
本发明的效果可通过以下仿真进一步说明:
仿真条件:仿真软件;MATLAB R2017b,硬件环境:处理器为Intel Core(TM)i7-7700,主频为4GHz,内存为8GB。为验证所提算法性能,本发明在Wu等提出的目标跟踪基准中选取8个测试序列和4种主流跟踪算法进行对比实验。8个测试序列的信息如表1所示。
表1测试序列及其主要挑战
跟踪过程中,每帧收集600个候选粒子,每个图像块尺寸设为32×32,并利用灰度特征表示各图像块。在首帧中收集60个目标样本和100个背景样本作为训练集以初始化字典。然后每帧收集10个目标样本和60个背景样本组成临时样本库以更新字典,每个字典中原子数量设置为15,每10帧(即T=10)更新一次以学习新字典。跟踪器确定的目标最优位置评估值由评估,其中σ=2,δ=10-4。重构误差阈值θ=6,正则化参数α=β=β1=1,λ=2,ρ=1.2,γ=2,参数μi(max)=105,收敛阈值ξ=10-5。
仿真内容:
五种跟踪方法在8个测试序列上的平均中心位置误差和平均跟踪重叠率如表2所示。其中,用加粗字体标识最大平均跟踪重叠率和最小平均中心位置误差,用下划线标识次小值。下面由表2和附图3分析所提算法在光照变化、尺度变化、遮挡及背景杂波等挑战因素下的准确性。
表2不同跟踪方法的平均跟踪重叠率及平均中心位置误差
1)光照变化:由表1可知,序列Car1、Car2、Singer1、Faceocc2和Car4用于测试五种跟踪算法在光照变化下的跟踪效果。在图3(a)(e)(h)中,当测试序列发生频繁光照变化时,所提算法仍能稳定跟踪目标,说明所提算法在光照变化下具有较好鲁棒性,而四种对比算法则丢失目标或发生严重漂移。图3(e)(h)中,由于TLD算法加入重定位组件,在丢失目标一段时间后又重新定位目标,但仍未能精确定位目标。图3(f)中,测试序列发生剧烈光照变化,四种对比算法的跟踪目标框均不同程度超出真实目标大小。
2)尺度变化:由表1可知,序列Car1、Dudek、Walking2、Car2、Singer1和Car4用于测试五种跟踪算法在尺度变化下的跟踪效果。由图3相关测试序列可知,测试序列发生尺度变化时,所提算法能适应尺度变化,具有稳定跟踪效果,然而四种对比算法均丢失目标或发生严重漂移。其中,MIL和CT算法缺少尺度更新机制,随着目标尺度变化,目标外观模型产生冗余或错误,最终导致跟踪失败。在图3(d)的第387帧左右,LSK算法虽重新锁定目标,但跟踪目标框超出真实目标大小。与同类算法LSK相比,所提算法采用非凸MCP函数惩罚稀疏编码矩阵和误差矩阵以获得目标的无偏估计,从而获得较好跟踪精度。
3)遮挡:由表1可知,本发明选取序列Faceocc1、Dudek、Walking2、Singer1和Faceocc2用于测试五种跟踪算法在遮挡下的跟踪效果。由图3相关测试序列可知,当目标发生遮挡时,四种对比算法均发生不同程度漂移或跟踪目标框与真实目标大小不符。MIL算法因在遮挡时引入背景信息训练分类器,从而发生严重漂移。图3(b)中,LSK算法在不同时期的跟踪目标框大于或小于真实目标大小,在第551帧左右,TLD算法跟踪目标框明显缩小,在第783帧左右,MIL和CT算法发生严重漂移。图3(d)中,当目标被另一人遮挡时,四种对比算法均丢失目标。图3(g)中,TLD算法虽能跟踪目标,但跟踪目标框小于真实目标大小,且在第529帧,四种对比算法均发生不同程度漂移。然而,所提算法仍能稳定跟踪目标,其可归因于所提算法为解决目标遮挡和噪声等问题而加入的误差项。
4)背景杂波:由表1可知,本发明选取序列Car1、Dudek和Car2用于测试五种跟踪算法在背景杂波下的跟踪效果。由表2可知,在测试序列Car2中,只有所提算法与TLD的平均中心位置误差和平均跟踪重叠率较高。由图3相关测试序列可知,当目标处于背景杂波且伴随光照或尺度变化情况下,MIL、LSK和CT算法均发生不同程度漂移或丢失目标。例如,在图3(a)(e)中,目标驶入阴影区域后外观发生较大变化,且和周围背景有较大相似性,MIL、LSK和CT算法受到相似目标影响而发生漂移甚至丢失目标。然而,所提算法能稳定锁定目标,其主要原因在于所提算法不仅针对目标学习字典,还考虑目标周围的背景信息并学习字典,利用所得判别字典可有效减轻相似背景干扰。
本发明提出的一种基于判别字典学习的目标跟踪方法。该方法首先根据目标时空局部相关性获取目标及背景样本。而后基于稀疏表示建立字典学习模型:基于误差项捕获遮挡等产生的异常值,并利用非凸MCP函数惩罚稀疏编码及误差矩阵,且对字典施加不一致约束项以提高字典鲁棒性和判别性。针对所构建的非凸字典学习优化问题,利用MM-IALM优化方法对其求解以获得较好收敛性。最后,由所得判别字典计算候选目标重构误差以构建目标观测模型,并基于贝叶斯推理框架实现目标精确跟踪。仿真结果表明,与现有主流算法相比,所提方法在复杂环境下能够显著提高目标跟踪精度及鲁棒性。由此,本发明所提方法可以为工程应用中复杂环境下视觉跟踪算法的精度和鲁棒性研究提供坚实的理论与实现依据。
Claims (1)
1.基于判别字典学习的目标跟踪方法,其特征在于,该方法包括如下步骤:
1)初始化
在第一帧中手动选择一个矩形区域获得目标,用l(x,y)*表示所得矩形区域中心,在范围内采样获得q1个图像块作为目标样本,其中li表示第i个图像块的中心,r表示圆形区域半径,同样地,在范围内采样获得q2个图像块作为背景样本,其中lj表示第j个图像块的中心,R表示外环半径,随机挑选若干目标及背景样本分别组成初始目标及背景字典,利用随机正态分布初始化稀疏编码矩阵和辅助矩阵,并分别初始化误差矩阵和拉格朗日乘子为0;
2)判别字典学习模型
给定训练样本集其中d表示各训练样本的特征维度,qi表示第i类训练样本集的数量,根据训练样本集学习得到字典其中,ki表示第i类字典的原子数量,为第i类训练样本集Xi在字典Di上的编码系数矩阵,基于稀疏表示理论,字典Di可表示训练样本Xi,即Xi≈DiCi,则基本的字典学习模型如下:
其中,||·||F为Frobenius范数算子,||·||0为矩阵范数算子,α为正则化参数;
在字典学习模型中加入误差项以捕捉遮挡或噪声等产生的异常值,提高字典学习算法鲁棒性,即:
其中Pi表示误差矩阵,β为正则化参数;
式(2)中范数优化问题为NP-hard问题,通常使用范数松弛处理,范数为有偏估计量,能对矩阵不平衡惩罚,针对此问题,采用非凸MCP函数代替范数,其可得到比现有凸方法更加稀疏的表示,下面给出MCP函数的定义:
设向量当υ>0,γ>1,MCP惩罚函数表示如下:
其中,(z)+=max{z,0},设A为矩阵,将矢量MCP函数扩展到矩阵形式,表示如下:
Mυ,γ(A)=∑mnJυ,γ(Amn) (4)
简单起见,令Jγ(A)=J1,γ(A),Mγ(A)=M1,γ(A),则当γ→∞时,Jγ(A)→|A|,其为对应范数的软阈值算子,当γ→1时,其是对应范数的硬阈值算子,设γ∈(1,∞),
利用MCP函数代替式(2)中范数,则字典学习模型可表示如下:
可在字典学习模型(5)中施加字典不一致约束项使学习到的目标及背景字典更具独立性以提高字典判别能力;
综上所述,判别字典学习模型构建如下:
其中,i,j=1,2,j≠i,λ为正则化参数;
3)模型优化方法
本发明利用MM-IALM方法求解目标函数,其可看作MM方法的特例,MM方法是一种迭代优化方法,每次迭代逼近原非凸目标函数得到一上界函数并求其最小值,多次迭代求解结果可逼近原目标函数最优解;
MM-IALM优化方法包含内环和外环,每次迭代中,外环使用局部线性近逼近原非凸问题将其转化为加权凸优化问题,内环用IALM方法交替求解该凸优化问题的各个变量以将其最小化,为便于表述,给定可微凹函数f(x)∈(0,+∞),令f(x|xt)=f(xt)+f′(x)(x-xt)为其一阶泰勒展开式,则f(x)≤f(x|xt),当且仅当x=xt时取等号,且当t>1时,f(xt+1)≤f(xt);
给出详细优化过程前,需引入广义收缩算子Dτ,W(H),对于τ≥0,γ>1,矩阵A,H,Aold和有:
Dτ,W(H)=sign(Hmn)(|Hmn|-τWmn)+ (7)
其可看作式(8)的闭环解:
给定Aold,则式(8)中Qγ(A|Aold)即为Mγ(A)的局部线性近似,可表示为:
基于以上MM-IALM算法,非凸判别字典优化问题的求解方法,如下所述:
外环:为减少计算量,采用一步LLA方法,即只运行外环一次,而非等待收敛或达到最大迭代次数,
基于式(9),利用代理函数及分别替代Mγ(Ci)和Mγ(Pi)得到式(6)的上界函数:
式(10)中第一个约束项关于Di和Ci乘积耦合,为利用形如式(7)的闭环解求解变量Ci,需引入辅助优化变量Bi=Ci,则式(10)等价为:
利用拉格朗日乘子法将约束优化问题(11)转化为无约束优化问题,则目标函数可写为:
其中,Vi为拉格朗日乘子,μi>0为惩罚参数,
内环:在第q+1次迭代中,按如下顺序交替更新各变量:
固定其余变量,求解:
已知式(7)为问题(8)的解,则式(13)的解可表示为:
固定其余变量,求解Ci:
式(15)为凸问题,由矩阵微分可知:
为求解最优Ci,令d f(Ci)=0,由式(16)可得:
固定其余变量,求解Pi:
已知式(7)为问题(8)的解,则式(18)的解可表示为:
固定其余变量,求解Di:
式(20)为凸问题,由矩阵微分可知:
为求解最优Di,令d f(Di)=0,由式(21)可得:
更新Vi和μ1:
4)基于贝叶斯推理的目标跟踪框架
令仿射参数zt={lx,ly,ν,s,ψ,φ}表示目标状态,其中lx,ly,ν,s,ψ,φ分别表示水平位移、垂直位移、水平尺度因子、旋转角度、宽高比例和扭曲角,在第t帧给定一组观测图像y1:t={y1,y2,…,yt},目标状态变量zt可通过最大后验估计计算:
基于马尔科夫假设,后验概率p(zt|y1:t)可利用贝叶斯定理递归推导,即:
p(zt|y1:t)∝p(yt|zt)∫p(zt|zt-1)p(zt-1|y1:t-1)dzt-1 (25)
其中,p(yt|zt)为状态zt下yt的观测模型,p(zt|zt-1)表示两个连续状态间的运动模型,假设状态变量相互独立,利用高斯分布对两个连续帧间的目标运动模型建模如下:
p(zt|zt-1)=N(zt;zt-1,∑) (26)
其中,N(zt;zt-1,∑)表示zt服从均值和方差分别为zt-1和∑的高斯分布,为对角协方差矩阵,其元素表示各仿射参数的方差;
5)目标观测模型
对于当前候选目标集Y,需解决如下优化问题:
其中,Ci表示利用字典Di表示候选目标集Y所得稀疏编码矩阵,Pi表示对应误差项,β1为正则化参数;
问题(27)的求解方法同问题(6),根据问题(27)求解所得最优稀疏系数矩阵可知,较相关的候选目标应被目标字典较好表示,即相应重构误差小,其中,表示对应D1的稀疏系数向量,同时,该候选目标应不易被背景字典表示,即相应重构误差大,其中,表示对应D2的稀疏系数向量,则目标观测模型可构造为:
其中,σ为常数,δ为避免分母为零的约束因子,根据式(28)可估计各候选目标的后验概率,将所得p(yt|zt)代入式(25),并通过式(24)可得目标状态最优估计,从而实现目标精确追踪;
6)字典更新
为确保所提方法能适应目标外观变化,定时在线更新字典Di,由于目标在第一帧中手动选择,因此首帧目标始终真实,在整个字典学习过程中始终保留首帧获取的训练样本集X1以缓解漂移问题,为获得更具鲁棒性和判别性的字典,算法从连续T帧中收集目标及背景样本,并设置样本池Xtrain和临时样本池Xtemp,Xtemp={Xt-T+1,Xt-T+2,…,Xt}表示从前T帧收集的所有训练样本,Xt表示根据第t帧跟踪结果收集的训练样本,从而得到一个样本池Xtrain={X1,Xtemp},使用样本池Xtrain即可学得新字典Di以用于跟踪下一帧中的目标,学得字典后需清空Xtemp以用于收集新的训练样本;
样本收集过程中,当样本积累到Xtemp中时,跟踪结果可能包含遮挡或噪声等干扰,若跟踪器确定的目标最优位置的评估值大于重构误差阈值θ,则跟踪结果不可靠,跳过此帧以避免引入噪声,否则将该帧所得样本积累到Xtemp中;当某一帧被跳过时,若临时样本池未收集完毕,则不更新字典。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811345623.7A CN109584270B (zh) | 2018-11-13 | 2018-11-13 | 基于判别字典学习的视觉跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811345623.7A CN109584270B (zh) | 2018-11-13 | 2018-11-13 | 基于判别字典学习的视觉跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109584270A true CN109584270A (zh) | 2019-04-05 |
CN109584270B CN109584270B (zh) | 2023-05-30 |
Family
ID=65922200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811345623.7A Active CN109584270B (zh) | 2018-11-13 | 2018-11-13 | 基于判别字典学习的视觉跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109584270B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110196427A (zh) * | 2019-05-29 | 2019-09-03 | 西北工业大学 | 一种基于距离方位字典的目标定位算法 |
CN110580463A (zh) * | 2019-08-30 | 2019-12-17 | 武汉大学 | 单一光谱驱动的双类别稀疏表示高光谱图像目标检测方法 |
CN110889865A (zh) * | 2019-10-31 | 2020-03-17 | 广东技术师范大学 | 一种基于局部加权稀疏特征选择的视频目标跟踪方法 |
CN111161184A (zh) * | 2019-12-27 | 2020-05-15 | 广东工业大学 | 一种基于mcp稀疏约束的快速mr图像去噪方法 |
CN111476748A (zh) * | 2020-04-01 | 2020-07-31 | 广东工业大学 | 一种基于mcp约束卷积稀疏表示的mr图像融合方法 |
CN111723857A (zh) * | 2020-06-17 | 2020-09-29 | 中南大学 | 一种流程生产装备运行状态的智能监测方法与系统 |
CN112085765A (zh) * | 2020-09-15 | 2020-12-15 | 浙江理工大学 | 结合粒子滤波及度量学习的视频目标跟踪方法 |
CN112634303A (zh) * | 2020-12-29 | 2021-04-09 | 北京深睿博联科技有限责任公司 | 辅助盲人进行视觉重构的方法、系统、设备和存储介质 |
CN113260044A (zh) * | 2021-04-12 | 2021-08-13 | 北京邮电大学 | 基于双层字典学习的csi指纹定位方法、装置及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105825200A (zh) * | 2016-03-31 | 2016-08-03 | 西北工业大学 | 基于背景字典学习和结构稀疏表示的高光谱异常目标检测方法 |
CN106203495A (zh) * | 2016-07-01 | 2016-12-07 | 广东技术师范学院 | 一种基于稀疏判别学习的目标跟踪方法 |
CN108492312A (zh) * | 2018-02-26 | 2018-09-04 | 大连大学 | 光照变化下基于逆向稀疏表示的视觉跟踪方法 |
-
2018
- 2018-11-13 CN CN201811345623.7A patent/CN109584270B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105825200A (zh) * | 2016-03-31 | 2016-08-03 | 西北工业大学 | 基于背景字典学习和结构稀疏表示的高光谱异常目标检测方法 |
CN106203495A (zh) * | 2016-07-01 | 2016-12-07 | 广东技术师范学院 | 一种基于稀疏判别学习的目标跟踪方法 |
CN108492312A (zh) * | 2018-02-26 | 2018-09-04 | 大连大学 | 光照变化下基于逆向稀疏表示的视觉跟踪方法 |
Non-Patent Citations (3)
Title |
---|
HENGMIN ZHANG 等: "Weighted sparse coding regularized nonconvex matrix regression for robust face recognition" * |
SHENG LI 等: "Self-Taught Low-Rank Coding for Visual Learning" * |
薛模根 等: "在线鲁棒判别式字典学习视觉跟踪" * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110196427A (zh) * | 2019-05-29 | 2019-09-03 | 西北工业大学 | 一种基于距离方位字典的目标定位算法 |
CN110580463A (zh) * | 2019-08-30 | 2019-12-17 | 武汉大学 | 单一光谱驱动的双类别稀疏表示高光谱图像目标检测方法 |
CN110889865A (zh) * | 2019-10-31 | 2020-03-17 | 广东技术师范大学 | 一种基于局部加权稀疏特征选择的视频目标跟踪方法 |
CN110889865B (zh) * | 2019-10-31 | 2023-08-25 | 广东技术师范大学 | 一种基于局部加权稀疏特征选择的视频目标跟踪方法 |
CN111161184B (zh) * | 2019-12-27 | 2022-03-25 | 广东工业大学 | 一种基于mcp稀疏约束的快速mr图像去噪方法 |
CN111161184A (zh) * | 2019-12-27 | 2020-05-15 | 广东工业大学 | 一种基于mcp稀疏约束的快速mr图像去噪方法 |
CN111476748A (zh) * | 2020-04-01 | 2020-07-31 | 广东工业大学 | 一种基于mcp约束卷积稀疏表示的mr图像融合方法 |
CN111476748B (zh) * | 2020-04-01 | 2022-03-25 | 广东工业大学 | 一种基于mcp约束卷积稀疏表示的mr图像融合方法 |
CN111723857A (zh) * | 2020-06-17 | 2020-09-29 | 中南大学 | 一种流程生产装备运行状态的智能监测方法与系统 |
CN112085765A (zh) * | 2020-09-15 | 2020-12-15 | 浙江理工大学 | 结合粒子滤波及度量学习的视频目标跟踪方法 |
CN112085765B (zh) * | 2020-09-15 | 2024-05-31 | 浙江理工大学 | 结合粒子滤波及度量学习的视频目标跟踪方法 |
CN112634303A (zh) * | 2020-12-29 | 2021-04-09 | 北京深睿博联科技有限责任公司 | 辅助盲人进行视觉重构的方法、系统、设备和存储介质 |
CN113260044A (zh) * | 2021-04-12 | 2021-08-13 | 北京邮电大学 | 基于双层字典学习的csi指纹定位方法、装置及设备 |
CN113260044B (zh) * | 2021-04-12 | 2022-04-05 | 北京邮电大学 | 基于双层字典学习的csi指纹定位方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109584270B (zh) | 2023-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109584270A (zh) | 基于判别字典学习的视觉跟踪方法 | |
He et al. | Bounding box regression with uncertainty for accurate object detection | |
Zheng et al. | Unsupervised representation learning with long-term dynamics for skeleton based action recognition | |
CN106611157B (zh) | 一种基于光流定位和滑动窗口检测的多人姿态识别方法 | |
CN111310659B (zh) | 基于增进式图卷积神经网络的人体动作识别方法 | |
Sminchisescu | 3d human motion analysis in monocular video: techniques and challenges | |
US20100049675A1 (en) | Recovery of 3D Human Pose by Jointly Learning Metrics and Mixtures of Experts | |
Ning et al. | People tracking based on motion model and motion constraints with automatic initialization | |
CN109544600A (zh) | 一种基于上下文相关和判别相关滤波器的目标跟踪方法 | |
Yang et al. | Detecting and grouping keypoints for multi-person pose estimation using instance-aware attention | |
Lee et al. | Human pose tracking using multi-level structured models | |
CN117272168A (zh) | 基于运动时序特征编码的人体动作识别与预测方法 | |
Gu et al. | Learning to predict diverse human motions from a single image via mixture density networks | |
Chen et al. | Discriminative local collaborative representation for online object tracking | |
CN116612238A (zh) | 基于全局和局部时空编码器的3d人体姿态估计方法 | |
Xie et al. | Efficient deep learning models for privacy-preserving people counting on low-resolution infrared arrays | |
CN101551865B (zh) | 利用外观和形状来检测和匹配解剖结构的系统和方法 | |
CN107092869B (zh) | 一种视频卫星的点目标跟踪方法 | |
CN113128446A (zh) | 一种基于信念图增强网络的人体姿态估计方法 | |
Krzeszowski et al. | Articulated body motion tracking by combined particle swarm optimization and particle filtering | |
Zhu et al. | Dance Action Recognition and Pose Estimation Based on Deep Convolutional Neural Network. | |
Ni et al. | Order preserving sparse coding | |
CN114998731B (zh) | 智能终端导航场景感知识别的方法 | |
Zhou et al. | Hybrid generative-discriminative learning for online tracking of sperm cell | |
Chen et al. | Learning meta-adversarial features via multi-stage adaptation network for robust visual object tracking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |