CN110276784A

CN110276784A - 基于记忆机制与卷积特征的相关滤波运动目标跟踪方法

Info

Publication number: CN110276784A
Application number: CN201910478278.2A
Authority: CN
Inventors: 宋勇; 王姗姗; 杨昕; 赵宇飞; 王枫宁; 郭拯坤
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-06-03
Filing date: 2019-06-03
Publication date: 2019-09-24
Anticipated expiration: 2039-06-03
Also published as: CN110276784B

Abstract

本发明提出了一种基于记忆机制与卷积特征的相关滤波运动目标跟踪方法，属于计算机视觉技术领域。本发明方法利用预先训练过的深层卷积神经网络提取目标的卷积特征，受人类视觉信息处理认知行为中人脑记忆机制的启发，将记忆机制融入到相关滤波方法的分类器的检测、训练和更新过程之中。其中，记忆机制由响应图决策、自适应峰值检测和自适应融合系数三部分组成。本发明方法具有较强的鲁棒性，在目标发生剧烈形变、短暂消失后重现或遮挡等条件下，仍然能持续稳定地实现目标跟踪。同时，具有较高的目标跟踪速度，降低了复杂度，减小了运算量。

Description

基于记忆机制与卷积特征的相关滤波运动目标跟踪方法

技术领域

本发明涉及一种图像序列中运动目标的跟踪方法，具体涉及一种基于记忆机制与卷积特征的相关滤波运动目标跟踪方法，属于计算机视觉技术领域。

背景技术

运动目标跟踪技术是计算机视觉科学的重要研究方向，在安全监控、人机接口、医疗诊断等领域应用广泛。目前，运动目标跟踪技术存在的主要问题是难以克服背景光照条件变化、目标发生遮挡、形状变化、尺寸变化和快速运动等复杂干扰因素的影响，导致跟踪精度下降。

判别式跟踪方法是一种重要的运动目标跟踪方法，具体包括：多样本学习(MultipleInstance Learning，MIL)跟踪方法、跟踪-学习-检测(Tracking-Learning-Detection，TLD)跟踪方法、基于核结构化输出(Structured output tracking withkernel，Struck)跟踪方法等。此类方法的原理是：首先，将目标作为正样本，将背景作为负样本，训练出分类器；然后，利用此分类器对搜索区域进行检测，将响应度最大的点视为目标中心位置，从而进行跟踪。通常，此类方法通过稀疏取样方式来训练分类器，即，在目标附近取若干个等尺寸的窗口作为样本。然而，当样本数量增大时，计算量也随之增加，从而降低了跟踪方法的实时性。

相关滤波跟踪方法，通过构造样本的循环矩阵，一定程度上解决了判别式跟踪方法训练样本不足和计算量大的问题。例如，Henriques等提出的KCF算法(Henriques J F,Rui C,Martins P,et al.“High-Speed Tracking with Kernelized CorrelationFilters”.IEEE Transactions on Pattern Analysis&Machine Intelligence,2014,37(3):583-596)，根据循环矩阵在经过傅里叶变换后成为对角矩阵的特点，将单个样本进行移位循环后，可在傅里叶域进行分类器的快速检测与训练。并且通过基于核的脊回归运算，实现相关滤波的过程。该算法不仅具有较高的实时性，而且实现了非线性条件下运动目标的精确跟踪。

近年来，深度学习领域的研究成果开始与相关滤波跟踪方法结合起来。例如，HCF算法(Ma C,Huang J B,Yang X,et al.Hierarchical Convolutional Features forVisual Tracking[C]//IEEE International Conference on Computer Vision.IEEEComputer Society,2015:3074-3082.)在KCF算法的框架下，将HOG特征替换为分层的卷积特征。根据高层特征含有更多语义信息，低层特征含有更多纹理、轮廓等局部信息的特点，先用最高层特征确定目标的大致位置，再向下逐渐精确定位，相较传统的手工提取的特征，具有更高的鲁棒性。

利用卷积特征的相关滤波算法虽具有上述优势，但也存在一定的局限性：一是分类器在检测和训练时共提取了两次卷积特征，计算量非常大；二是每帧以固定速率更新目标模板和分类器，导致适应目标剧烈变化的能力较差。因此，当目标出现形状突变、严重遮挡以及短暂消失后重现等情况时，其跟踪精度会明显下降，甚至丢失目标；并且难以满足实时性要求。

发明内容

本发明的目的是为了解决在目标发生姿态和形状突变、短暂消失后重现以及遮挡等干扰条件下能够精确、高速跟踪目标的问题，提出一种基于记忆机制与卷积特征的相关滤波运动目标跟踪方法，将人脑的记忆机制融入到相关滤波算法的分类器检测、训练与更新过程，能够实现复杂应用场景下精度高、鲁棒性强、运算速度快的运动目标跟踪。

本发明方法，利用预先训练过的深层卷积神经网络提取目标的卷积特征。受人类视觉信息处理认知行为中人脑记忆机制的启发，将记忆机制融入到相关滤波方法的分类器的检测、训练和更新过程之中。其中，记忆机制由响应图决策、自适应峰值检测和自适应融合系数三部分组成。记忆机制与分类器的检测、训练和更新融合的过程描述如下：

(1)基于响应图决策的分类器检测：提取出候选区域的卷积特征后，记忆空间内所有的分类器均与其进行卷积运算，得到各自的响应图，选取峰值最大的响应图对目标进行定位。

(2)基于自适应峰值检测的分类器训练：目标定位后，综合响应图中主峰和次高干扰峰的大小关系与位置关系，对目标的变化情况进行分析。如果干扰程度大于阈值，则再次提取目标的卷积特征，训练新的分类器。如果干扰程度不大于阈值，则不进行分类器的训练与更新。

(3)基于自适应融合系数的分类器更新：训练好新的分类器后，根据峰值检测的结果，自适应地计算融合系数。干扰越剧烈，融合系数越大。

通过以上方式，实现记忆机制与跟踪方法的有机融合。

本发明方法的具体实现过程如下：

一种基于记忆机制与卷积特征的相关滤波运动目标跟踪方法，包括以下步骤：

步骤1：初始化记忆空间。

设记忆空间的容量为m，在第1到第m帧时，先将记忆空间填满，暂不执行记忆机制。在第i帧完成分类器的训练后，将该分类器的参数存储到记忆空间中，作为记忆空间内的第i个分类器w[i]，i∈{1,...,m}。此时除了对记忆空间进行初始化外，此时本发明方法与一般的相关滤波跟踪方法的步骤完全相同。当记忆空间被填满后，开始在后续帧中执行记忆机制。

步骤2：进行基于响应图决策的分类器检测。

步骤2.1：提取当前帧候选区域的卷积特征。

读取第t帧图像，t>m，根据上一帧确定的目标中心位置选取候选区域。借助预训练过的卷积神经网络，提取跟踪窗口的卷积特征。将后续区域图像输入到卷积神经网络后，选取19个卷积层中的L层的输出作为卷积特征x_t。t时刻候选区域在第l层的特征表示为x_t[l]，l∈L。

提取出卷积特征x_t后，以x_t为生成矩阵构造循环矩阵，从而得到检测样本C(x_t)。

步骤2.2：检测记忆空间中所有分类器。

令w_t-1[i,l]表示记忆空间中在第t帧之前学习到的第i个分类器对应第l层特征的参数，i∈{1,...,m}，l∈L。用检测样本C(x_t)与分类器卷积得到响应图，响应图上最大响应值的位置被视为目标位置。

由循环矩阵性质可知，任意矩阵与循环矩阵在时域上的卷积，均可表示为其与循环矩阵的生成矩阵在频域上的点乘。将每层特征的响应f_t[i,l]按照固定权重相加，得到记忆空间中第i个分类器在第t帧时的响应图f_t[i]：

其中，表示快速反傅里叶变换(IFFT)操作，⊙为点乘运算符，大写字母代表变量的傅里叶变换形式，γ是融合权重。X_t[l]代表第t帧时第l层特征的傅里叶变换形式。

令记忆空间中所有的分类器均与循环样本进行卷积运算，得到m张响应图，取响应峰值最大的响应图推测目标位置，并使该响应图对应的分类器进行后续的训练与更新：

式中，π为最大峰值响应图对应的分类器在记忆空间中的索引。

步骤3：进行基于自适应峰值检测的分类器训练。

步骤3.1：自适应峰值检测。

同时计算与比较响应图上主峰与干扰峰的位置和峰值大小关系，选取主峰之外的次高峰作为干扰峰。当干扰峰距离主峰较远时，即使干扰峰值较高，也认为目标没有受到遮挡；当干扰峰出现在离主峰较近的位置时，即使干扰峰值不高，也判断目标受到遮挡。利用峰值干扰度对目标状态进行判断，公式如下：

其中，响应图以主峰中心为原点重新划定了坐标系，H为响应图上主峰的峰值，h为干扰峰峰值，M为主峰在干扰峰方向上到响应图边缘的距离，是干扰峰相对于主峰的位置向量，为构造的抛物面。如干扰峰高于此曲面，则认为目标发生了剧烈变化。ρ值为干扰峰超过曲面的距离与整个干扰峰高度的比值，若峰值干扰度ρ＝0，则跳过以下所有步骤，不再进行分类器的训练与更新，直接进入下一帧；当峰值干扰度ρ>0时，执行以下步骤：

步骤3.2：提取当前帧目标区域的卷积特征。

根据步骤2中当前帧定位的结果，以目标中心为中心，扩展得到与后续区域大小相同的目标区域，将目标区域输入到卷积神经网络中，提取其卷积特征x_t'。

步骤3.3：分类器训练。

峰值干扰度ρ>0，表明在步骤3.1中选取的峰值最大响应图对应的分类器与目标的匹配程度较差，需要训练新的分类器w_t'以适应目标的变化。

训练分类器的原理与一般的相关滤波方法相同，通过最小化下式训练第l层特征对应的分类器参数w_t'[l]：

其中，x'_t[l]为训练时在新位置上提取的特征，*为卷积运算符，λ为l2正则化参数；y是训练的目标标签函数，是一个尺寸与分类器大小相同的二维高斯函数，峰值位于中心处。

该最小化问题的闭式解为：

其中，表示目标标签函数的傅里叶变换形式。

步骤4：进行基于自适应融合系数的分类器更新。

新的分类器参数w_t'训练好后，对记忆空间中的分类器进行更新。分类器w_t-1[π]与w_t'进行加权融合，其余分类器参数不变，公式如下：

其中，λ为在该分类器在当前帧的融合系数，利用Sigmoid函数自适应求得：

其中，λ关于ρ单调递增，使得目标的变化越剧烈，分类器更新的速率越快；e为自然对数符号。

有益效果

本发明方法，对比现有运动目标跟踪方法，具有以下优点：

(1)鲁棒性强。本发明方法具有较强的鲁棒性，通过将人脑记忆机制融入到相关滤波算法中，使得算法在跟踪时可以记忆目标出现过的状态。一方面，利用响应图决策从记忆空间中选择最合适的分类器进行检测。另一方面，利用自适应峰值检测进行分类器的训练，仅在目标发生剧烈变化时才重新提取目标的卷积特征重新训练分类器，同时根据峰值检测的结果自适应的计算融合系数，进行分类器的更新，从而在目标发生剧烈形变、短暂消失后重现或遮挡等条件下，仍然能持续稳定地实现目标跟踪。

(2)跟踪速度快。本发明方法具有较高的目标跟踪速度。一方面，在相关滤波的框架下，通过循环偏移构建分类器的训练样本。同时，基于循环矩阵的特性把问题变换至频域求解，避免了矩阵求逆过程，从而极大地降低了算法的复杂度。另一方面，将目标在不同状态下的分类器参数储存于记忆空间。当相似状态再次出现时，直接根据响应值选择调用分类器，无需再提取目标区域的CNN特征重新训练，从而减小了接近一半的运算量。

附图说明

图1为本发明方法的原理流程图；

图2为本发明方法中基于响应图决策的分类器检测步骤的原理示意图；

图3为本发明方法中基于自适应峰值检测的分类器训练步骤的原理示意图；

图4为本发明方法中基于自适应融合系数的分类器更新步骤的原理示意图；

图5为本发明方法的具体流程图；

图6为本发明方法与常规HCF方法的跟踪结果对比；

图7为本发明方法与常规HCF方法的跟踪精度曲线；

图8为本发明方法与常规HCF方法的跟踪指标对比。

具体实施方式

下面结合附图与实施例对本发明方法进行具体说明。

实施例

一种基于记忆机制与卷积特征的相关滤波运动目标跟踪方法，其实现过程如图2所示，包括如下步骤：

步骤1：初始化记忆空间。

令记忆空间的容量m为4。在第1到4帧时，除了对记忆空间进行初始化外，本发明方法与一般的相关滤波跟踪方法完全相同。在每一帧完成分类器的训练后，将该分类器的参数存储到记忆空间中，作为记忆空间内的第i个分类器。第4帧结束时，记忆空间被填满，在后续帧中开始执行记忆机制。

步骤2：基于响应图决策的分类器检测。

步骤2.1：提取当前帧候选区域的卷积特征。

读取第t帧图像，根据上一帧确定的目标中心位置选取候选区域。本发明方法利用已经训练好的VGG-19卷积神经网络提取跟踪窗口的卷积特征。将后续区域图像输入到卷积网络后，选取19个卷积层中的Conv3-4，Conv4-4和Conv5-4的输出作为卷积特征，即L＝{Conv3-4,Conv4-4,Conv5-4}。t时刻时候选区域在第l层的特征表示为x_t[l]，l∈L。

步骤2.2：记忆空间中所有分类器的检测。

令w_t-1[i,l]表示记忆空间中在第t帧之前学习到的第i个分类器对应第l层特征的参数，i∈{1,2,3,4}，l∈L。用检测样本C(x_t)与分类器卷积可得到响应图，响应图上最大响应值的位置被视为目标位置。

由循环矩阵的性质可知，任意矩阵与循环矩阵在时域上的卷积，均可表示为其与循环矩阵的生成矩阵在频域上的点乘。将每层特征的响应f_t[i,l]按照固定的权重相加，得到则记忆空间中第i个分类器在第t帧时的响应图f_t[i]：

其中，表示快速反傅里叶变换(IFFT)操作，⊙为点乘运算符，大写字母代表变量的傅里叶变换形式，γ是融合权重，设为γ＝{0.25,0.5,1}。

令记忆空间中所有的分类器均与循环样本进行卷积运算，得到m张响应图，取响应峰值最大的响应图推测目标位置。并使该响应图对应的分类器进行后续的训练与更新。

式中的π为最大峰值响应图对应的分类器在记忆空间中的索引。

步骤3：基于自适应峰值检测的分类器训练。

步骤3.1：自适应峰值检测

自适应峰值检测的核心思想为：同时计算与比较响应图上主峰与干扰峰的位置和峰值大小关系。选取主峰之外的次高峰作为干扰峰。当干扰峰距离主峰较远时，即使干扰峰值较高，也认为目标没有受到遮挡；当干扰峰出现在离主峰较近的位置时，即使干扰峰值不高，也判断目标受到遮挡。利用峰值干扰度对目标状态进行判断，计算公式如下：

式中，响应图以主峰中心为原点重新划定了坐标系，H为响应图上主峰的峰值，h为干扰峰峰值，M为主峰在干扰峰方向上到响应图边缘的距离，是干扰峰相对于主峰的位置向量，为构造的抛物面。如果干扰峰高于此曲面，则认为目标发生了剧烈变化。ρ的值即为干扰峰超过曲面的距离与整个干扰峰高度的比值。若峰值干扰度ρ＝0，则跳过以下步骤，不再进行分类器的训练与更新，直接进入下一帧。

当峰值干扰度ρ>0时，执行以下步骤。

步骤3.2：提取当前帧目标区域的卷积特征。

根据步骤2中当前帧定位的结果，以目标中心为中心，扩展得到与后续区域大小相同的目标区域。将目标区域输入到VGG-19网络中，提取其卷积特征x_t'。

步骤3.3：分类器训练。

峰值干扰度ρ>0，即表明在步骤3.1中选取的峰值最大响应图对应的分类器与目标的匹配程度较差，需要训练新的分类器w_t'以适应目标的变化。

式中，*为卷积运算符，λ为l2正则化参数，y是训练的目标标签函数，是一个尺寸与分类器大小相同的二维高斯函数，峰值位于中心处。

该最小化问题的闭式解为：

步骤4：基于自适应融合系数的分类器更新。

新的分类器参数w_t'训练好后，对记忆空间中的分类器进行更新。分类器w_t-1[π]与w_t'进行加权融合，其余分类器参数不变，用公式描述为：

λ关于ρ单调递增，使得目标的变化越剧烈，分类器更新的速率越快。

本发明的仿真效果通过下述仿真实验说明：

1.仿真条件：

本发明在Intel(R)Core(TM)i7-7700HQ CPU 2.80GHz,RAM 8.00G,GTX1050GPU的PC上，使用MATLAB 2017b平台，对Visual Tracker Benchmark视频测试集中的视频序列完成仿真实验。

2.仿真结果：

图3是对目标存在明显遮挡的的视频序列跟踪结果图，分别是第330、371、390和410帧，图中的矩形方框表示常规方法和本发明方法跟踪到的结果。从图3可以看出，在运动目标存在明显遮挡后又重新出现的过程中，本发明可以对目标进行准确跟踪。

图4是本发明方法与常规HCF算法跟踪精度曲线对比图。跟踪精度曲线的横坐标是指仿真跟踪结果的目标中心和groundtruth中标注的真实中心的欧氏距离，纵坐标是指该欧式距离小于某一阈值的帧数占整个测试视频序列长度的比例。图5是在距离阈值为20像素处的跟踪精确度与跟踪速度(FPS：每秒帧数)对比图。经评估统计，对于Lemming序列，常规HCF算法和本发明方法的跟踪结果与目标实际位置的距离在20像素内的概率分别为0.6820和0.8920，其跟踪精度提高了30.8％。当CNN运算在GPU上完成时，常规HCF算法和本发明提出的算法的速度分别为4.4751fps和5.1678fps，提高了15.5％；当CNN运算在CPU上完成时，两种算法的速度分别为1.1653fps和2.1363fps，提高了83.3％。

Claims

1.一种基于记忆机制与卷积特征的相关滤波运动目标跟踪方法，其特征在于，包括以下步骤：

初始化记忆空间，利用预先训练过的深层卷积神经网络提取目标的卷积特征，将记忆机制融入到相关滤波方法的分类器的检测、训练和更新过程之中，其中，记忆机制由响应图决策、自适应峰值检测和自适应融合系数三部分组成；

记忆机制与分类器的检测、训练和更新融合的过程描述如下：

基于响应图决策的分类器检测：提取出候选区域的卷积特征后，记忆空间内所有的分类器均与其进行卷积运算，得到各自的响应图，选取峰值最大的响应图对目标进行定位；

基于自适应峰值检测的分类器训练：目标定位后，综合响应图中主峰和次高干扰峰的大小关系与位置关系，对目标的变化情况进行分析；如果干扰程度大于阈值，则再次提取目标的卷积特征，训练新的分类器；如果干扰程度不大于阈值，则不进行分类器的训练与更新；

基于自适应融合系数的分类器更新：训练好新的分类器后，根据峰值检测的结果自适应地计算融合系数，干扰越剧烈，融合系数越大。

2.如权利要求1所述的一种基于记忆机制与卷积特征的相关滤波运动目标跟踪方法，其特征在于，所述初始化记忆空间的方法如下：

设记忆空间容量为m，在第1到第m帧时，先将记忆空间填满，暂不执行记忆机制，在第i帧完成分类器的训练后，将该分类器的参数存储到记忆空间中，作为记忆空间内的第i个分类器w[i]，i∈{1,...,m}，当记忆空间被填满后，开始在后续帧中执行记忆机制。

3.如权利要求1所述的一种基于记忆机制与卷积特征的相关滤波运动目标跟踪方法，其特征在于，所述基于响应图决策的分类器检测的具体方法如下：

步骤2.1：提取当前帧候选区域的卷积特征

设记忆空间容量为m；读取第t帧图像，t>m，根据上一帧确定的目标中心位置选取候选区域；借助预训练过的卷积神经网络，提取跟踪窗口的卷积特征；将后续区域图像输入到卷积神经网络后，选取19个卷积层中的L层的输出作为卷积特征x_t，t时刻候选区域在第l层的特征表示为x_t[l]，l∈L；

提取出卷积特征x_t后，以x_t为生成矩阵构造循环矩阵，从而得到检测样本C(x_t)；

步骤2.2：检测记忆空间中所有分类器

令w_t-1[i,l]表示记忆空间中在第t帧之前学习到的第i个分类器对应第l层特征的参数，i∈{1,...,m}，l∈L，用检测样本C(x_t)与分类器卷积得到响应图，响应图上最大响应值的位置被视为目标位置；

将每层特征的响应f_t[i,l]按照固定权重相加，得到记忆空间中第i个分类器在第t帧时的响应图f_t[i]：

其中，表示快速反傅里叶变换(IFFT)操作，⊙为点乘运算符，大写字母代表变量的傅里叶变换形式，γ是融合权重；X_t[l]代表第t帧时第l层特征的傅里叶变换形式；

4.如权利要求1或2所述的一种基于记忆机制与卷积特征的相关滤波运动目标跟踪方法，其特征在于，所述基于自适应峰值检测的分类器训练方法如下：

步骤3.1：自适应峰值检测

同时计算与比较响应图上主峰与干扰峰的位置和峰值大小关系，选取主峰之外的次高峰作为干扰峰；当干扰峰距离主峰较远时，即使干扰峰值较高，也认为目标没有受到遮挡，当干扰峰出现在离主峰较近的位置时，即使干扰峰值不高，也判断目标受到遮挡；

利用峰值干扰度对目标状态进行判断，公式如下：

其中，响应图以主峰中心为原点重新划定了坐标系，H为响应图上主峰的峰值，h为干扰峰峰值，M为主峰在干扰峰方向上到响应图边缘的距离，是干扰峰相对于主峰的位置向量，为构造的抛物面，如干扰峰高于此曲面，则认为目标发生了剧烈变化；ρ值为干扰峰超过曲面的距离与整个干扰峰高度的比值，若峰值干扰度ρ＝0，则跳过后续步骤，不再进行分类器的训练与更新，直接进入下一帧；当峰值干扰度ρ>0时，执行以下步骤：

步骤3.2：提取当前帧目标区域的卷积特征

根据分类器检测过程中当前帧定位的结果，以目标中心为中心，扩展得到与后续区域大小相同的目标区域，将目标区域输入到卷积神经网络中，提取其卷积特征x_t'；

步骤3.3：分类器训练

峰值干扰度ρ>0，表明在步骤3.1中选取的峰值最大响应图对应的分类器与目标的匹配程度较差，需要训练新的分类器w_t'以适应目标的变化；

通过最小化下式训练第l层特征对应的分类器参数w_t'[l]：

其中，x'_t[l]为训练时在新位置上提取的特征，*为卷积运算符，λ为l2正则化参数；y是训练的目标标签函数，是一个尺寸与分类器大小相同的二维高斯函数，峰值位于中心处；

该最小化问题的闭式解为：

其中，表示目标标签函数的傅里叶变换形式。

5.如权利要求1所述的一种基于记忆机制与卷积特征的相关滤波运动目标跟踪方法，其特征在于，所述基于自适应融合系数的分类器更新方法如下：

新的分类器参数w_t'训练好后，对记忆空间中的分类器进行更新；分类器w_t-1[π]与w_t'进行加权融合，其余分类器参数不变，公式如下：