CN117576164B

CN117576164B - 基于特征联合学习的遥感视频海陆运动目标跟踪方法

Info

Publication number: CN117576164B
Application number: CN202311719139.7A
Authority: CN
Inventors: 高龙; 徐从安; 孙炜玮; 张淇皓; 周伟; 吴俊峰; 唐田田; 刘瑜; 汪韬阳; 董天成
Original assignee: Naval Aeronautical University
Current assignee: Naval Aeronautical University
Priority date: 2023-12-14
Filing date: 2023-12-14
Publication date: 2024-05-03
Anticipated expiration: 2043-12-14
Also published as: CN117576164A

Abstract

本发明公开了一种基于特征联合学习的遥感视频海陆运动目标跟踪方法，步骤包括：步骤1、构建目标跟踪模型；所述目标跟踪模型包括特征学习模块、目标信息提取模块、目标位置检测模块以及关联模块；步骤2、训练所述目标跟踪模型；训练时，针对目标信息特征引入三元组损失；步骤3、使用训练后的目标跟踪模型对视频中的目标进行跟踪：将视频按时间顺序分为多个图像帧，将图像帧顺序输入到目标跟踪模型中，实现目标跟踪。本发明基于YOLOv5算法，通过三元组损失优化目标身份特征，可以提高每帧图像中的跟踪精度，实现不限个体数量的目标跟踪，同时还能简化耗时最长的关联步骤，实现快速准确的遥感视频海陆运动目标跟踪。

Description

基于特征联合学习的遥感视频海陆运动目标跟踪方法

技术领域

本发明属于计算机图像识别领域，具体涉及一种遥感视频目标跟踪方法。

背景技术

随着遥感技术的快速发展，遥感视频数据在军事侦察、环境监测、城市规划、交通管理等领域的应用变得越来越广泛。然而，由于遥感视频数据具有高时空分辨率、小目标尺寸、复杂多变背景等特点，有效提取和跟踪目标成为了一项挑战性任务。因此，研究高效、稳定且快速的遥感视频目标跟踪方法具有重要意义。

遥感视频目标跟踪方法主要分为基于传统计算机视觉的方法和基于深度学习的方法。

传统方法通常利用目标的颜色、纹理、形状等特征进行跟踪，例如光流法、均值漂移法、粒子滤波法等。这些方法在简单场景下表现良好，但在复杂背景和相似干扰物面前，容易出现跟踪漂移或失败。

近年来，深度学习在计算机视觉领域取得显著成果，尤其是卷积神经网络(CNN)在目标检测和识别方面展现出强大能力。基于深度学习的方法通常结合CNN提取目标深度特征，并利用相关滤波、孪生网络、循环神经网络(RNN)等技术实现目标跟踪。

主流的深度学习目标跟踪方法又分为SDE(Separate Detection and Embedding)和JDE(Joint Detection and Embedding)两种模式。SDE模式将目标跟踪任务分为目标检测、特征提取和目标关联三步：先通过目标检测方法确定物体位置，再用特征提取模型获取特征向量，最后用传统方法实现目标身份关联。JDE模式则将目标检测与特征提取整合至一个模型中，通过联合调优实现特征联合学习。JDE算法在YOLOv3的基础上增加了关联特征学习分支，在该分支中，算法将每个个体视为一类，通过全连接层映射关联特征至输出节点，实现目标个体识别，最后用卡尔曼滤波和匈牙利算法完成目标关联。

JDE方法通过在目标检测算法YOLOv3上添加分类分支以联合学习最优特征，组合了检测和关联特征学习过程，实现了目标的实时跟踪，该方法因速度快于SDE而成为研究的主流方法。但在处理遥感视频时，尚存在三个问题：一是基于YOLOv3的目标检测效果有限；二是分类分支需要将每个跟踪个体视为一个类别，而跟踪目标个体数量庞大，导致算法耗时长、分类精度低，不适用于个体数量较多的目标跟踪任务；三是目标关联任务耗时长，制约了算法的性能和速度。

发明内容

本发明提出了一种基于特征联合学习的遥感视频海陆运动目标跟踪方法，其目的是：一、提高目标跟踪任务中检测的准确度；二、实现不限个体数量的目标跟踪；三、提高目标关联任务的速度。

本发明技术方案如下：

一种基于特征联合学习的遥感视频海陆运动目标跟踪方法，步骤包括：

步骤1、构建目标跟踪模型；所述目标跟踪模型包括特征学习模块、目标信息提取模块、目标位置检测模块以及关联模块；

所述特征学习模块基于YOLOv5模型，用于按三种不同尺度将图像帧划分为多个网格，并在三种不同尺度下分别提取每个网格的特征；

所述目标信息提取模块用于根据特征学习模块提取的三种不同尺度的特征得到一一对应的三种不同尺度下的目标信息特征，所述目标信息特征包含了目标的身份特征信息和位置特征信息；

所述目标位置检测模块用于根据目标信息提取模块输出的三种不同尺度下的目标信息特征得到三种不同尺度下的目标检测结果，所述目标检测结果包含目标的位置信息；

所述关联模块用于建立相邻的图像帧中检测到的目标之间的关联；

步骤2、训练所述目标跟踪模型；训练时，针对目标信息特征引入三元组损失；

步骤3、使用训练后的目标跟踪模型对视频中的目标进行跟踪：将视频按时间顺序分为多个图像帧，将图像帧顺序输入到目标跟踪模型中，图像帧依次经过特征学习模块、目标信息提取模块和目标位置检测模块从而得到各图像帧中的目标检测结果，然后由关联模块完成相邻图像帧的目标之间的关联，实现目标跟踪。

作为所述基于特征联合学习的遥感视频海陆运动目标跟踪方法的进一步改进，所述特征学习模块包括YOLOv5模型的骨干网络和YOLOv5模型的特征融合网络。

作为所述基于特征联合学习的遥感视频海陆运动目标跟踪方法的进一步改进，所述目标信息提取模块包括三个与特征学习模块所提取的特征一一对应的卷积层，每个卷积层的卷积核为1×1、通道数为3072；每一尺度下的所述目标信息特征包含了3个与三种不同的目标大小一一对应的、长度分别均为1024的信息特征向量。

作为所述基于特征联合学习的遥感视频海陆运动目标跟踪方法的进一步改进，采用YOLOv5的检测头作为目标位置检测模块，在其所输出的目标检测结果中，使用长度为15的向量表示对应的网格中的三种目标大小的目标的结果信息，每一种目标大小的目标的结果信息包括占用该向量4个节点的位置信息和占用该向量1个节点的、用于表示该网格中是否存在目标的置信度。

作为所述基于特征联合学习的遥感视频海陆运动目标跟踪方法的进一步改进，关联模块中通过以下方式进行关联：

对于相邻的两个图像帧——第i个图像帧和第i+1个图像帧，遍历第i+1个图像帧中的每一个目标，分别求得当前目标与第i个图像帧中每一个目标之间的距离，将第i+1个图像帧中第k个目标与第i个图像帧中第j个目标/>之间的距离记为d_k,j，计算方式为：

其中，表示目标在目标信息提取模块所提取的目标信息特征中所对应的信息特征向量；

对于当前第k个目标所有的d_k,j中的最小值记为d_k；

如果d_k≥θ，则将目标视为新出现的目标，并在目标存储栈中新建目标，记录该目标在第i+1个图像帧中的位置信息和信息特征向量；如果d_k<θ，则将d_k对应的第i个图像帧中的目标判定为与/>是相同目标，将该目标在第i+1个图像帧中的位置信息和信息特征向量添加到目标存储栈中相应目标中，完成目标的关联；θ为身份判定阈值；

第i+1个图像帧中的所有目标遍历完成后，第i个图像帧中未能与第i+1个图像帧中的目标建立关联的目标被判定为已消失目标，从目标存储栈中删除该目标。

作为所述基于特征联合学习的遥感视频海陆运动目标跟踪方法的进一步改进，身份判定阈值θ的计算方式为：

选择t个目标，计算每个目标在任意一组相邻图像帧中的信息特征向量之间的距离，将t组距离的平均值记为E_d、标准差记为var_d，则θ＝E_d+3var_d。

作为所述基于特征联合学习的遥感视频海陆运动目标跟踪方法的进一步改进，步骤2的训练过程如下：

步骤2-1、构建训练集，所述训练集中包括多个数据块，每个数据块包括m个取自同一遥感视频、按时间顺序排列的图像帧，还包括与图像帧对应的标注位置信息，所述标注位置信息用于表示目标在图像帧中的位置，m个图像帧中的同一目标使用相同的ID标注；

步骤2-2、将数据块输入到目标跟踪模型中，经特征学习模块、目标信息提取模块、目标位置检测模块后计算目标检测损失并优化上述三个模块的参数；

步骤2-3、将数据块输入到目标跟踪模型中，对于每一个数据块，经特征学习模块、目标信息提取模块后分别计算一个三元组损失，然后根据三元组损失调整上述两个模块的参数；

步骤2-4、重复步骤2-2至2-3，直至达到循环次数。

作为所述基于特征联合学习的遥感视频海陆运动目标跟踪方法的进一步改进，步骤2-1中，取m个图像帧的方式为：先任意选择遥感视频中的2m个连续的图像帧，再从2m个连续图像帧中随机选择m个图像帧。

作为所述基于特征联合学习的遥感视频海陆运动目标跟踪方法的进一步改进，步骤2-2的具体方式为：对每一图像帧，对于不同的尺度，分别计算所有的目标对应的由目标位置检测模块预测的位置信息与对应的标注位置信息之间的偏差v，计算最小的偏差v对应的目标所对应的位置信息与其所对应的标注位置信息的交并比，基于该交并比求得该尺度下的定位损失和置信度损失；然后将不同尺度的定位损失和不同尺度的置信度损失分别加权求和，得到当前图像帧的最终损失值，并基于该损失值调整目标跟踪模型的参数。

作为所述基于特征联合学习的遥感视频海陆运动目标跟踪方法的进一步改进，步骤2-3的具体方式为：对于某一数据块，随机选择其中的某个目标，将该目标在某一图像帧中的目标对象记为a，该目标在同一数据块中另一图像帧中的目标对象记为p，同时选择一个与该目标身份不同的另一目标并将其在某一图像帧中的目标对象记为n；重复上述步骤得到m组三元组样本对<a,p,n>，则基于该数据块得到的三元组损失值L为：

其中α为正负类样本间的阈值距离，且：

表示目标在目标信息提取模块所提取的目标信息特征中所对应的信息特征向量。

相对于现有技术，本发明具有以下有益效果：

本发明基于YOLOv5算法，可以获取准确的目标检测框，从而提高每帧图像中的跟踪精度；同时可以使用身份特征识别针对每个个体获得相应的特征，从而实现不限个体数量的目标跟踪；进一步引入三元组损失函数训练网络，对同一身份、相近帧的目标学习尽量相似的特征，从而简化耗时最长的关联步骤，最终实现快速准确的遥感视频海陆运动目标跟踪。

具体的：

一、本发明引入YOLOv5作为目标跟踪的基础算法，相对于YOLOv3，YOLOv5能够在保持较高检测速度的同时获得较高的检测准确度，从而提高目标跟踪的准确度。

二、目标信息提取模块能够提取不同目标的身份特征信息和位置特征信息，并通过比较实现目标关联。已有JDE算法根据训练集中跟踪目标数量使用了14455个节点，将每个目标个体视为一类进行one-hot分类。由于每个目标个体的图像数量少，且分类节点数量多，容易导致所学特征不够充分，训练困难；另一方面，实际测试中所跟踪目标个体数量未知，采用目标分类分支的输出或所提取特征作为目标的身份特征进行关联时，由于该特征是基于已有目标进行的训练，对新出现目标的特征提取能力有限，因此也会影响算法性能。相对于JDE框架，本方法通过长度为1024的向量学习不同尺度不同大小的目标的特征，而非对其进行个体分类，避免了需要预先知道跟踪目标数量的问题，可以适用于不限个体数量的目标跟踪任务中。

三、引入三元组损失函数增大不同身份、不同帧目标的特征间距，减小同一身份、相近帧的特征间距。三元组函数能够有效解决遥感图像中不同目标相似度高、相同目标差异大导致的同一目标特征距离相对较远、不同目标特征距离相对较近的问题，从而得到更好的特征空间，获得更明确的分类边界。

附图说明

图1为本发明中跟踪模型的框架示意图。

具体实施方式

下面结合附图详细说明本发明的技术方案：

步骤1、构建目标跟踪模型。

如图1，所述目标跟踪模型包括特征学习模块、目标信息提取模块、目标位置检测模块以及关联模块。

(一)所述特征学习模块基于YOLOv5模型，包括了YOLOv5模型的骨干网络(Backbone)和YOLOv5模型的特征融合网络(Neck)，用于按三种不同尺度将图像帧划分为多个网格，并在三种不同尺度下分别提取每个网格的特征。

本实施例中，特征学习模块的输入为m张608×608×3尺寸的图像帧构成的输入数据块，输出为相应的m个76*76*256、38*38*512、19*19*1024的三个尺度的特征。

(二)所述目标信息提取模块用于根据特征学习模块提取的三种不同尺度的特征得到一一对应的三种不同尺度下的目标信息特征，所述目标信息特征包含了目标的身份特征信息和位置特征信息。

具体的，所述目标信息提取模块包括三个与特征学习模块所提取的特征一一对应的卷积层，每个卷积层的卷积核为1×1、通道数为3072；每一尺度下的所述目标信息特征包含了3个与三种不同的目标大小一一对应的、长度分别均为1024的信息特征向量。

本实施例中，3个信息特征向量的尺度分别为76*76*3072，38*38*3072，19*19*3072，记为D1、D2、D3。以D1为例，76*76代表将大小为608*608的输入图像划分成76*76个网格，故每个网格大小为8*8像素。每个尺度的每个特征向量预测3种大小的目标，在此设置每种大小目标的目标信息特征向量的长度为1024，则3种大小目标信息特征长度总计为1024*3＝3072。因此，D1表示预测输入图像中每个8*8网格中可能存在的3种大小的目标。

(三)所述目标位置检测模块用于根据目标信息提取模块输出的三种不同尺度下的目标信息特征得到三种不同尺度下的目标检测结果，其维度分别为76*76*15，38*38*15，19*19*15，记为E1、E2、E3。所述目标检测结果包含目标的位置信息。

具体的，采用YOLOv5的检测头作为目标位置检测模块，在其所输出的目标检测结果中，使用长度为15的向量表示对应的网格中的三种目标大小的目标的结果信息，每一种目标大小的目标的结果信息包括占用该向量4个节点的位置信息(cx，cy，w，h)和占用该向量1个节点的、用于表示该网格中是否存在目标的置信度。

(四)所述关联模块用于建立相邻的图像帧中检测到的目标之间的关联。

具体的，关联模块中通过以下方式进行关联：

其中，表示目标在目标信息提取模块所提取的目标信息特征中所对应的信息特征向量。

对于当前第k个目标所有的d_k,j中的最小值记为d_k。

如果d_k≥θ，则将目标视为新出现的目标，并在目标存储栈中新建目标，记录该目标在第i+1个图像帧中的位置信息和信息特征向量。如果d_k<θ，则将d_k对应的第i个图像帧中的目标判定为与/>是相同目标，将该目标在第i+1个图像帧中的位置信息和信息特征向量添加到目标存储栈中相应目标中，完成目标的关联。θ为身份判定阈值。

其中，身份判定阈值θ的计算方式为：选择t个目标，计算每个目标在任意一组相邻图像帧中的信息特征向量之间的距离，将t组距离的平均值记为E_d、标准差记为var_d，则θ＝E_d+3var_d。

步骤2、训练所述目标跟踪模型；训练时，针对目标信息特征引入三元组损失。

本实施例中，使用Adam作为模型优化器，设置学习率为0.0002，具体训练过程如下：

步骤2-1、构建训练集，所述训练集中包括多个数据块，每个数据块包括m个取自同一遥感视频、按时间顺序排列的图像帧，还包括与图像帧对应的标注位置信息，所述标注位置信息用于表示目标在图像帧中的位置，m个图像帧中的同一目标使用相同的ID标注。

本步骤中，取m个图像帧的方式为：先任意选择遥感视频中的2m个连续的图像帧，再从2m个连续图像帧中随机选择m个图像帧。

步骤2-2、将数据块输入到目标跟踪模型中，经特征学习模块、目标信息提取模块、目标位置检测模块后计算目标检测损失并优化上述三个模块的参数。

本步骤的具体过程为：对每一图像帧，对于不同的尺度，分别计算所有的目标对应的由目标位置检测模块预测的位置信息与对应的标注位置信息之间的偏差v，计算最小的偏差v对应的目标所对应的位置信息与其所对应的标注位置信息的交并比，基于该交并比求得该尺度下的定位损失和置信度损失；然后将不同尺度的定位损失和不同尺度的置信度损失分别加权求和，得到当前图像帧的最终损失值，并基于该损失值调整目标跟踪模型的参数。

步骤2-3、将数据块输入到目标跟踪模型中，对于每一个数据块，经特征学习模块、目标信息提取模块后分别计算一个三元组损失，然后根据三元组损失调整上述两个模块的参数。

在理想情况下，若特征学习模块能够充分学习目标身份特征，则在不同帧中提取的同一身份目标的身份特征应该相同；若特征学习模块能够充分学习目标的位置特征，则邻近两帧的同一身份目标的位置特征的差异应该很小。因此，对于同一身份目标，该目标在相近帧所提取的信息应该尽量相近。为了对同一身份、相近帧的目标学习尽量相似的目标信息特征、不同身份的目标学习不同的目标信息特征，以提高后续目标关联效果，引入三元组损失函数优化所学目标信息特征。

本步骤的具体过程为：

对于某一数据块，随机选择其中的某个目标，将该目标在某一图像帧中的目标对象记为a，该目标在同一数据块中另一图像帧中的目标对象记为p，同时选择一个与该目标身份不同的另一目标并将其在某一图像帧中的目标对象记为n；重复上述步骤得到m组三元组样本对<a,p,n>，则基于该数据块得到的三元组损失值L为：

其中α为正负类样本间的阈值距离，且：

步骤2-4、重复步骤2-2至2-3，直至达到循环次数。

Claims

1.一种基于特征联合学习的遥感视频海陆运动目标跟踪方法，其特征在于步骤包括：

步骤2的训练过程如下：

步骤2-1中，取m个图像帧的方式为：先任意选择遥感视频中的2m个连续的图像帧，再从2m个连续图像帧中随机选择m个图像帧；步骤2-2、将数据块输入到目标跟踪模型中，经特征学习模块、目标信息提取模块、目标位置检测模块后计算目标检测损失并优化上述三个模块的参数；

步骤2-2的具体方式为：对每一图像帧，对于不同的尺度，分别计算所有的目标对应的由目标位置检测模块预测的位置信息与对应的标注位置信息之间的偏差v，计算最小的偏差v对应的目标所对应的位置信息与其所对应的标注位置信息的交并比，基于该交并比求得该尺度下的定位损失和置信度损失；然后将不同尺度的定位损失和不同尺度的置信度损失分别加权求和，得到当前图像帧的最终损失值，并基于该损失值调整目标跟踪模型的参数；

步骤2-3的具体方式为：对于某一数据块，随机选择其中的某个目标，将该目标在某一图像帧中的目标对象记为a，该目标在同一数据块中另一图像帧中的目标对象记为p，同时选择一个与该目标身份不同的另一目标并将其在某一图像帧中的目标对象记为n；重复上述步骤得到m组三元组样本对<a,p,n>，则基于该数据块得到的三元组损失值L为：

其中α为正负类样本间的阈值距离，且：

表示目标在目标信息提取模块所提取的目标信息特征中所对应的信息特征向量；

步骤2-4、重复步骤2-2至2-3，直至达到循环次数；

2.如权利要求1所述的基于特征联合学习的遥感视频海陆运动目标跟踪方法，其特征在于：所述特征学习模块包括YOLOv5模型的骨干网络和YOLOv5模型的特征融合网络。

3.如权利要求1所述的基于特征联合学习的遥感视频海陆运动目标跟踪方法，其特征在于：所述目标信息提取模块包括三个与特征学习模块所提取的特征一一对应的卷积层，每个卷积层的卷积核为1×1、通道数为3072；每一尺度下的所述目标信息特征包含了3个与三种不同的目标大小一一对应的、长度分别均为1024的信息特征向量。

4.如权利要求1所述的基于特征联合学习的遥感视频海陆运动目标跟踪方法，其特征在于：采用YOLOv5的检测头作为目标位置检测模块，在其所输出的目标检测结果中，使用长度为15的向量表示对应的网格中的三种目标大小的目标的结果信息，每一种目标大小的目标的结果信息包括占用该向量4个节点的位置信息和占用该向量1个节点的、用于表示该网格中是否存在目标的置信度。

5.如权利要求3所述的基于特征联合学习的遥感视频海陆运动目标跟踪方法，其特征在于，关联模块中通过以下方式进行关联：

对于当前第k个目标所有的d_k,j中的最小值记为d_k；

如果d_k≥θ，则将目标视为新出现的目标，并在目标存储栈中新建目标，记录该目标在第i+1个图像帧中的位置信息和信息特征向量；如果d_k<θ，则将d_k对应的第i个图像帧中的目标判定为与/>是相同目标，将该目标在第i+1个图像帧中的位置信息和信息特征向量添加到目标存储栈中相应目标中，完成目标的关联；θ为身份判定阈值；第i+1个图像帧中的所有目标遍历完成后，第i个图像帧中未能与第i+1个图像帧中的目标建立关联的目标被判定为已消失目标，从目标存储栈中删除该目标。

6.如权利要求5所述的基于特征联合学习的遥感视频海陆运动目标跟踪方法，其特征在于，身份判定阈值θ的计算方式为：