CN117576164B - 基于特征联合学习的遥感视频海陆运动目标跟踪方法 - Google Patents
基于特征联合学习的遥感视频海陆运动目标跟踪方法 Download PDFInfo
- Publication number
- CN117576164B CN117576164B CN202311719139.7A CN202311719139A CN117576164B CN 117576164 B CN117576164 B CN 117576164B CN 202311719139 A CN202311719139 A CN 202311719139A CN 117576164 B CN117576164 B CN 117576164B
- Authority
- CN
- China
- Prior art keywords
- target
- information
- feature
- module
- image frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000001514 detection method Methods 0.000 claims abstract description 51
- 238000000605 extraction Methods 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims description 32
- 238000002372 labelling Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/098—Distributed learning, e.g. federated learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于特征联合学习的遥感视频海陆运动目标跟踪方法,步骤包括:步骤1、构建目标跟踪模型;所述目标跟踪模型包括特征学习模块、目标信息提取模块、目标位置检测模块以及关联模块;步骤2、训练所述目标跟踪模型;训练时,针对目标信息特征引入三元组损失;步骤3、使用训练后的目标跟踪模型对视频中的目标进行跟踪:将视频按时间顺序分为多个图像帧,将图像帧顺序输入到目标跟踪模型中,实现目标跟踪。本发明基于YOLOv5算法,通过三元组损失优化目标身份特征,可以提高每帧图像中的跟踪精度,实现不限个体数量的目标跟踪,同时还能简化耗时最长的关联步骤,实现快速准确的遥感视频海陆运动目标跟踪。
Description
技术领域
本发明属于计算机图像识别领域,具体涉及一种遥感视频目标跟踪方法。
背景技术
随着遥感技术的快速发展,遥感视频数据在军事侦察、环境监测、城市规划、交通管理等领域的应用变得越来越广泛。然而,由于遥感视频数据具有高时空分辨率、小目标尺寸、复杂多变背景等特点,有效提取和跟踪目标成为了一项挑战性任务。因此,研究高效、稳定且快速的遥感视频目标跟踪方法具有重要意义。
遥感视频目标跟踪方法主要分为基于传统计算机视觉的方法和基于深度学习的方法。
传统方法通常利用目标的颜色、纹理、形状等特征进行跟踪,例如光流法、均值漂移法、粒子滤波法等。这些方法在简单场景下表现良好,但在复杂背景和相似干扰物面前,容易出现跟踪漂移或失败。
近年来,深度学习在计算机视觉领域取得显著成果,尤其是卷积神经网络(CNN)在目标检测和识别方面展现出强大能力。基于深度学习的方法通常结合CNN提取目标深度特征,并利用相关滤波、孪生网络、循环神经网络(RNN)等技术实现目标跟踪。
主流的深度学习目标跟踪方法又分为SDE(Separate Detection and Embedding)和JDE(Joint Detection and Embedding)两种模式。SDE模式将目标跟踪任务分为目标检测、特征提取和目标关联三步:先通过目标检测方法确定物体位置,再用特征提取模型获取特征向量,最后用传统方法实现目标身份关联。JDE模式则将目标检测与特征提取整合至一个模型中,通过联合调优实现特征联合学习。JDE算法在YOLOv3的基础上增加了关联特征学习分支,在该分支中,算法将每个个体视为一类,通过全连接层映射关联特征至输出节点,实现目标个体识别,最后用卡尔曼滤波和匈牙利算法完成目标关联。
JDE方法通过在目标检测算法YOLOv3上添加分类分支以联合学习最优特征,组合了检测和关联特征学习过程,实现了目标的实时跟踪,该方法因速度快于SDE而成为研究的主流方法。但在处理遥感视频时,尚存在三个问题:一是基于YOLOv3的目标检测效果有限;二是分类分支需要将每个跟踪个体视为一个类别,而跟踪目标个体数量庞大,导致算法耗时长、分类精度低,不适用于个体数量较多的目标跟踪任务;三是目标关联任务耗时长,制约了算法的性能和速度。
发明内容
本发明提出了一种基于特征联合学习的遥感视频海陆运动目标跟踪方法,其目的是:一、提高目标跟踪任务中检测的准确度;二、实现不限个体数量的目标跟踪;三、提高目标关联任务的速度。
本发明技术方案如下:
一种基于特征联合学习的遥感视频海陆运动目标跟踪方法,步骤包括:
步骤1、构建目标跟踪模型;所述目标跟踪模型包括特征学习模块、目标信息提取模块、目标位置检测模块以及关联模块;
所述特征学习模块基于YOLOv5模型,用于按三种不同尺度将图像帧划分为多个网格,并在三种不同尺度下分别提取每个网格的特征;
所述目标信息提取模块用于根据特征学习模块提取的三种不同尺度的特征得到一一对应的三种不同尺度下的目标信息特征,所述目标信息特征包含了目标的身份特征信息和位置特征信息;
所述目标位置检测模块用于根据目标信息提取模块输出的三种不同尺度下的目标信息特征得到三种不同尺度下的目标检测结果,所述目标检测结果包含目标的位置信息;
所述关联模块用于建立相邻的图像帧中检测到的目标之间的关联;
步骤2、训练所述目标跟踪模型;训练时,针对目标信息特征引入三元组损失;
步骤3、使用训练后的目标跟踪模型对视频中的目标进行跟踪:将视频按时间顺序分为多个图像帧,将图像帧顺序输入到目标跟踪模型中,图像帧依次经过特征学习模块、目标信息提取模块和目标位置检测模块从而得到各图像帧中的目标检测结果,然后由关联模块完成相邻图像帧的目标之间的关联,实现目标跟踪。
作为所述基于特征联合学习的遥感视频海陆运动目标跟踪方法的进一步改进,所述特征学习模块包括YOLOv5模型的骨干网络和YOLOv5模型的特征融合网络。
作为所述基于特征联合学习的遥感视频海陆运动目标跟踪方法的进一步改进,所述目标信息提取模块包括三个与特征学习模块所提取的特征一一对应的卷积层,每个卷积层的卷积核为1×1、通道数为3072;每一尺度下的所述目标信息特征包含了3个与三种不同的目标大小一一对应的、长度分别均为1024的信息特征向量。
作为所述基于特征联合学习的遥感视频海陆运动目标跟踪方法的进一步改进,采用YOLOv5的检测头作为目标位置检测模块,在其所输出的目标检测结果中,使用长度为15的向量表示对应的网格中的三种目标大小的目标的结果信息,每一种目标大小的目标的结果信息包括占用该向量4个节点的位置信息和占用该向量1个节点的、用于表示该网格中是否存在目标的置信度。
作为所述基于特征联合学习的遥感视频海陆运动目标跟踪方法的进一步改进,关联模块中通过以下方式进行关联:
对于相邻的两个图像帧——第i个图像帧和第i+1个图像帧,遍历第i+1个图像帧中的每一个目标,分别求得当前目标与第i个图像帧中每一个目标之间的距离,将第i+1个图像帧中第k个目标与第i个图像帧中第j个目标/>之间的距离记为dk,j,计算方式为:
其中,表示目标在目标信息提取模块所提取的目标信息特征中所对应的信息特征向量;
对于当前第k个目标所有的dk,j中的最小值记为dk;
如果dk≥θ,则将目标视为新出现的目标,并在目标存储栈中新建目标,记录该目标在第i+1个图像帧中的位置信息和信息特征向量;如果dk<θ,则将dk对应的第i个图像帧中的目标判定为与/>是相同目标,将该目标在第i+1个图像帧中的位置信息和信息特征向量添加到目标存储栈中相应目标中,完成目标的关联;θ为身份判定阈值;
第i+1个图像帧中的所有目标遍历完成后,第i个图像帧中未能与第i+1个图像帧中的目标建立关联的目标被判定为已消失目标,从目标存储栈中删除该目标。
作为所述基于特征联合学习的遥感视频海陆运动目标跟踪方法的进一步改进,身份判定阈值θ的计算方式为:
选择t个目标,计算每个目标在任意一组相邻图像帧中的信息特征向量之间的距离,将t组距离的平均值记为Ed、标准差记为vard,则θ=Ed+3vard。
作为所述基于特征联合学习的遥感视频海陆运动目标跟踪方法的进一步改进,步骤2的训练过程如下:
步骤2-1、构建训练集,所述训练集中包括多个数据块,每个数据块包括m个取自同一遥感视频、按时间顺序排列的图像帧,还包括与图像帧对应的标注位置信息,所述标注位置信息用于表示目标在图像帧中的位置,m个图像帧中的同一目标使用相同的ID标注;
步骤2-2、将数据块输入到目标跟踪模型中,经特征学习模块、目标信息提取模块、目标位置检测模块后计算目标检测损失并优化上述三个模块的参数;
步骤2-3、将数据块输入到目标跟踪模型中,对于每一个数据块,经特征学习模块、目标信息提取模块后分别计算一个三元组损失,然后根据三元组损失调整上述两个模块的参数;
步骤2-4、重复步骤2-2至2-3,直至达到循环次数。
作为所述基于特征联合学习的遥感视频海陆运动目标跟踪方法的进一步改进,步骤2-1中,取m个图像帧的方式为:先任意选择遥感视频中的2m个连续的图像帧,再从2m个连续图像帧中随机选择m个图像帧。
作为所述基于特征联合学习的遥感视频海陆运动目标跟踪方法的进一步改进,步骤2-2的具体方式为:对每一图像帧,对于不同的尺度,分别计算所有的目标对应的由目标位置检测模块预测的位置信息与对应的标注位置信息之间的偏差v,计算最小的偏差v对应的目标所对应的位置信息与其所对应的标注位置信息的交并比,基于该交并比求得该尺度下的定位损失和置信度损失;然后将不同尺度的定位损失和不同尺度的置信度损失分别加权求和,得到当前图像帧的最终损失值,并基于该损失值调整目标跟踪模型的参数。
作为所述基于特征联合学习的遥感视频海陆运动目标跟踪方法的进一步改进,步骤2-3的具体方式为:对于某一数据块,随机选择其中的某个目标,将该目标在某一图像帧中的目标对象记为a,该目标在同一数据块中另一图像帧中的目标对象记为p,同时选择一个与该目标身份不同的另一目标并将其在某一图像帧中的目标对象记为n;重复上述步骤得到m组三元组样本对<a,p,n>,则基于该数据块得到的三元组损失值L为:
其中α为正负类样本间的阈值距离,且:
表示目标在目标信息提取模块所提取的目标信息特征中所对应的信息特征向量。
相对于现有技术,本发明具有以下有益效果:
本发明基于YOLOv5算法,可以获取准确的目标检测框,从而提高每帧图像中的跟踪精度;同时可以使用身份特征识别针对每个个体获得相应的特征,从而实现不限个体数量的目标跟踪;进一步引入三元组损失函数训练网络,对同一身份、相近帧的目标学习尽量相似的特征,从而简化耗时最长的关联步骤,最终实现快速准确的遥感视频海陆运动目标跟踪。
具体的:
一、本发明引入YOLOv5作为目标跟踪的基础算法,相对于YOLOv3,YOLOv5能够在保持较高检测速度的同时获得较高的检测准确度,从而提高目标跟踪的准确度。
二、目标信息提取模块能够提取不同目标的身份特征信息和位置特征信息,并通过比较实现目标关联。已有JDE算法根据训练集中跟踪目标数量使用了14455个节点,将每个目标个体视为一类进行one-hot分类。由于每个目标个体的图像数量少,且分类节点数量多,容易导致所学特征不够充分,训练困难;另一方面,实际测试中所跟踪目标个体数量未知,采用目标分类分支的输出或所提取特征作为目标的身份特征进行关联时,由于该特征是基于已有目标进行的训练,对新出现目标的特征提取能力有限,因此也会影响算法性能。相对于JDE框架,本方法通过长度为1024的向量学习不同尺度不同大小的目标的特征,而非对其进行个体分类,避免了需要预先知道跟踪目标数量的问题,可以适用于不限个体数量的目标跟踪任务中。
三、引入三元组损失函数增大不同身份、不同帧目标的特征间距,减小同一身份、相近帧的特征间距。三元组函数能够有效解决遥感图像中不同目标相似度高、相同目标差异大导致的同一目标特征距离相对较远、不同目标特征距离相对较近的问题,从而得到更好的特征空间,获得更明确的分类边界。
附图说明
图1为本发明中跟踪模型的框架示意图。
具体实施方式
下面结合附图详细说明本发明的技术方案:
一种基于特征联合学习的遥感视频海陆运动目标跟踪方法,步骤包括:
步骤1、构建目标跟踪模型。
如图1,所述目标跟踪模型包括特征学习模块、目标信息提取模块、目标位置检测模块以及关联模块。
(一)所述特征学习模块基于YOLOv5模型,包括了YOLOv5模型的骨干网络(Backbone)和YOLOv5模型的特征融合网络(Neck),用于按三种不同尺度将图像帧划分为多个网格,并在三种不同尺度下分别提取每个网格的特征。
本实施例中,特征学习模块的输入为m张608×608×3尺寸的图像帧构成的输入数据块,输出为相应的m个76*76*256、38*38*512、19*19*1024的三个尺度的特征。
(二)所述目标信息提取模块用于根据特征学习模块提取的三种不同尺度的特征得到一一对应的三种不同尺度下的目标信息特征,所述目标信息特征包含了目标的身份特征信息和位置特征信息。
具体的,所述目标信息提取模块包括三个与特征学习模块所提取的特征一一对应的卷积层,每个卷积层的卷积核为1×1、通道数为3072;每一尺度下的所述目标信息特征包含了3个与三种不同的目标大小一一对应的、长度分别均为1024的信息特征向量。
本实施例中,3个信息特征向量的尺度分别为76*76*3072,38*38*3072,19*19*3072,记为D1、D2、D3。以D1为例,76*76代表将大小为608*608的输入图像划分成76*76个网格,故每个网格大小为8*8像素。每个尺度的每个特征向量预测3种大小的目标,在此设置每种大小目标的目标信息特征向量的长度为1024,则3种大小目标信息特征长度总计为1024*3=3072。因此,D1表示预测输入图像中每个8*8网格中可能存在的3种大小的目标。
(三)所述目标位置检测模块用于根据目标信息提取模块输出的三种不同尺度下的目标信息特征得到三种不同尺度下的目标检测结果,其维度分别为76*76*15,38*38*15,19*19*15,记为E1、E2、E3。所述目标检测结果包含目标的位置信息。
具体的,采用YOLOv5的检测头作为目标位置检测模块,在其所输出的目标检测结果中,使用长度为15的向量表示对应的网格中的三种目标大小的目标的结果信息,每一种目标大小的目标的结果信息包括占用该向量4个节点的位置信息(cx,cy,w,h)和占用该向量1个节点的、用于表示该网格中是否存在目标的置信度。
(四)所述关联模块用于建立相邻的图像帧中检测到的目标之间的关联。
具体的,关联模块中通过以下方式进行关联:
对于相邻的两个图像帧——第i个图像帧和第i+1个图像帧,遍历第i+1个图像帧中的每一个目标,分别求得当前目标与第i个图像帧中每一个目标之间的距离,将第i+1个图像帧中第k个目标与第i个图像帧中第j个目标/>之间的距离记为dk,j,计算方式为:
其中,表示目标在目标信息提取模块所提取的目标信息特征中所对应的信息特征向量。
对于当前第k个目标所有的dk,j中的最小值记为dk。
如果dk≥θ,则将目标视为新出现的目标,并在目标存储栈中新建目标,记录该目标在第i+1个图像帧中的位置信息和信息特征向量。如果dk<θ,则将dk对应的第i个图像帧中的目标判定为与/>是相同目标,将该目标在第i+1个图像帧中的位置信息和信息特征向量添加到目标存储栈中相应目标中,完成目标的关联。θ为身份判定阈值。
其中,身份判定阈值θ的计算方式为:选择t个目标,计算每个目标在任意一组相邻图像帧中的信息特征向量之间的距离,将t组距离的平均值记为Ed、标准差记为vard,则θ=Ed+3vard。
第i+1个图像帧中的所有目标遍历完成后,第i个图像帧中未能与第i+1个图像帧中的目标建立关联的目标被判定为已消失目标,从目标存储栈中删除该目标。
步骤2、训练所述目标跟踪模型;训练时,针对目标信息特征引入三元组损失。
本实施例中,使用Adam作为模型优化器,设置学习率为0.0002,具体训练过程如下:
步骤2-1、构建训练集,所述训练集中包括多个数据块,每个数据块包括m个取自同一遥感视频、按时间顺序排列的图像帧,还包括与图像帧对应的标注位置信息,所述标注位置信息用于表示目标在图像帧中的位置,m个图像帧中的同一目标使用相同的ID标注。
本步骤中,取m个图像帧的方式为:先任意选择遥感视频中的2m个连续的图像帧,再从2m个连续图像帧中随机选择m个图像帧。
步骤2-2、将数据块输入到目标跟踪模型中,经特征学习模块、目标信息提取模块、目标位置检测模块后计算目标检测损失并优化上述三个模块的参数。
本步骤的具体过程为:对每一图像帧,对于不同的尺度,分别计算所有的目标对应的由目标位置检测模块预测的位置信息与对应的标注位置信息之间的偏差v,计算最小的偏差v对应的目标所对应的位置信息与其所对应的标注位置信息的交并比,基于该交并比求得该尺度下的定位损失和置信度损失;然后将不同尺度的定位损失和不同尺度的置信度损失分别加权求和,得到当前图像帧的最终损失值,并基于该损失值调整目标跟踪模型的参数。
步骤2-3、将数据块输入到目标跟踪模型中,对于每一个数据块,经特征学习模块、目标信息提取模块后分别计算一个三元组损失,然后根据三元组损失调整上述两个模块的参数。
在理想情况下,若特征学习模块能够充分学习目标身份特征,则在不同帧中提取的同一身份目标的身份特征应该相同;若特征学习模块能够充分学习目标的位置特征,则邻近两帧的同一身份目标的位置特征的差异应该很小。因此,对于同一身份目标,该目标在相近帧所提取的信息应该尽量相近。为了对同一身份、相近帧的目标学习尽量相似的目标信息特征、不同身份的目标学习不同的目标信息特征,以提高后续目标关联效果,引入三元组损失函数优化所学目标信息特征。
本步骤的具体过程为:
对于某一数据块,随机选择其中的某个目标,将该目标在某一图像帧中的目标对象记为a,该目标在同一数据块中另一图像帧中的目标对象记为p,同时选择一个与该目标身份不同的另一目标并将其在某一图像帧中的目标对象记为n;重复上述步骤得到m组三元组样本对<a,p,n>,则基于该数据块得到的三元组损失值L为:
其中α为正负类样本间的阈值距离,且:
表示目标在目标信息提取模块所提取的目标信息特征中所对应的信息特征向量。
步骤2-4、重复步骤2-2至2-3,直至达到循环次数。
步骤3、使用训练后的目标跟踪模型对视频中的目标进行跟踪:将视频按时间顺序分为多个图像帧,将图像帧顺序输入到目标跟踪模型中,图像帧依次经过特征学习模块、目标信息提取模块和目标位置检测模块从而得到各图像帧中的目标检测结果,然后由关联模块完成相邻图像帧的目标之间的关联,实现目标跟踪。
Claims (6)
1.一种基于特征联合学习的遥感视频海陆运动目标跟踪方法,其特征在于步骤包括:
步骤1、构建目标跟踪模型;所述目标跟踪模型包括特征学习模块、目标信息提取模块、目标位置检测模块以及关联模块;
所述特征学习模块基于YOLOv5模型,用于按三种不同尺度将图像帧划分为多个网格,并在三种不同尺度下分别提取每个网格的特征;
所述目标信息提取模块用于根据特征学习模块提取的三种不同尺度的特征得到一一对应的三种不同尺度下的目标信息特征,所述目标信息特征包含了目标的身份特征信息和位置特征信息;
所述目标位置检测模块用于根据目标信息提取模块输出的三种不同尺度下的目标信息特征得到三种不同尺度下的目标检测结果,所述目标检测结果包含目标的位置信息;
所述关联模块用于建立相邻的图像帧中检测到的目标之间的关联;
步骤2、训练所述目标跟踪模型;训练时,针对目标信息特征引入三元组损失;
步骤2的训练过程如下:
步骤2-1、构建训练集,所述训练集中包括多个数据块,每个数据块包括m个取自同一遥感视频、按时间顺序排列的图像帧,还包括与图像帧对应的标注位置信息,所述标注位置信息用于表示目标在图像帧中的位置,m个图像帧中的同一目标使用相同的ID标注;
步骤2-1中,取m个图像帧的方式为:先任意选择遥感视频中的2m个连续的图像帧,再从2m个连续图像帧中随机选择m个图像帧;步骤2-2、将数据块输入到目标跟踪模型中,经特征学习模块、目标信息提取模块、目标位置检测模块后计算目标检测损失并优化上述三个模块的参数;
步骤2-2的具体方式为:对每一图像帧,对于不同的尺度,分别计算所有的目标对应的由目标位置检测模块预测的位置信息与对应的标注位置信息之间的偏差v,计算最小的偏差v对应的目标所对应的位置信息与其所对应的标注位置信息的交并比,基于该交并比求得该尺度下的定位损失和置信度损失;然后将不同尺度的定位损失和不同尺度的置信度损失分别加权求和,得到当前图像帧的最终损失值,并基于该损失值调整目标跟踪模型的参数;
步骤2-3、将数据块输入到目标跟踪模型中,对于每一个数据块,经特征学习模块、目标信息提取模块后分别计算一个三元组损失,然后根据三元组损失调整上述两个模块的参数;
步骤2-3的具体方式为:对于某一数据块,随机选择其中的某个目标,将该目标在某一图像帧中的目标对象记为a,该目标在同一数据块中另一图像帧中的目标对象记为p,同时选择一个与该目标身份不同的另一目标并将其在某一图像帧中的目标对象记为n;重复上述步骤得到m组三元组样本对<a,p,n>,则基于该数据块得到的三元组损失值L为:
其中α为正负类样本间的阈值距离,且:
表示目标在目标信息提取模块所提取的目标信息特征中所对应的信息特征向量;
步骤2-4、重复步骤2-2至2-3,直至达到循环次数;
步骤3、使用训练后的目标跟踪模型对视频中的目标进行跟踪:将视频按时间顺序分为多个图像帧,将图像帧顺序输入到目标跟踪模型中,图像帧依次经过特征学习模块、目标信息提取模块和目标位置检测模块从而得到各图像帧中的目标检测结果,然后由关联模块完成相邻图像帧的目标之间的关联,实现目标跟踪。
2.如权利要求1所述的基于特征联合学习的遥感视频海陆运动目标跟踪方法,其特征在于:所述特征学习模块包括YOLOv5模型的骨干网络和YOLOv5模型的特征融合网络。
3.如权利要求1所述的基于特征联合学习的遥感视频海陆运动目标跟踪方法,其特征在于:所述目标信息提取模块包括三个与特征学习模块所提取的特征一一对应的卷积层,每个卷积层的卷积核为1×1、通道数为3072;每一尺度下的所述目标信息特征包含了3个与三种不同的目标大小一一对应的、长度分别均为1024的信息特征向量。
4.如权利要求1所述的基于特征联合学习的遥感视频海陆运动目标跟踪方法,其特征在于:采用YOLOv5的检测头作为目标位置检测模块,在其所输出的目标检测结果中,使用长度为15的向量表示对应的网格中的三种目标大小的目标的结果信息,每一种目标大小的目标的结果信息包括占用该向量4个节点的位置信息和占用该向量1个节点的、用于表示该网格中是否存在目标的置信度。
5.如权利要求3所述的基于特征联合学习的遥感视频海陆运动目标跟踪方法,其特征在于,关联模块中通过以下方式进行关联:
对于相邻的两个图像帧——第i个图像帧和第i+1个图像帧,遍历第i+1个图像帧中的每一个目标,分别求得当前目标与第i个图像帧中每一个目标之间的距离,将第i+1个图像帧中第k个目标与第i个图像帧中第j个目标/>之间的距离记为dk,j,计算方式为:
其中,表示目标在目标信息提取模块所提取的目标信息特征中所对应的信息特征向量;
对于当前第k个目标所有的dk,j中的最小值记为dk;
如果dk≥θ,则将目标视为新出现的目标,并在目标存储栈中新建目标,记录该目标在第i+1个图像帧中的位置信息和信息特征向量;如果dk<θ,则将dk对应的第i个图像帧中的目标判定为与/>是相同目标,将该目标在第i+1个图像帧中的位置信息和信息特征向量添加到目标存储栈中相应目标中,完成目标的关联;θ为身份判定阈值;第i+1个图像帧中的所有目标遍历完成后,第i个图像帧中未能与第i+1个图像帧中的目标建立关联的目标被判定为已消失目标,从目标存储栈中删除该目标。
6.如权利要求5所述的基于特征联合学习的遥感视频海陆运动目标跟踪方法,其特征在于,身份判定阈值θ的计算方式为:
选择t个目标,计算每个目标在任意一组相邻图像帧中的信息特征向量之间的距离,将t组距离的平均值记为Ed、标准差记为vard,则θ=Ed+3vard。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311719139.7A CN117576164B (zh) | 2023-12-14 | 2023-12-14 | 基于特征联合学习的遥感视频海陆运动目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311719139.7A CN117576164B (zh) | 2023-12-14 | 2023-12-14 | 基于特征联合学习的遥感视频海陆运动目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117576164A CN117576164A (zh) | 2024-02-20 |
CN117576164B true CN117576164B (zh) | 2024-05-03 |
Family
ID=89893893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311719139.7A Active CN117576164B (zh) | 2023-12-14 | 2023-12-14 | 基于特征联合学习的遥感视频海陆运动目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117576164B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019101220A1 (zh) * | 2017-12-11 | 2019-05-31 | 珠海大横琴科技发展有限公司 | 基于深度学习网络和均值漂移的船只自动跟踪方法及系统 |
CN110232350A (zh) * | 2019-06-10 | 2019-09-13 | 哈尔滨工程大学 | 一种基于在线学习的实时水面多运动目标检测跟踪方法 |
CN111508002A (zh) * | 2020-04-20 | 2020-08-07 | 北京理工大学 | 一种小型低飞目标视觉检测跟踪系统及其方法 |
CN111882580A (zh) * | 2020-07-17 | 2020-11-03 | 元神科技(杭州)有限公司 | 一种视频多目标跟踪方法及系统 |
CN112308881A (zh) * | 2020-11-02 | 2021-02-02 | 西安电子科技大学 | 一种基于遥感图像的舰船多目标跟踪方法 |
CN113780152A (zh) * | 2021-09-07 | 2021-12-10 | 北京航空航天大学 | 一种基于目标感知的遥感图像船只小目标检测方法 |
CN114066937A (zh) * | 2021-11-06 | 2022-02-18 | 中国电子科技集团公司第五十四研究所 | 一种大尺度遥感影像多目标跟踪方法 |
WO2023094894A1 (zh) * | 2021-11-24 | 2023-06-01 | 商汤国际私人有限公司 | 目标跟踪、事件检测方法及装置、电子设备和存储介质 |
WO2023159558A1 (zh) * | 2022-02-28 | 2023-08-31 | 中国科学院深圳先进技术研究院 | 一种实时目标跟踪方法、装置及存储介质 |
CN116895016A (zh) * | 2023-06-27 | 2023-10-17 | 中国人民解放军海军航空大学 | 一种sar图像船舶目标生成与分类方法 |
WO2023216572A1 (zh) * | 2022-05-07 | 2023-11-16 | 深圳先进技术研究院 | 一种跨视频目标跟踪方法、系统、电子设备以及存储介质 |
-
2023
- 2023-12-14 CN CN202311719139.7A patent/CN117576164B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019101220A1 (zh) * | 2017-12-11 | 2019-05-31 | 珠海大横琴科技发展有限公司 | 基于深度学习网络和均值漂移的船只自动跟踪方法及系统 |
CN110232350A (zh) * | 2019-06-10 | 2019-09-13 | 哈尔滨工程大学 | 一种基于在线学习的实时水面多运动目标检测跟踪方法 |
CN111508002A (zh) * | 2020-04-20 | 2020-08-07 | 北京理工大学 | 一种小型低飞目标视觉检测跟踪系统及其方法 |
CN111882580A (zh) * | 2020-07-17 | 2020-11-03 | 元神科技(杭州)有限公司 | 一种视频多目标跟踪方法及系统 |
CN112308881A (zh) * | 2020-11-02 | 2021-02-02 | 西安电子科技大学 | 一种基于遥感图像的舰船多目标跟踪方法 |
CN113780152A (zh) * | 2021-09-07 | 2021-12-10 | 北京航空航天大学 | 一种基于目标感知的遥感图像船只小目标检测方法 |
CN114066937A (zh) * | 2021-11-06 | 2022-02-18 | 中国电子科技集团公司第五十四研究所 | 一种大尺度遥感影像多目标跟踪方法 |
WO2023094894A1 (zh) * | 2021-11-24 | 2023-06-01 | 商汤国际私人有限公司 | 目标跟踪、事件检测方法及装置、电子设备和存储介质 |
WO2023159558A1 (zh) * | 2022-02-28 | 2023-08-31 | 中国科学院深圳先进技术研究院 | 一种实时目标跟踪方法、装置及存储介质 |
WO2023216572A1 (zh) * | 2022-05-07 | 2023-11-16 | 深圳先进技术研究院 | 一种跨视频目标跟踪方法、系统、电子设备以及存储介质 |
CN116895016A (zh) * | 2023-06-27 | 2023-10-17 | 中国人民解放军海军航空大学 | 一种sar图像船舶目标生成与分类方法 |
Non-Patent Citations (7)
Title |
---|
Application Research of GEO Remote Sensing Satellite in Ship Detection and Tracking;Wang Liyun等;Spacecraft Engineering;20220401;第30卷(第5期);133-139 * |
Feature aligned ship detection based on improved RPDet in SAR images;Xu congan, Gao long等;Displays: Technology and Application;20220322;全文 * |
一种轻量化SAR图像舰船目标斜框检测方法;苏航, 徐从安, 高龙等;航空学报;20220916;第43卷(第S1期);157-164页 * |
信息科技.2022,第2022卷全文. * |
基于深度学习的多船舶目标跟踪与流量统计;冼允廷;邱伟健;;微型电脑应用;20200320(第03期);15-18页 * |
曾德宁.基于深度学习的遥感视频目标检测与多目标跟踪.中国优秀硕士学位论文全文数据库工程科技Ⅱ辑 * |
视频卫星单目标实时跟踪算法;张作省;朱瑞飞;钟兴;高放;;火力与指挥控制;20191215(第12期);47-52页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117576164A (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113516012B (zh) | 一种基于多层级特征融合的行人重识别方法及系统 | |
CN108961235B (zh) | 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法 | |
CN110276264B (zh) | 一种基于前景分割图的人群密度估计方法 | |
CN112347970B (zh) | 一种基于图卷积神经网络的遥感影像地物识别方法 | |
CN111882620B (zh) | 一种基于多尺度信息道路可行驶区域分割方法 | |
CN110766723B (zh) | 一种基于颜色直方图相似性的无人机目标跟踪方法及系统 | |
CN111460936A (zh) | 基于U-Net网络的遥感影像建筑物提取方法、系统、电子设备 | |
CN112395957A (zh) | 一种针对视频目标检测的在线学习方法 | |
CN112712052A (zh) | 一种机场全景视频中微弱目标的检测识别方法 | |
CN114973207B (zh) | 一种基于目标检测的路标识别方法 | |
CN104517289A (zh) | 一种基于混合摄像机的室内场景定位方法 | |
CN114861761B (zh) | 一种基于孪生网络特征与几何验证的回环检测方法 | |
CN107609509A (zh) | 一种基于运动显著性区域检测的动作识别方法 | |
CN113129336A (zh) | 一种端到端多车辆跟踪方法、系统及计算机可读介质 | |
CN112766237A (zh) | 一种基于簇特征点聚类的无监督行人重识别方法 | |
CN113743505A (zh) | 基于自注意力和特征融合的改进ssd目标检测方法 | |
CN114913498A (zh) | 一种基于关键点估计的并行多尺度特征聚合车道线检测方法 | |
CN116342894A (zh) | 基于改进YOLOv5的GIS红外特征识别系统及方法 | |
CN116402690A (zh) | 一种基于多头自注意力机制的高分辨率遥感影像中道路提取方法、系统、设备及介质 | |
CN113128410A (zh) | 一种基于轨迹关联学习的弱监督行人重识别方法 | |
CN114998688B (zh) | 一种基于YOLOv4改进算法的大视场目标检测方法 | |
CN116580322A (zh) | 一种地面背景下无人机红外小目标检测方法 | |
CN117576164B (zh) | 基于特征联合学习的遥感视频海陆运动目标跟踪方法 | |
CN114663839B (zh) | 一种遮挡行人重识别方法及系统 | |
CN112487927B (zh) | 一种基于物体关联注意力的室内场景识别实现方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |