CN114820709B - 基于改进UNet网络的单目标跟踪方法、装置、设备及介质 - Google Patents
基于改进UNet网络的单目标跟踪方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN114820709B CN114820709B CN202210480504.2A CN202210480504A CN114820709B CN 114820709 B CN114820709 B CN 114820709B CN 202210480504 A CN202210480504 A CN 202210480504A CN 114820709 B CN114820709 B CN 114820709B
- Authority
- CN
- China
- Prior art keywords
- image
- target
- searched
- layer
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000000605 extraction Methods 0.000 claims abstract description 102
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000011176 pooling Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 description 29
- 230000009191 jumping Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 102100029129 Histone-lysine N-methyltransferase PRDM7 Human genes 0.000 description 3
- 101100244908 Homo sapiens PRDM7 gene Proteins 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 101100533323 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SFM1 gene Proteins 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 102100037642 Elongation factor G, mitochondrial Human genes 0.000 description 1
- 101000880344 Homo sapiens Elongation factor G, mitochondrial Proteins 0.000 description 1
- 101000967222 Homo sapiens Homeobox protein MSX-2 Proteins 0.000 description 1
- 101000779608 Homo sapiens Homeobox protein aristaless-like 4 Proteins 0.000 description 1
- 101000687340 Homo sapiens PR domain zinc finger protein 4 Proteins 0.000 description 1
- 101001124906 Homo sapiens PR domain zinc finger protein 5 Proteins 0.000 description 1
- 101100244906 Homo sapiens PRDM6 gene Proteins 0.000 description 1
- 101000719024 Homo sapiens Ribosome-releasing factor 2, mitochondrial Proteins 0.000 description 1
- 102100024890 PR domain zinc finger protein 4 Human genes 0.000 description 1
- 102100029132 PR domain zinc finger protein 5 Human genes 0.000 description 1
- 102100029134 Putative histone-lysine N-methyltransferase PRDM6 Human genes 0.000 description 1
- 102100025784 Ribosome-releasing factor 2, mitochondrial Human genes 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 208000003718 parietal foramina 3 Diseases 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于改进UNet网络的单目标跟踪方法、装置、设备及介质,所述方法包括步骤1,选择原始训练集,根据待搜索图像中目标的目标位置,在原始训练集中裁剪出目标模板图像,并利用特征提取方法提取出目标模板图像中的目标得到目标主体图像,目标模板图像、目标主体图像和待搜索图像对构成训练数据集;步骤二,搭建改进UNet孪生网络;步骤3,使用训练数据集训所述改进UNet孪生网络,得到训练好的改进UNet孪生网络;步骤4,使用训练好的改进UNet孪生网络计算待搜索图像序列中的目标位置,实现目标跟踪。
Description
技术领域
本发明涉及一种单目标跟踪方法,具体的说,涉及了一种基于改进UNet网络的单目标跟踪方法、装置、设备及介质。
背景技术
目标跟踪是计算机视觉研究领域的热点之一,并得到广泛应用。相机的跟踪对焦、无人机的自动目标跟踪等都需要用到了目标跟踪技术。另外还有特定物体的跟踪,比如人体跟踪,交通监控系统中的车辆跟踪,人脸跟踪和智能交互系统中的手势跟踪等。简单来说,目标跟踪就是在连续的视频序列中,建立所要跟踪物体的位置关系,得到物体完整的运动轨迹。给定图像第一帧的目标坐标位置,计算在下一帧图像中目标的确切位置。在运动的过程中,目标可能会呈现一些图像上的变化,比如姿态或形状的变化、尺度的变化、背景遮挡或光线亮度的变化等。目标跟踪算法的研究也围绕着解决这些变化和具体的应用展开。
通常目标跟踪面临由几大难点:外观变形,光照变化,快速运动和运动模糊,背景相似干扰,平面外旋转,平面内旋转,尺度变化,遮挡和出视野等情况。而且当目标跟踪算法投入实际应用时,不可避免的一个问题——实时性问题也是非常的重要。正是有了这些问题,才使得算法研究充满着难点和挑战。
为了解决以上存在的问题,人们一直在寻求一种理想的技术解决方案。
发明内容
本发明的目的是针对现有技术的不足,从而提供了一种基于改进UNet网络的单目标跟踪方法、装置、设备及介质。
为了实现上述目的,本发明所采用的技术方案是:一种基于改进UNet网络的单目标跟踪方法,包括以下步骤:
步骤1,选择原始训练集,根据待搜索图像中目标的目标位置,在原始训练集中裁剪出目标模板图像,并利用特征提取方法提取出目标模板图像中的目标得到目标主体图像,目标模板图像、目标主体图像和待搜索图像对构成训练数据集;
步骤2, 搭建改进UNet孪生网络,所述改进UNet孪生网络包括编码器、中间处理器以及解码器,所述编码器包括目标主体图像特征提取网络、待搜索图像特征提取网络以及目标模板图像特征提取网络,所述目标主体图像特征提取网络、所述待搜索图像特征提取网络以及所述目标模板图像特征提取网络为三个权值共享的孪生主干特征提取网络,分别包括三个下采样单元和一个单元,用于得到四层特征图;
所述中间处理器包括得分计算单元以及裁剪单元,所述得分计算单元的输入端分别与待搜索图像特征提取网络以及目标模板图像特征提取网络连接,将目标模板图像的四层特征图与待搜索图像的四层特征图的对应层分别做互相关运算,得到得分图;
所述裁剪单元分别与所述得分计算单元、目标主体图像特征提取网络以及待搜索图像特征提取网络连接,基于得分图分别对目标主体图像的最底层特征图和待搜索图像的高三层特征图进行裁剪;
所述解码器包括三个上采样单元,三个上采样单元分别与待搜索图像的高三层特征图跳跃连接,最底层上采样单元的输入为裁剪后的目标主体图像的最底层特征图,最高层上采样单元的输出为目标在待搜索图像内的目标位置;
步骤3,使用训练数据集训所述改进UNet孪生网络,得到训练好的改进UNet孪生网络;
步骤4,使用训练好的改进UNet孪生网络计算待搜索图像序列中的目标位置,实现目标跟踪。
本发明第二方面提供一种基于改进UNet网络的单目标跟踪装置,包括:
数据集预处理模块,用于根据待搜索图像中目标的目标位置,在原始训练集中裁剪出目标模板图像,并利用特征提取方法提取出目标模板图像中的目标得到目标主体图像,目标模板图像、目标主体图像和待搜索图像对构成训练数据集;
改进UNet孪生网络构建模块,用于引入孪生网络和UNet网络,形成改进UNet孪生网络,所述改进UNet孪生网络包括编码器、中间处理器以及解码器,所述编码器包括目标主体图像特征提取网络、待搜索图像特征提取网络以及目标模板图像特征提取网络,所述目标主体图像特征提取网络、所述待搜索图像特征提取网络以及所述目标模板图像特征提取网络为三个权值共享的孪生主干特征提取网络,分别包括三个下采样单元和一个单元,用于得到四层特征图;
所述中间处理器包括得分计算单元以及裁剪单元,所述得分计算单元的输入端分别与待搜索图像特征提取网络以及目标模板图像特征提取网络连接,将目标模板图像的四层特征图与待搜索图像的四层特征图的对应层分别做互相关运算,得到得分图;
所述裁剪单元分别与所述得分计算单元、目标主体图像特征提取网络以及待搜索图像特征提取网络连接,基于得分图分别对目标主体图像的最底层特征图和待搜索图像的高三层特征图进行裁剪;
所述解码器包括三个上采样单元,三个上采样单元分别与待搜索图像的高三层特征图跳跃连接,最底层上采样单元的输入为裁剪后的目标主体图像的最底层特征图,最高层上采样单元的输出为目标在待搜索图像内的目标位置;
训练模块,用于使用训练数据集训所述改进UNet孪生网络,得到训练好的改进UNet孪生网络;
目标跟踪模块,用于将待搜索图像序列输入训练好的改进UNet孪生网络中,计算待搜索图像序列中的目标位置,实现目标跟踪。
本发明第三方面提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行前述单目标跟踪方法。
本发明第四方面一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行前述单目标跟踪方法。
本发明相对现有技术具有突出的实质性特点和显著的进步,具体的说,本发明更改UNet网络的结构,将UNet的编码器改为三个权值共享的孪生主干特征提取网络,并将每个主干特征提取网络的结构更改为三个下采样单元和1个单元;对应的,将UNet解码器更改为三个上采样单元,三个上采样单元分别与待搜索图像的高三层特征图跳跃连接,最底层上采样单元的输入为裁剪后的目标主体图像的最底层特征图,最高层上采样单元的输出为目标在待搜索图像内的目标位置;将待搜索原图、目标模板图、目标主体图分别输入神孪生主干特征提取网络后,对待搜索原图和目标模板图的对应层特征图计算互相关性得到得分图,基于得分图对待搜索原图的高三层特征图和目标模板图的最底层特征图进行裁剪,可以提高可以有效的提高鲁棒性。随着物体的运动,动态的修改调整目标模板,从而达到更高的跟踪准确度和实时性。
附图说明
图1是本发明的结构示意图。
图2是本发明实施例1中改进UNet孪生网络的结构示意图。
图3是本发明实施例1中步骤4的流程示意图。
图4是本发明实施例2的流程示意图。
图5是本发明实施例2中得分图校正流程示意图。
图6是本发明实施例3的流程示意图。
具体实施方式
下面通过具体实施方式,对本发明的技术方案做进一步的详细描述。
实施例1
如图1所示,本实施例提供一种基于改进UNet网络的单目标跟踪方法,包括以下步骤:
步骤1,选择原始训练集,根据待搜索图像中目标的目标位置,在原始训练集中裁剪出目标模板图像,并利用特征提取方法提取出目标模板图像中的目标得到目标主体图像,目标模板图像、目标主体图像和待搜索图像对构成训练数据集。
步骤2, 搭建改进UNet孪生网络,如图2所示,所述改进UNet孪生网络包括编码器、中间处理器以及解码器,所述编码器包括目标主体图像特征提取网络、待搜索图像特征提取网络以及目标模板图像特征提取网络,所述目标主体图像特征提取网络、所述待搜索图像特征提取网络以及所述目标模板图像特征提取网络为三个权值共享的孪生主干特征提取网络,分别包括三个下采样单元和一个单元,用于得到四层特征图;具体的,所述卷积单元包括2个3x3的卷积层;第一个下采样单元包括一个2x2的最大池化层maxpooling和2个3x3的卷积层,第二个下采样单元包括一个2x2的最大池化层maxpooling和3个3x3的卷积层,第三个下采样单元包括一个2x2的最大池化层maxpooling和4个3x3的卷积层;
具体的,383*383的待搜索图像输入待搜索图像特征提取网络,通过Conv1 、Conv2得到383*383的第一层特征图SFM1,接着通过maxPool1、Conv3、Conv4层得到191*191的第二层特征图SFM2,再接着通过maxPool2、Conv5、Conv6、Conv7层得到95*95的第三层特征图SFM3,最后通过maxPool3、Conv8、Conv9、Conv10、Conv11得到47*47的第四层特征图SFM4。
127*127的目标模板图像输入目标模板图像特征提取网络,通过Conv1 、Conv2得到127*127的第一层特征图GFM1,接着通过maxPool1、Conv3、Conv4层得到63*63的第二层特征图GFM2,再接着通过maxPool2、Conv5、Conv6、Conv7层得到31*31的第三层特征图GFM3,最后通过maxPool3、Conv8、Conv9、Conv10、Conv11得到15*15的第四层特征图GFM4。
127*127的目标主体图像输入目标主体图像提取网络,通过Conv1 、Conv2得到127*127的第一层特征图PFM1,接着通过maxPool1、Conv3、Conv4层得到63*63的第二层特征图PFM2,再接着通过maxPool2、Conv5、Conv6、Conv7层得到31*31的第三层特征图PFM3,最后通过maxPool3、Conv8、Conv9、Conv10、Conv11得到15*15的第四层特征图PFM4。
所述中间处理器包括得分计算单元以及裁剪单元,所述得分计算单元的输入端分别与待搜索图像特征提取网络以及目标模板图像特征提取网络连接,将目标模板图像的四层特征图与待搜索图像的四层特征图的对应层分别做互相关运算,得到得分图;
具体的,互相关计算定义如下:
SMi=GFMi*SFMi
式中*代表互相关操作,i=(1,2,3,4)。
SM1、SM2、SM3、SM4共同构成得分图。
所述裁剪单元分别与所述得分计算单元、目标主体图像特征提取网络以及待搜索图像特征提取网络连接,基于得分图分别对目标主体图像的最底层特征图和待搜索图像的高三层特征图进行裁剪。
具体的,目标主体图像的最底层特征图PFM4经过孪生网络卷积后再基于于得分图进行裁剪;待搜索图像的第三层特征图SFM3经过中心裁剪后,再基于得分图进行裁剪;待搜索图像的第二层特征图SFM2经过中心裁剪后,再基于得分图进行裁剪;待搜索图像的第一层特征图SFM1经过中心裁剪后,再基于得分图进行裁剪。
所述解码器包括三个上采样单元,具体的,上采样单元的个数为3个,每个上采样单元包括一个上采样卷积层、特征拼接单元、一个1*1的卷积层和两个3*3的卷积层和两个3*3的卷积层(ReLU),最上层上采样单元还包括一个1*1的卷积输出层。
三个上采样单元分别与待搜索图像的高三层特征图跳跃连接,最底层上采样单元的输入为裁剪后的目标主体图像的最底层特征图,最高层上采样单元的输出为目标在待搜索图像内的目标位置。
例如目标主体图像的最底层特征图即第四层特征图PFM4 的尺寸为15*15,待搜索图像的第三层特征图的尺寸是31*31,待搜索图像的第二层特征图的尺寸是63*63,待搜索图像的第四层特征图的尺寸是127*127。
目标主体图像的15*15第四层特征图经过上采样或者反卷积,得到31*31的特征图,这个31*31的特征图与待搜索图像的31*31第三层特征图进行通道上的拼接concat,然后再对拼接之后的特征图做卷积和上采样,得到63*63的特征图,再与待搜索图像的63*63第二层特征图进行通道上的拼接concat,然后再对拼接之后的特征图做卷积和上采样,得到127*127的特征图,再与待搜索图像的127*127第一层特征图进行通道上的拼接concat,最后对拼接之后的特征图做卷积,得到一个与目标主体图像尺寸相同的127x127的预测结果。
步骤3,使用训练数据集训所述改进UNet孪生网络,得到训练好的改进UNet孪生网络。
步骤4,使用训练好的改进UNet孪生网络计算待搜索图像序列中的目标位置,实现目标跟踪。
在具体实现时,如图3所示,步骤4的具体步骤如下:
步骤4.1,在待搜索图像序列中,根据第t-1帧待搜索图像的目标位置,剪裁出目标模板图像,利用特征提取方法提取出目标模板图像中的目标,得到目标主体图像,t=2;
步骤4.2,将第t-1帧待搜索图像的目标模板图像输入到训练好的改进UNet孪生网络的目标模板图像特征提取网络中,获得第t-1帧待搜索图像的目标模板图像的四层特征图;将第t-1帧待搜索图像的目标主体图像输入到训练好的改进UNet孪生网络的目标主体图像特征提取网络中,得到第t-1帧待搜索图像的四层目标主体图像特征图;将第t帧待搜索图像输入到训练好的改进UNet孪生网络的待搜索图像特征提取网络中,获得第t帧待搜索图像的四层特征图;
步骤4.3,分别计算第t-1帧待搜索图像的目标模板图像的四层特征图与第t帧待搜索图像的四层特征图的互相关值,得到得分图;
步骤4.4,基于得分图分别对第t-1帧待搜索图像的目标主体图像的最底层特征图和第t帧待搜索图像的高三层特征图进行裁剪;
步骤4.5,将第t-1帧待搜索图像的目标主体图像的最底层特征图和第t帧待搜索图像的高三层特征图送入训练好的解码器中,得到目标在第t帧待搜索图像中的目标位置;
步骤4.6,令t=t+1,重复执行步骤4.1-步骤4.6,直至待搜索图像序列目标跟踪结束,即t=N,其中,N为待搜索图像序列的总帧数。
本实施例通过更改UNet网络的结构,将UNet的编码器改为三个权值共享的孪生主干特征提取网络,并将每个主干特征提取网络的结构更改为三个下采样单元和1个单元;对应的,将UNet解码器更改为三个上采样单元,三个上采样单元分别与待搜索图像的高三层特征图跳跃连接,最底层上采样单元的输入为裁剪后的目标主体图像的最底层特征图,最高层上采样单元的输出为目标在待搜索图像内的目标位置;将待搜索原图、目标模板图、目标主体图分别输入神孪生主干特征提取网络后,对待搜索原图和目标模板图的对应层特征图计算互相关性得到得分图,基于得分图对待搜索原图的高三层特征图和目标模板图的最底层特征图进行裁剪,可以有效的提高鲁棒性。且随着物体的运动,目标模板被动态的修改调整,从而达到更高的跟踪准确度合实时性。
可以理解,本算法采用滑动窗口计算方式在待搜索图像特征图中划分搜索框,通过计算搜索框与目标模板图像特征图的互相关值来找寻得分图;计算得分图过程中,为了减少计算量,采用去边缘化的处理方式将搜索区域设置为目标模板面积的4倍,其他区域直接舍弃,从而提高匹配效率。
实施例2
如图4-5所示,步骤4.5获得目标在第t帧图像中的目标位置后,计算EAO评价指标,当EAO评价指标高于预设指标值时,直接执行步骤4.6;当EAO评价指标低于预设指标值时,分别计算前t-1帧待搜索图像的目标模板图像的四层特征图与第t帧待搜索图像的四层特征图的互相关值,选取每层数值最大的作为目标在第t帧待搜索图像内的对应层得分图,形成得分图,并返回依次执行步骤4.4-4.6。
上述步骤在跟踪效果不佳情况下,动态调整目标模板图像,使得跟踪效果更好。
实施例3
本实施例与实施例2的区别在于:如图6所示,步骤4.3还可以为:前t-1帧待搜索图像的目标模板图像的四层特征图与第t帧待搜索图像的四层特征图的互相关值,选取每层数值最大的作为目标在第t帧待搜索图像内的对应层得分图,形成得分图。
上述步骤,直接计算前t-1帧待搜索图像的目标模板图像的四层特征图与第t帧待搜索图像的四层特征图的互相关值,得到目标在第t帧待搜索图像内的得分图,从而可以确保每帧待搜索图像的跟踪效果均是最佳的。
实施例4
本实施例提供一种基于改进UNet网络的单目标跟踪装置,包括:
数据集预处理模块,用于根据待搜索图像中目标的目标位置,在原始训练集中裁剪出目标模板图像,并利用特征提取方法提取出目标模板图像中的目标得到目标主体图像,目标模板图像、目标主体图像和待搜索图像对构成训练数据集;
改进UNet孪生网络构建模块,用于引入孪生网络和UNet网络,形成改进UNet孪生网络,所述改进UNet孪生网络包括编码器、中间处理器以及解码器,所述编码器包括目标主体图像特征提取网络、待搜索图像特征提取网络以及目标模板图像特征提取网络,所述目标主体图像特征提取网络、所述待搜索图像特征提取网络以及所述目标模板图像特征提取网络为三个权值共享的孪生主干特征提取网络,分别包括三个下采样单元和一个卷积单元,用于得到四层特征图;所述卷积单元包括2个3x3的卷积层;第一个下采样单元包括一个2x2的最大池化层和2个3x3的卷积层,第二个下采样单元包括一个2x2的最大池化层和3个3x3的卷积层,第三个下采样单元包括一个2x2最大池化层和4个3x3的卷积层;
所述中间处理器包括得分计算单元以及裁剪单元,所述得分计算单元的输入端分别与待搜索图像特征提取网络以及目标模板图像特征提取网络连接,将目标模板图像的四层特征图与待搜索图像的四层特征图的对应层分别做互相关运算,得到得分图;
所述裁剪单元分别与所述得分计算单元、目标主体图像特征提取网络以及待搜索图像特征提取网络连接,基于得分图分别对目标主体图像的最底层特征图和待搜索图像的高三层特征图进行裁剪;
所述解码器包括三个上采样单元,每个上采样单元均包括一个上采样卷积层、特征拼接单元、一个1*1的卷积层和两个3*3的卷积层,最上层上采样单元还包括一个1*1的卷积输出层;三个上采样单元的特征拼接单元分别与待搜索图像的高三层特征图跳跃连接,最底层上采样单元的输入为裁剪后的目标主体图像的最底层特征图,最高层上采样单元的输出为目标在待搜索图像内的目标位置;
训练模块,用于使用训练数据集训所述改进UNet孪生网络,得到训练好的改进UNet孪生网络;
目标跟踪模块,用于将待搜索图像序列输入训练好的改进UNet孪生网络中,计算待搜索图像序列中的目标位置,实现目标跟踪。
其中,在具体实施时,所述目标跟踪模块的跟踪流程包括:
步骤4.1,在待搜索图像序列中,根据第t-1帧待搜索图像的目标位置,剪裁出目标模板图像,利用特征提取方法提取出目标模板图像中的目标,得到目标主体图像,t=2;
步骤4.2,将第t-1帧待搜索图像的目标模板图像输入到训练好的改进UNet孪生网络的目标模板图像特征提取网络中,获得第t-1帧待搜索图像的目标模板图像的四层特征图;将第t-1帧待搜索图像的目标主体图像输入到训练好的改进UNet孪生网络的目标主体图像特征提取网络中,得到第t-1帧待搜索图像的四层目标主体图像特征图;将第t帧待搜索图像输入到训练好的改进UNet孪生网络的待搜索图像特征提取网络中,获得第t帧待搜索图像的四层特征图;
步骤4.3,分别计算第t-1帧待搜索图像的目标模板图像的四层特征图与第t帧待搜索图像的四层特征图的互相关值,得到得分图;
步骤4.4,基于得分图分别对第t-1帧待搜索图像的目标主体图像的最底层特征图和第t帧待搜索图像的高三层特征图进行裁剪;
步骤4.5,将第t-1帧待搜索图像的目标主体图像的最底层特征图和第t帧待搜索图像的高三层特征图送入训练好的解码器中,得到目标在第t帧待搜索图像中的目标位置;
步骤4.6,令t=t+1,重复执行步骤4.1-步骤4.6,直至待搜索图像序列目标跟踪结束,即t=N,其中,N为待搜索图像序列的总帧数。
实施例5
本实施例提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行实施例1-3任一项所述的单目标跟踪方法。
实施例6
本实施例提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行实施例1-3任一项所述的单目标跟踪方法。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制;尽管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本发明技术方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。
Claims (10)
1.一种基于改进UNet网络的单目标跟踪方法,其特征在于,包括以下步骤:
步骤1,选择原始训练集,根据待搜索图像中目标的目标位置,在原始训练集中裁剪出目标模板图像,并利用特征提取方法提取出目标模板图像中的目标得到目标主体图像,目标模板图像、目标主体图像和待搜索图像对构成训练数据集;
步骤2, 搭建改进UNet孪生网络,所述改进UNet孪生网络包括编码器、中间处理器以及解码器,所述编码器包括目标主体图像特征提取网络、待搜索图像特征提取网络以及目标模板图像特征提取网络,所述目标主体图像特征提取网络、所述待搜索图像特征提取网络以及所述目标模板图像特征提取网络为三个权值共享的孪生主干特征提取网络,分别包括一个卷积单元和三个下采样单元,用于得到四层特征图;
所述中间处理器包括得分计算单元以及裁剪单元,所述得分计算单元的输入端分别与待搜索图像特征提取网络以及目标模板图像特征提取网络连接,将目标模板图像的四层特征图与待搜索图像的四层特征图的对应层分别做互相关运算,得到得分图;
所述裁剪单元分别与所述得分计算单元、目标主体图像特征提取网络以及待搜索图像特征提取网络连接,基于得分图分别对目标主体图像的最底层特征图和待搜索图像的高三层特征图进行裁剪;
所述解码器包括三个上采样单元,三个上采样单元分别与待搜索图像的高三层特征图跳跃连接,最底层上采样单元的输入为裁剪后的目标主体图像的最底层特征图,最高层上采样单元的输出为目标在待搜索图像内的目标位置;
步骤3,使用训练数据集训所述改进UNet孪生网络,得到训练好的改进UNet孪生网络;
步骤4,使用训练好的改进UNet孪生网络计算待搜索图像序列中的目标位置,实现目标跟踪。
2.根据权利要求1所述的基于改进UNet网络的单目标跟踪方法,其特征在于,步骤4的具体步骤如下:
步骤4.1,在待搜索图像序列中,根据第t-1帧待搜索图像的目标位置,剪裁出目标模板图像,利用特征提取方法提取出目标模板图像中的目标,得到目标主体图像,t=2;
步骤4.2,将第t-1帧待搜索图像的目标模板图像输入到训练好的改进UNet孪生网络的目标模板图像特征提取网络中,获得第t-1帧待搜索图像的目标模板图像的四层特征图;将第t-1帧待搜索图像的目标主体图像输入到训练好的改进UNet孪生网络的目标主体图像特征提取网络中,得到第t-1帧待搜索图像的四层目标主体图像特征图;将第t帧待搜索图像输入到训练好的改进UNet孪生网络的待搜索图像特征提取网络中,获得第t帧待搜索图像的四层特征图;
步骤4.3,分别计算第t-1帧待搜索图像的目标模板图像的四层特征图与第t帧待搜索图像的四层特征图的互相关值,得到得分图;
步骤4.4,基于得分图分别对第t-1帧待搜索图像的目标主体图像的最底层特征图和第t帧待搜索图像的高三层特征图进行裁剪;
步骤4.5,将第t-1帧待搜索图像的目标主体图像的最底层特征图和第t帧待搜索图像的高三层特征图送入训练好的解码器中,得到目标在第t帧待搜索图像中的目标位置;
步骤4.6,令t=t+1,重复执行步骤4.1-步骤4.6,直至待搜索图像序列目标跟踪结束,即t=N,其中,N为待搜索图像序列的总帧数。
3.根据权利要求2所述的基于改进UNet网络的单目标跟踪方法,其特征在于,步骤4.5获得目标在第t帧图像中的目标位置后,计算EAO评价指标,当EAO评价指标高于预设指标值时,直接执行步骤4.6;当EAO评价指标低于预设指标值时,分别计算前t-1帧待搜索图像的目标模板图像的四层特征图与第t帧待搜索图像的四层特征图的互相关值,选取每层数值最大的作为目标在第t帧待搜索图像内的对应层得分图,形成得分图,并返回依次执行步骤4.4-4.6。
4.根据权利要求2所述的基于改进UNet网络的单目标跟踪方法,其特征在于,步骤4.3分别计算前t-1帧待搜索图像的目标模板图像的四层特征图与第t帧待搜索图像的四层特征图的互相关值,选取每层数值最大的作为目标在第t帧待搜索图像内的对应层得分图,形成得分图。
5.根据权利要求1所述的基于改进UNet网络的单目标跟踪方法,其特征在于:所述卷积单元包括2个3x3的卷积层;第一个下采样单元包括一个2x2的最大池化层和2个3x3的卷积层,第二个下采样单元包括一个2x2的最大池化层和3个3x3的卷积层,第三个下采样单元包括一个2x2的最大池化层和4个3x3的卷积层;
每个上采样单元均包括一个上采样卷积层、特征拼接单元、一个1*1的卷积层和两个3*3的卷积层,最上层上采样单元还包括一个1*1的卷积输出层。
6.一种基于改进UNet网络的单目标跟踪装置,其特征在于,包括:
数据集预处理模块,用于根据待搜索图像中目标的目标位置,在原始训练集中裁剪出目标模板图像,并利用特征提取方法提取出目标模板图像中的目标得到目标主体图像,目标模板图像、目标主体图像和待搜索图像对构成训练数据集;
改进UNet孪生网络构建模块,用于引入孪生网络和UNet网络,形成改进UNet孪生网络,改进UNet孪生网络包括编码器、中间处理器以及解码器,所述编码器包括目标主体图像特征提取网络、待搜索图像特征提取网络以及目标模板图像特征提取网络,所述目标主体图像特征提取网络、所述待搜索图像特征提取网络以及所述目标模板图像特征提取网络为三个权值共享的孪生主干特征提取网络,分别包括三个下采样单元和一个卷积单元,用于得到四层特征图;
所述中间处理器包括得分计算单元以及裁剪单元,所述得分计算单元的输入端分别与待搜索图像特征提取网络以及目标模板图像特征提取网络连接,将目标模板图像的四层特征图与待搜索图像的四层特征图的对应层分别做互相关运算,得到得分图;
所述裁剪单元分别与所述得分计算单元、目标主体图像特征提取网络以及待搜索图像特征提取网络连接,基于得分图分别对目标主体图像的最底层特征图和待搜索图像的高三层特征图进行裁剪;
所述解码器包括三个上采样单元,三个上采样单元分别与待搜索图像的高三层特征图跳跃连接,最底层上采样单元的输入为裁剪后的目标主体图像的最底层特征图,最高层上采样单元的输出为目标在待搜索图像内的目标位置;
训练模块,用于使用训练数据集训所述改进UNet孪生网络,得到训练好的改进UNet孪生网络;
目标跟踪模块,用于将待搜索图像序列输入训练好的改进UNet孪生网络中,计算待搜索图像序列中的目标位置,实现目标跟踪。
7.根据权利要求6所述的基于改进UNet网络的单目标跟踪装置,其特征在于,所述目标跟踪模块的跟踪流程包括:
步骤4.1,在待搜索图像序列中,根据第t-1帧待搜索图像的目标位置,剪裁出目标模板图像,利用特征提取方法提取出目标模板图像中的目标,得到目标主体图像,t=2;
步骤4.2,将第t-1帧待搜索图像的目标模板图像输入到训练好的改进UNet孪生网络的目标模板图像特征提取网络中,获得第t-1帧待搜索图像的目标模板图像的四层特征图;将第t-1帧待搜索图像的目标主体图像输入到训练好的改进UNet孪生网络的目标主体图像特征提取网络中,得到第t-1帧待搜索图像的四层目标主体图像特征图;将第t帧待搜索图像输入到训练好的改进UNet孪生网络的待搜索图像特征提取网络中,获得第t帧待搜索图像的四层特征图;
步骤4.3,分别计算第t-1帧待搜索图像的目标模板图像的四层特征图与第t帧待搜索图像的四层特征图的互相关值,得到得分图;
步骤4.4,基于得分图分别对第t-1帧待搜索图像的目标主体图像的最底层特征图和第t帧待搜索图像的高三层特征图进行裁剪;
步骤4.5,将第t-1帧待搜索图像的目标主体图像的最底层特征图和第t帧待搜索图像的高三层特征图送入训练好的解码器中,得到目标在第t帧待搜索图像中的目标位置;
步骤4.6,令t=t+1,重复执行步骤4.1-步骤4.6,直至待搜索图像序列目标跟踪结束,即t=N,其中,N为待搜索图像序列的总帧数。
8.根据权利要求6所述的基于改进UNet网络的单目标跟踪装置,其特征在于:所述卷积单元包括2个3x3的卷积层;第一个下采样单元包括一个2x2的最大池化层和2个3x3的卷积层,第二个下采样单元包括一个2x2的最大池化层和3个3x3的卷积层,第三个下采样单元包括一个2x2的最大池化层和4个3x3的卷积层;
每个上采样单元均包括一个上采样卷积层、特征拼接单元、一个1*1的卷积层和两个3*3的卷积层,最上层上采样单元还包括一个1*1的卷积输出层。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1-5任一项所述的单目标跟踪方法。
10.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1-5任一项所述的单目标跟踪方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210480504.2A CN114820709B (zh) | 2022-05-05 | 2022-05-05 | 基于改进UNet网络的单目标跟踪方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210480504.2A CN114820709B (zh) | 2022-05-05 | 2022-05-05 | 基于改进UNet网络的单目标跟踪方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114820709A CN114820709A (zh) | 2022-07-29 |
CN114820709B true CN114820709B (zh) | 2024-03-08 |
Family
ID=82510738
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210480504.2A Active CN114820709B (zh) | 2022-05-05 | 2022-05-05 | 基于改进UNet网络的单目标跟踪方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114820709B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109191491A (zh) * | 2018-08-03 | 2019-01-11 | 华中科技大学 | 基于多层特征融合的全卷积孪生网络的目标跟踪方法及系统 |
CN111179307A (zh) * | 2019-12-16 | 2020-05-19 | 浙江工业大学 | 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法 |
CN111626355A (zh) * | 2020-05-27 | 2020-09-04 | 中油奥博(成都)科技有限公司 | 一种基于Unet++卷积神经网络的地震数据初至拾取方法 |
CN112184752A (zh) * | 2020-09-08 | 2021-01-05 | 北京工业大学 | 一种基于金字塔卷积的视频目标跟踪方法 |
CN113223055A (zh) * | 2021-05-31 | 2021-08-06 | 华中科技大学 | 图像目标跟踪模型建立方法及图像目标跟踪方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110033478A (zh) * | 2019-04-12 | 2019-07-19 | 北京影谱科技股份有限公司 | 基于深度对抗训练的视觉目标跟踪方法和装置 |
US11941813B2 (en) * | 2019-08-23 | 2024-03-26 | Nantcell, Inc. | Systems and methods for performing segmentation based on tensor inputs |
-
2022
- 2022-05-05 CN CN202210480504.2A patent/CN114820709B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109191491A (zh) * | 2018-08-03 | 2019-01-11 | 华中科技大学 | 基于多层特征融合的全卷积孪生网络的目标跟踪方法及系统 |
CN111179307A (zh) * | 2019-12-16 | 2020-05-19 | 浙江工业大学 | 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法 |
CN111626355A (zh) * | 2020-05-27 | 2020-09-04 | 中油奥博(成都)科技有限公司 | 一种基于Unet++卷积神经网络的地震数据初至拾取方法 |
CN112184752A (zh) * | 2020-09-08 | 2021-01-05 | 北京工业大学 | 一种基于金字塔卷积的视频目标跟踪方法 |
CN113223055A (zh) * | 2021-05-31 | 2021-08-06 | 华中科技大学 | 图像目标跟踪模型建立方法及图像目标跟踪方法 |
Non-Patent Citations (2)
Title |
---|
基于Tiny Darknet全卷积孪生网络的目标跟踪;史璐璐;张索非;吴晓富;;南京邮电大学学报(自然科学版);20180906(04);93-99 * |
基于卷积神经网络的遥感图像变化检测;孟琮棠;赵银娣;向阳;;现代测绘;20190925(05);6-10 * |
Also Published As
Publication number | Publication date |
---|---|
CN114820709A (zh) | 2022-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109191491B (zh) | 基于多层特征融合的全卷积孪生网络的目标跟踪方法及系统 | |
Li et al. | A2-RL: Aesthetics aware reinforcement learning for image cropping | |
WO2020186942A1 (zh) | 目标检测方法、系统、装置、存储介质和计算机设备 | |
CN111192292B (zh) | 基于注意力机制与孪生网络的目标跟踪方法及相关设备 | |
CN109903331B (zh) | 一种基于rgb-d相机的卷积神经网络目标检测方法 | |
JP2022515895A (ja) | 物体認識方法及び装置 | |
CN110570458A (zh) | 一种基于内部裁剪和多层特征信息融合的目标跟踪方法 | |
CN112330719B (zh) | 基于特征图分割和自适应融合的深度学习目标跟踪方法 | |
CN111696148A (zh) | 基于卷积神经网络的端到端立体匹配方法 | |
CN111696110B (zh) | 场景分割方法及系统 | |
CN111582316A (zh) | 一种rgb-d显著性目标检测方法 | |
CN109767456A (zh) | 一种基于SiameseFC框架和PFP神经网络的目标跟踪方法 | |
TWI791405B (zh) | 針對可變焦攝影機的深度估計方法、電腦系統及電腦可讀取儲存媒體 | |
CN111415318B (zh) | 基于拼图任务的无监督相关滤波目标跟踪方法及系统 | |
CN110390294B (zh) | 一种基于双向长短期记忆神经网络的目标跟踪方法 | |
CN116681894A (zh) | 一种结合大核卷积的相邻层特征融合Unet多器官分割方法、系统、设备及介质 | |
CN112288772B (zh) | 基于在线多特征选择的通道注意力目标跟踪方法 | |
CN112446900A (zh) | 孪生神经网络目标跟踪方法及系统 | |
CN115761393B (zh) | 一种基于模板在线学习的无锚目标跟踪方法 | |
CN111882581A (zh) | 一种深度特征关联的多目标跟踪方法 | |
CN114820709B (zh) | 基于改进UNet网络的单目标跟踪方法、装置、设备及介质 | |
CN114782980A (zh) | 一种基于注意力机制的轻量级行人检测方法 | |
CN113326856A (zh) | 基于匹配困难度的自适应的两阶段特征点匹配方法 | |
CN112115786A (zh) | 基于注意力U-net的单目视觉里程计方法 | |
CN114332989A (zh) | 一种多任务级联卷积神经网络的人脸检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |