[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN115731280A - 基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法 - Google Patents

基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法 Download PDF

Info

Publication number
CN115731280A
CN115731280A CN202211467771.2A CN202211467771A CN115731280A CN 115731280 A CN115731280 A CN 115731280A CN 202211467771 A CN202211467771 A CN 202211467771A CN 115731280 A CN115731280 A CN 115731280A
Authority
CN
China
Prior art keywords
network
swin
transformer
cnn
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211467771.2A
Other languages
English (en)
Inventor
项学智
李伟
吕宁
乔玉龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202211467771.2A priority Critical patent/CN115731280A/zh
Publication of CN115731280A publication Critical patent/CN115731280A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提供一种基于Swin‑Transformer和CNN并行网络的自监督单目深度估计方法,目的在于提出一种基于Swin‑Transformer和卷积神经网络(CNN)并行网络的自监督单目深度估计方法。本发明将Swin‑Transformer和CNN同时用于特征提取,并将提取的特征进行融合,可以使网络在建立长程相关性和保留空间结构信息之间进行平衡,强化网络学习特征的能力,并且结合本发明提出的逐尺度自蒸馏损失,进行网络的自监督训练,进而提升自监督单目深度估计精度。

Description

基于Swin-Transformer和CNN并行网络的自监督单目深度估 计方法
技术领域
本发明属于计算机视觉领域,涉及一种基于Swin-Transformer和CNN并行网络的自监督深度估计方法。
背景技术
深度估计一直是计算机视觉领域的重要问题之一,最近几年,自动驾驶、人机交互、虚拟现实、机器人等领域发展极为迅速,尤其是视觉方案在自动驾驶中取得惊艳的效果,在这些应用场景中,如何获取场景中的深度信息是非常关键的。
同时,从深度图中获得场景深度信息容易分辨出物体的边界,应用到计算机视觉的其他任务,比如3D目标检测和分割、场景理解等,可以简化原本的算法。
相比于有监督的方式,自监督单目深度估计可以实现不依赖真实深度标签进行单目深度估计,大大节约了采集真实深度值的成本。
Transformer结构在建立长程相关性上有很大的优势,应用在视觉众多子任务领域都取得了不错的效果,但是Transformer建模会丢失图像原有的结构信息,对于深度估计任务,图像的结构信息会对深度估计的精度有一定的影响。而卷积神经网络(CNN)虽然建立长程相关性的能力不足,但能很好地保存图像的结构信息。在Transformer众多进化结构中,Swin-Transformer能够提供多尺度的特征信息,本发明提出将Swin-Transformer和CNN以并行结合的方式用于深度估计任务中的特征提取部分,实现二者的优势互补,同时使用Swin-Transformer和CNN提供多尺度的分层特征并进行融合,增强网络的特征提取能力,来获得更高精度的深度预测。
发明内容
本发明的目的在于提出一种基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法,该方法可以针对无标签的单目视频序列进行自监督训练。构建了Swin-Transformer和CNN并行分支组成的编码器来分别提取特征,通过Swin-Transformer和CNN信息融合(SCFuse)模块将提取的特征进行融合。并且设计一种逐尺度自蒸馏损失,与单尺度图像重建损失和边缘平滑损失结合,共同构成网络的整体损失。
本发明的目的是这样实现的:步骤如下:
步骤一:使用单目像机进行拍摄并进行处理后得到一系列分辨率为H*W,长度为N的图像序列;
步骤二:在步骤一的图像序列中选取一帧图像It作为Swin-Transformer和卷积神经网络(CNN)并行结构的深度网络的输入,输出为不同尺度的深度图Di,将It和相邻帧图像It-1在通道维度上进行拼接后作为纯卷积神经网络结构的位姿网络的输入,输出两帧图像的相对位姿Tt→t-1
步骤三:基于步骤二中深度网络最终输出的深度图D0和位姿网络输出的相对位姿Tt→t-1进行输入图像It的视图重建得到重建图像It′,计算单尺度图像重建损失Lrc;基于步骤二中深度网络输出的不同分辨率的深度图Di计算逐尺度自蒸馏损失Lesd和边缘平滑损失Ls
步骤四:基于单尺度图像重建损失Lrc、逐尺度自蒸馏损失Lesd和边缘平滑损失Ls构造深度网络和位姿网络的整体损失函数Ltotal,使用单目视频进行网络的自监督训练,直至整体损失函数Ltotal收敛;得到训练好的深度网络;
步骤五:将单张图像输入到训练好的深度网络中,网络输出与输入图像分辨率大小相同的深度图D0,将深度图D0作为输入图像的单目深度估计结果。
本发明还包括这样一些结构特征:
1.所述步骤二构建的深度网络由编码器和解码器组成,编码器和解码器之间进行跨层跳跃连接。其中编码器由Swin-Transformer分支和CNN分支并行组成,利用Swin-Transformer分支和CNN分支分别提取图像特征得到不同尺度的特征图。Swin-Transformer分支中包含有n个Swin-Transformer模块,输入图像经过Swin-Transformer分支总共得到n种不同尺度的特征图Xi。CNN分支由CNN模块组成,输入图像经过CNN分支总共得到n种不同尺度的特征图Yi,其中,n的大小可以根据输入图像的分辨率大小进行选择,以达到适应不同分辨率输入的目的。
2.步骤二中构建的深度网络的解码器由Swin-Transformer模块组成,其能输出n+1种不同分辨率的深度图D0、D1、D2、…、Dn,分辨率依次减小,其中D0和输入图像It分辨率大小相同。
3.步骤二中深度网络的编码器部分通过Swin-Transformer和CNN信息融合(SCFuse)模块将编码器Swin-Transformer分支和CNN分支输出的不同尺度的特征图Xi和Yi进行融合,获得n个不同尺度的融合后的特征图Zi。SCFuse模块的操作如式(1)所示:
Figure BDA0003957061860000021
其中,Xi和Yi分别表示两个输入的特征图,Zi为第i个SCFuse模块的输出,
Figure BDA00039570618600000310
表示将两个特征图在通道维度上进行拼接,CONV1×1表示步长为1,卷积核大小为1*1的卷积步骤。
4.步骤三提出一种逐尺度自蒸馏损失用于网络的自监督训练。逐尺度自蒸馏损失Lesd的定义如公式(2)所示:
Figure BDA0003957061860000031
其中,Di表示深度网络解码器部分输出的第i个深度图,upsample(·)表示上采样操作,||·||2表示图像相似性函数,其定义如公式(3)所示:
Figure BDA0003957061860000032
其中,
Figure BDA0003957061860000033
Figure BDA0003957061860000034
表示两张图像的像素值,n表示图像的像素点总数。
5.步骤四基于单尺度图像重建损失Lrc、逐尺度自蒸馏损失Lesd和边缘平滑损失Ls构造深度网络和位姿网络的整体损失函数Ltotal。单尺度图像重建损失Lrc的定义如公式(4)所示:
Lrc=α(1-SSIM(It,It′))+β||It-I′t||1 (4)
其中,It和I′t分别表示输入图像和重建后的图像,SSIM表示结构相似性函数,α和β表示约束平衡因子。
边缘平滑损失Ls的定义如公式(5)所示:
Figure BDA0003957061860000035
其中,
Figure BDA0003957061860000036
Figure BDA0003957061860000037
分别表示输入图像It横向和纵向的梯度,pt表示输入图像It某点的像素坐标,
Figure BDA0003957061860000038
Figure BDA0003957061860000039
表示平均深度值。
网络的整体损失如公式(6)所示:
Ltotal=λ1Lrc2Ls3Lesd (6)
其中,Ltotal表示网络整体损失函数,λ1、λ2和λ3是约束平衡因子。
与现有技术相比,本发明的有益效果是:本发明提出一种Swin-Transformer与CNN并行结合的方法用于深度估计任务中,通过分别提取多尺度特征再融合的方式将Transformer所具有的具有长程相关性的优点和CNN能有效保持图像空间结构信息的优点结合起来,并以自监督的方式训练整个网络。本发明提出的逐尺度自蒸馏损失,能够减少网络从图像重建损失引起的重复弱监督信号中学习,并且能让网络学习到更好的中间特征表示来提升深度估计的精度。
附图说明
图1为本发明模型结构示意图;
图2为本发明的深度网络结构图;
图3为本发明的Swin-Transformer模块结构图;
图4位本发明的合并操作示意图;
图5位本发明的扩展操作示意图;
图6为本发明的CNN模块1结构图;
图7为本发明的CNN模块2结构图;
图8为本发明的SCFuse模块结构图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述。
本发明的一种基于Swin-Transformer和卷积神经网络(CNN)并行网络的自监督单目深度估计方法,其模型如附图1所示,由深度网络和位姿网络两部分组成。深度网络输出不同尺度的单通道深度图Di,其中与输入图像分辨率大小相同的深度图D0作为深度估计结果,深度图D0的每个像素值表示深度值大小,位姿网络输出两帧图像之间的相对位姿。该方法具体步骤描述如下:
步骤一:利用相机内参已知的单目相机拍摄一段视频,经过处理后得到一系列分辨率大小为H*W、长度N为2的图像序列。
步骤二:构建Swin-Transformer和卷积神经网络(CNN)并行结构的深度网络,将图像序列的一帧图像It作为深度网络输入,输出对应的不同分辨率的深度图D0、D1、D2、…、Dn,分辨率依次减小,其中D0和输入图像It分辨率大小相同。构建纯卷积网络结构的位姿网络,将图像It和相邻帧图像It-1在通道维度上拼接后作为位姿网络输入,输出为两帧图像的相对位姿Tt→t-1
步骤二(1)深度网络主要由编码器和解码器两部分组成。
编码器的具体构建步骤为:
如附图2所示,首先构建Swin-Transformer分支网络。Swin-Transformer分支网络由分块操作、线性映射以及Swin-Transformer模块和合并操作的重复堆叠n次构成。通道数为C,大小为H×W输入图像It先通过分块操作和线性映射得到通道数为C,大小为H/4×W/4的特征图。其中,分块操作实现方式为每相邻4*4大小的为一块,在通道维度上进行展平,得到通道数为16*C,大小为H/4×W/4的特征图,线性映射通过1*1卷积将通道维度从4*C降为C,特征图大小不变。之后每经过一次Swin-Transformer模块和合并操作,通道数会加倍,特征图的大小会减半。最终Swin-Transformer分支输出的特征图的通道数为n*C,大小为H/2n +1×W/2n+1。输入图像It经过Swin-Transformer分支总共会得到n个尺度不同的特征图Xi。合并操作具体操作如附图4所示,先将输入特征图按块提取相同位置的信息并在通道维度上进行拼接,再通过层归一化操作和线性映射操作,实现输入特征图的下采样操作。
然后构建CNN分支网络。CNN分支网络由CNN模块1和重复堆叠n次的CNN模块2构成。CNN模块1具体结构如附图6所示,CNN模块1由两层卷积和一层最大池化组成,其中两层卷积的卷积核大小都为3*3,步长都为1,每层卷积之后都紧接着ReLU层,最大池化层的池化窗口大小为2*2,步长为2。输入图像It通过CNN模块1输出通道数为C/2,大小为H/2×W/2的特征图。CNN模块2具体结构如图7所示,CNN模块2同样由两层卷积和一层最大池化组成,其中两层卷积的卷积核大小都为3*3,步长都为1,每层卷积之后都紧接着ReLU层,最大池化层的池化窗口大小为2*2,步长为2。与CNN结构1不同,CNN结构2会将输入的特征图通道数加倍,大小减半。最终CNN分支输出的特征图的通道数为n*C,大小为H/2n+1×W/2n+1。输入图像It经过CNN分支总共会得到n个尺度不同的特征图Yi
最后构建SCFuse模块,用于融合编码器中Swin-Transformer分支和CNN分支输出的不同尺度特征图。如附图8所示,SCFuse模块可以将两个相同尺度的特征图进行深度融合,并输出与输入同样尺寸的融合后的特征图,具体操作如式(1)所示:
Figure BDA0003957061860000051
其中,Xi和Yi分别表示两个输入的特征图,Zi为第i个SCFuse模块的输出,
Figure BDA0003957061860000052
表示将两个特征图在通道维度上进行拼接,CONV1×1表示步长为1,卷积核大小为1*1的卷积步骤,通过该卷积步骤,能让网络自己学习到分配给来自Swin-Transformer分支和CNN分支特征信息的权重,从而实现更灵活的特征融合。通过n个SCFuse模块输出n个不同分辨的融合后的特征图Zi
深度网络的解码器具体构建方式为:
如附图2所示,解码器部分由扩展操作和Swin-Transformer模块的重复堆叠组成。扩展操作的作用是对输入特征图进行上采样,具体步骤如附图5所示,先经过一个线性层将通道维度增加到原来的两倍,然后通过与合并操作中相反的重新排列操作将输入特征图的大小扩大到原来的两倍,从而实现输入特征图的上采样操作。解码器的输入来自于编码器的Swin-Transformer分支的输出再经过一个Swin-Transformer模块,解码器输出的特征图经过线性变换得到n+1个不同分辨率的深度图D0、D1、D2、…、Dn+1
深度网络的编码器部分和解码器部分通过一个Swin-Transformer结构连接。编码器的Swin-Transformer分支输出和CNN分支经过SCFuse模块融合后输出的n个不同分辨的融合后的特征图Zi,通过跳跃连接输入到编码器各层,具体方式为与深度网络的解码器每个扩展操作输出进行逐像素相加再输入到解码器各Swin-Transformer模块中,从而将底层信息融合到深层网络中,使深层网络获得底层关键信息。
深度网络中所有的Swin-Transformer模块内部结构是一样的,具体结构如附图3所示。深度网络的编码器中的Swin-Transformer模块除了第一个其余的输入都来自于上一步合并操作的输出,并且输出给下一步合并操作以及对应的SCFuse模块用于特征融合。深度网络的解码器部分每个Swin-Transformer模块输入来自于上一步扩展操作输出和解码器SCFuse模块输出融合后的特征图,并且输出给下一步扩展操作。
步骤二(2)位姿网络为纯卷积结构组成。
位姿网络主要包含七层卷积层,每层卷积核的个数分别为16、32、64、128、256、256、256,步长都为2,第一层卷积核大小为7*7,第二层为5*5,其余层都为3*3,每一层卷积后用ReLU激活层激活,最后经过1*1卷积输出两帧之间的相对位姿,其包含三个欧拉角和三个平移量,描述了拍摄两帧时相机的相对运动。将相邻两帧图像It和It-1在通道维度上拼接后作为位姿网络的输入,输出为两帧图像It和It-1的相对位姿Tt→t-1
步骤三:基于步骤二中深度网络输出的最大分辨率的深度图D0和位姿网络输出的相对位姿Tt→t-1进行输入图像It的视图重建得到重建图像It′。重建步骤具体为,设pt为输入图像It某像素点,使用重投影公式(2)可获得pt在相邻帧图像It-1上的投影点ps
ps=KTt→t-1D0(pt)K-1pt (2)
然后通过对相邻帧图像It-1中ps最邻近的四个像素点进行双线性采样得到pt的像素值,由pt组成重建图像I′t。使用重建图像和输入图像构建单尺度图像重建损失,单尺度图像重建损失Lrc如公式(3)所示。
Lrc=α(1-SSIM(It,It′))+β||It-I′t||1 (3)
其中,SSIM表示结构相似性函数,α和β表示约束平衡因子。理论上,如果重建的图像It′与输入图像It完全一样,则单尺度重建损失为零。
基于步骤二中深度网络的解码器部分输出的不同尺度的深度图Di计算逐尺度自蒸馏损失,逐尺度自蒸馏损失Lesd如公式(4)所示:
Figure BDA0003957061860000071
其中,Di表示解码器输出的第i个深度图,upsample(·)表示上采样步骤,其表示将较小分辨率的深度图Di+1采样到Di同样大小,||·||2表示图像相似性函数,其定义如公式(5)所示:
Figure BDA0003957061860000072
其中,Ia和Ib表示两幅大小相同的图像,
Figure BDA0003957061860000073
Figure BDA0003957061860000074
表示两张图像的像素值,n表示图像的像素点总数。
对于深度网络解码器最终输出的深度图D0,构造边缘平滑损失Ls如公式(6)所示:
Figure BDA0003957061860000075
其中,
Figure BDA0003957061860000076
Figure BDA0003957061860000077
分别表示输入图像It横向和纵向的梯度,pt表示输入图像It某点的像素坐标,
Figure BDA0003957061860000078
Figure BDA0003957061860000079
表示平均深度值,边缘平滑损失Ls使得物体边缘的深度变化更加锐利,非物体边缘区域的深度变化更加平滑。
步骤四:基于单尺度图像重建损失Lrc、逐尺度自蒸馏损失Lesd和边缘平滑损失Ls构造深度网络和位姿网络的整体损失函数Ltotal,网络的整体损失函数Ltotal定义如公式(7)所示:
Ltotal=λ1Lrc2Ls3Lesd (7)
其中,λ1、λ2和λ3是约束平衡因子。
使用单目视频进行网络的自监督训练,直至整体损失函数Ltotal收敛。得到训练好的深度网络。
步骤五:将单张图像输入到训练好的深度网络中,网络输出与输入图像分辨率大小相同的深度图D0,将深度图D0作为输入图像的单目深度估计结果。
综上,本发明的目的在于提出一种基于Swin-Transformer和卷积神经网络(CNN)并行网络的自监督单目深度估计方法。本发明将Swin-Transformer和CNN同时用于特征提取,并将提取的特征进行融合,可以使网络在建立长程相关性和保留空间结构信息之间进行平衡,强化网络学习特征的能力,并且结合本发明提出的逐尺度自蒸馏损失,进行网络的自监督训练,进而提升自监督单目深度估计精度。

Claims (6)

1.基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法,其特征在于,步骤如下:
步骤一:使用单目像机进行拍摄并进行处理后得到一系列分辨率为H*W,长度为N的图像序列;
步骤二:在步骤一的图像序列中选取一帧图像It作为Swin-Transformer和卷积神经网络并行结构的深度网络的输入,输出为不同尺度的深度图Di,将It和相邻帧图像It-1在通道维度上进行拼接后作为纯卷积神经网络结构的位姿网络的输入,输出两帧图像的相对位姿Tt→t-1
步骤三:基于步骤二中深度网络最终输出的深度图D0和位姿网络输出的相对位姿Tt→t-1进行输入图像It的视图重建得到重建图像I′t,计算单尺度图像重建损失Lrc;基于步骤二中深度网络输出的不同分辨率的深度图Di计算逐尺度自蒸馏损失Lesd和边缘平滑损失Ls
步骤四:基于单尺度图像重建损失Lrc、逐尺度自蒸馏损失Lesd和边缘平滑损失Ls构造深度网络和位姿网络的整体损失函数Ltotal,使用单目视频进行网络的自监督训练,直至整体损失函数Ltotal收敛;得到训练好的深度网络;
步骤五:将单张图像输入到训练好的深度网络中,网络输出与输入图像分辨率大小相同的深度图D0,将深度图D0作为输入图像的单目深度估计结果。
2.根据权利要求1所述的基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法,其特征在于:步骤二构建的深度网络由编码器和解码器组成,编码器和解码器之间进行跨层跳跃连接;编码器由Swin-Transformer分支和CNN分支并行组成,利用Swin-Transformer分支和CNN分支分别提取图像特征得到不同尺度的特征图;Swin-Transformer分支中包含有n个Swin-Transformer模块,输入图像经过Swin-Transformer分支总共得到n种不同尺度的特征图Xi;CNN分支由CNN模块组成,输入图像经过CNN分支总共得到n种不同尺度的特征图Yi,其中,n的大小根据输入图像的分辨率大小进行选择,以达到适应不同分辨率输入的目的。
3.根据权利要求2所述的基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法,其特征在于:解码器由Swin-Transformer模块组成,其能输出n+1种不同分辨率的深度图D0、D1、D2、…、Dn,分辨率依次减小,其中D0和输入图像It分辨率大小相同。
4.根据权利要求2所述的基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法,其特征在于:编码器部分通过Swin-Transformer和CNN信息融合模块将编码器Swin-Transformer分支和CNN分支输出的不同尺度的特征图Xi和Yi进行融合,获得n个不同尺度的融合后的特征图Zi;SCFuse模块的操作如下:
Figure FDA0003957061850000021
其中,Xi和Yi分别表示两个输入的特征图,Zi为第i个SCFuse模块的输出,
Figure FDA0003957061850000022
表示将两个特征图在通道维度上进行拼接,CONV1×1表示步长为1,卷积核大小为1*1的卷积步骤。
5.根据权利要求1所述的基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法,其特征在于:步骤三中逐尺度自蒸馏损失Lesd为:
Figure FDA0003957061850000023
其中,Di表示深度网络解码器部分输出的第i个深度图,upsample(·)表示上采样操作,||·||2表示图像相似性函数,其定义如下:
Figure FDA0003957061850000024
其中,
Figure FDA0003957061850000025
Figure FDA0003957061850000026
表示两张图像的像素值,n表示图像的像素点总数。
6.根据权利要求1所述的基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法,其特征在于:步骤四基于单尺度图像重建损失Lrc、逐尺度自蒸馏损失Lesd和边缘平滑损失Ls构造深度网络和位姿网络的整体损失函数Ltotal;单尺度图像重建损失Lrc的定义为:
Lrc=α(1-SSIM(It,I′t))+β||It-I′t||1
其中,It和I′t分别表示输入图像和重建后的图像,SSIM表示结构相似性函数,α和β表示约束平衡因子;
边缘平滑损失Ls为:
Figure FDA0003957061850000027
其中,
Figure FDA0003957061850000028
Figure FDA0003957061850000029
分别表示输入图像It横向和纵向的梯度,pt表示输入图像It某点的像素坐标,
Figure FDA0003957061850000031
Figure FDA0003957061850000032
表示平均深度值;
网络的整体损失为:
Ltotal=λ1Lrc2Ls3Lesd
其中,Ltotal表示网络整体损失函数,λ1、λ2和λ3是约束平衡因子。
CN202211467771.2A 2022-11-22 2022-11-22 基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法 Pending CN115731280A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211467771.2A CN115731280A (zh) 2022-11-22 2022-11-22 基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211467771.2A CN115731280A (zh) 2022-11-22 2022-11-22 基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法

Publications (1)

Publication Number Publication Date
CN115731280A true CN115731280A (zh) 2023-03-03

Family

ID=85297501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211467771.2A Pending CN115731280A (zh) 2022-11-22 2022-11-22 基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法

Country Status (1)

Country Link
CN (1) CN115731280A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117876824A (zh) * 2024-03-11 2024-04-12 华东交通大学 多模态人群计数模型训练方法、系统、存储介质及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117876824A (zh) * 2024-03-11 2024-04-12 华东交通大学 多模态人群计数模型训练方法、系统、存储介质及设备
CN117876824B (zh) * 2024-03-11 2024-05-10 华东交通大学 多模态人群计数模型训练方法、系统、存储介质及设备

Similar Documents

Publication Publication Date Title
CN111402310B (zh) 一种基于深度估计网络的单目图像深度估计方法及系统
CN111612807B (zh) 一种基于尺度和边缘信息的小目标图像分割方法
CN111325794A (zh) 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
CN108520535A (zh) 基于深度恢复信息的物体分类方法
WO2024051184A1 (zh) 一种基于光流遮罩的无监督单目深度估计方法
CN111583340B (zh) 基于卷积神经网络降低单目相机位姿估计误差率的方法
CN113870335A (zh) 一种基于多尺度特征融合的单目深度估计方法
Shim et al. SwinDepth: Unsupervised depth estimation using monocular sequences via swin transformer and densely cascaded network
CN111260661A (zh) 一种基于神经网络技术的视觉语义slam系统及方法
CN116206133B (zh) 一种rgb-d显著性目标检测方法
CN116012344A (zh) 一种基于掩码自编码器CNN-Transformer的心脏磁共振图像配准方法
CN112164065B (zh) 一种基于轻量化卷积神经网络的实时图像语义分割方法
CN115484410B (zh) 基于深度学习的事件相机视频重建方法
CN116935486A (zh) 基于骨骼关节点和图像模态融合的手语识别方法及系统
CN115100090A (zh) 一种基于时空注意的单目图像深度估计系统
Wang et al. Depth estimation of supervised monocular images based on semantic segmentation
CN117788823A (zh) 一种基于Transformer激光雷达点云和相机影像信息融合的语义分割方法
CN113255514A (zh) 基于局部场景感知图卷积网络的行为识别方法
CN116051752A (zh) 基于多尺度特征融合空洞卷积ResNet的双目立体匹配算法
CN112241959A (zh) 基于超像素的注意力机制生成语义分割方法
CN116597135A (zh) Rgb-d多模态语义分割方法
CN115731280A (zh) 基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法
CN114170304B (zh) 一种基于多头自注意力和置换注意力的相机定位方法
CN111539288A (zh) 一种双手姿势的实时检测方法
Zhou et al. Knowledge distillation segformer-based network for RGB-T semantic segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination