CN118644539B - 一种具有细粒度恢复能力的单目深度估计系统及方法 - Google Patents
一种具有细粒度恢复能力的单目深度估计系统及方法 Download PDFInfo
- Publication number
- CN118644539B CN118644539B CN202411097257.3A CN202411097257A CN118644539B CN 118644539 B CN118644539 B CN 118644539B CN 202411097257 A CN202411097257 A CN 202411097257A CN 118644539 B CN118644539 B CN 118644539B
- Authority
- CN
- China
- Prior art keywords
- feature
- image
- depth
- features
- depth estimation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000011084 recovery Methods 0.000 title claims abstract description 16
- 238000013507 mapping Methods 0.000 claims abstract description 52
- 230000000007 visual effect Effects 0.000 claims abstract description 28
- 238000000605 extraction Methods 0.000 claims abstract description 27
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000010276 construction Methods 0.000 claims abstract description 7
- 230000004927 fusion Effects 0.000 claims description 37
- 230000008439 repair process Effects 0.000 claims description 33
- 230000008569 process Effects 0.000 claims description 21
- 239000000284 extract Substances 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 5
- 238000006467 substitution reaction Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000012544 monitoring process Methods 0.000 claims description 4
- 230000003287 optical effect Effects 0.000 claims description 4
- 230000008447 perception Effects 0.000 abstract description 13
- 238000002474 experimental method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 101150070547 MAPT gene Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Landscapes
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像处理技术领域,提出了一种具有细粒度恢复能力的单目深度估计系统及方法,该系统包括:图像预处理模块、视觉特征提取模块、自损失体构建模块、细粒度查询模块和深度估计模块。本发明通过使用带有残差连接的全卷积U‑Net来提取具有高频细节的即时视觉特征,使用Transformer获取即时视觉特征补丁的Embedding结果,将基于深度特征映射差值构建的损失体转换为逐像素概率映射,并对即时视觉特征做加权求和得到待估计特征,最后将通过细粒度查询获得的相对距离表示与待估计特征共同送入多层感知机构得到最终的深度估计结果,具有更好的泛化性及更少的真值依赖,且对场景细粒度特征具有更好的学习能力及恢复能力。
Description
技术领域
本发明涉及图像处理技术领域,尤其是一种具有细粒度恢复能力的单目深度估计系统及方法。
背景技术
单目深度估计算法通过分析图像中的视觉特征和几何结构,可以估计出物体距离摄像头的远近关系,从而实现对场景的深度感知。其作为一项重要的基础视觉任务,常应用于增强现实、机器人、自动驾驶等领域,为智能系统提供了关键的环境感知能力,使智能系统能够根据环境信息做出更精准的决策,并实现避障、定点导航、目标跟踪等高级功能,使智能系统在复杂环境下具有更好的适应性和应用范围。
现有单目深度估计技术主要采用利用激光雷达数据作为真值的监督学习方法,然而,从真实世界采集大尺度深度测量数据耗时长,成本高。现有方法在缺乏足够真值的前提下对图像深度进行估计时会存在泛化性差、感知不全、精度低等问题,特别是在实例多、实例关系复杂、存在弱小实例的自动驾驶街景图像处理或无人机俯视拍摄图像处理的场景下,由于缺乏真值会导致图像中实例与实例之间的深度差模糊不清,出现丢失弱小实例的情况,进而影响自动驾驶时的操作判断正确性或无人机目标跟踪的准确性。因此,如何提高单目深度估计的泛化性,减少真值依赖,提高深度估计准确性,是一个亟需解决的技术问题。
发明内容
为解决上述现有技术问题,本发明提供一种具有细粒度恢复能力的单目深度估计系统及方法,旨在解决现有技术提供的单目深度估计技术存在的泛化性差、感知不全、精度低的问题。
本发明提供了一种具有细粒度恢复能力的单目深度估计系统,所述系统,包括:
图像预处理模块,所述图像预处理模块被配置为提取目标图像的特征图,并利用所述特征图对目标图像进行修复获得修复图像;
视觉特征提取模块,所述视觉特征提取模块被配置为提取所述修复图像的图像特征,并将所述图像特征转换为即时特征;
自损失体构建模块,所述自损失体构建模块被配置为将预设连续时间的修复图像构建为图像序列,利用所述图像序列中的帧图像定义有序平面组,并基于所述有序平面组将其他帧图像的深度特征映射扭曲到第一帧图像的视点,获得扭曲过程中所有帧图像产生的深度特征映射差值,并将所述深度特征映射差值作为自损失体;
细粒度查询模块,所述细粒度查询模块被配置为将所述即时特征分割为若干个补丁,并对所述补丁的嵌入表示进行逐像素的相对距离查询,获得相对距离表示;
深度估计模块,所述深度估计模块被配置为基于所述自损失体与所述相对距离表示,对修复图像进行深度估计,获得深度估计结果。
可选的,所述图像预处理模块,具体包括:
特征图提取单元,所述特征图提取单元被配置为提取目标图像的浅层特征,利用若干个可变并行融合模型对所述浅层特征进行处理,提取获得所述浅层特征的进一步特征,并基于每个可变并行融合模型提取的进一步特征,生成目标图像的特征图;
图像修复单元,所述图像修复单元被配置为将目标图像的特征图做上采样后输入多层感知机对目标图像进行修复获得修复图像。
可选的,所述特征图提取单元,具体包括:
浅层特征提取子单元,所述浅层特征提取子单元被配置为提取目标图像的浅层特征;其中,提取目标图像的浅层特征,具体为:
;
其中,表示对目标图像进行浅层特征提取,为一个3×3的卷积层,表示所提取的浅层特征;
进一步特征提取子单元,所述进一步特征提取子单元被配置为利用若干个可变并行融合模型对所述浅层特征进行处理,提取获得所述浅层特征的进一步特征;
其中,提取所述浅层特征的进一步特征,具体为:
;
其中,表示第n个可变并行融合模型,为提取出的特征;
特征图生成子单元,所述特征图生成子单元被配置为对每个可变并行融合模型输出的进一步特征先做1×1的卷积处理,再做3×3的卷积处理,对所有卷积处理结果做加法并拍平得到第一特征,将做3×3的卷积处理并拍平得到第二特征,将第一特征、第二特征与缩放拍平后的浅层特征共同组成一个通道数为3的特征图。
可选的,所述可变并行融合模型,具体包括:
局部特征子单元,所述局部特征子单元由四层1×1卷积、两层平均池化、一层ReLU和一层Sigmoid组成,平均池化层与前三层1×1卷积交替组合,ReLU置于第三层卷积和第四层卷积之间,Sigmoid在第四层卷积之后;
全局特征子单元,所述全局特征子单元由三层正则化、一层多头自注意、一层多层感知机构成,多头自注意置于第一和第二正则化之间,多层感知机置于第二和第三层正则化之间;
融合子单元,所述融合子单元被配置为将输入所述可变并行融合模型的浅层特征、所述局部特征子单元处理后的特征和所述全局特征子单元处理后的特征进行融合相加,获得所述浅层特征的进一步特征。
可选的,所述视觉特征提取模块,具体包括:
图像特征提取单元,所述图像特征提取单元被配置为接收尺寸为的修复图像,使用带有残差连接的全卷积U-Net模型提取所述修复图像的图像特征;
上采样解码单元,所述上采样解码单元被配置为对所述图像特征进行上采样解码为尺寸为的即时特征。
可选的,所述自损失体构建模块,具体包括:
有序平面组生成单元,所述有序平面组生成单元被配置为将预设连续时间的修复图像构建为图像序列,使用姿态监测模型获取帧图像之间的相对位姿,定义生成有序平面组;
其中,所述有序平面组中每个平面都垂直于光轴,且深度在人为确定或估计获得的最小深度和最大深度之间线性间隔;
映射扭曲单元,所述映射扭曲单元被配置为将每一帧图像编码成一个深度特征映射,t∈{1,…,N},采用每个假设的替代深度,使用已知的相机内参和估计的位姿,将其他帧图像的深度特征映射到第一帧图像的视点;
自损失体构建单元,所述自损失体构建单元被配置为获取扭曲过程中所有图像帧产生的深度特征映射差值,并将所述深度特征映射差值作为自损失体;
其中,自损失体蕴含了对于每一个像素在有序平面组处取得正确深度的可能性。
可选的,所述细粒度查询模块,具体包括:
补丁分割单元,所述补丁分割单元被配置为使用的卷积核和长度为的步长对即时特征进行卷积,产生尺寸为的特征映射,将特征映射重构为;
其中,为通道数,为补丁数量,一个补丁的尺寸为,h和w为上采样解码的即时特征的长和宽,n为特征映射的深度;
相对距离查询单元,所述相对距离查询单元被配置为将补丁送入转换器中获得尺寸为的嵌入表示结果,执行逐像素的相对距离查询,获得相对距离表示。
可选的,所述深度估计模块,具体包括:
概率映射转换单元,所述概率映射转换单元被配置为对所述自损失体的深度特征映射差值应用逐像素的归一化指数函数进行处理,转换为逐像素概率映射;
待估计特征生成单元,所述待估计特征生成单元被配置为利用逐像素概率映射完成对即时特征的像素加权求和,得到待估计特征;
深度估计单元,所述深度估计单元被配置为将所述相对距离表示与待估计特征做特征融合后送入多层感知机对修复图像进行深度估计,得到最终的深度估计结果。
可选的,将所述相对距离表示与待估计特征做特征融合后送入多层感知机对修复图像进行深度估计,得到最终的深度估计结果的表达式,具体为:
;
其中,为深度估计结果。
本发明还提供了一种具有细粒度恢复能力的单目深度估计方法,所述方法,包括:
S1:提取目标图像的特征图,并利用所述特征图对目标图像进行修复获得修复图像;
S2:提取所述修复图像的图像特征,并将所述图像特征转换为即时特征;
S3:将预设连续时间的修复图像构建为图像序列,利用所述图像序列中的帧图像定义有序平面组,并基于所述有序平面组将其他帧图像的深度特征映射扭曲到第一帧图像的视点,获得扭曲过程中所有帧图像产生的深度特征映射差值,并将所述深度特征映射差值作为自损失体;
S4:将所述即时特征分割为若干个补丁,并对所述补丁的嵌入表示进行逐像素的相对距离查询,获得相对距离表示;
S5:基于所述自损失体与所述相对距离表示,对修复图像进行深度估计,获得深度估计结果。
本发明的有益效果在于:提出了一种具有细粒度恢复能力的单目深度估计系统及方法,通过使用带有残差连接的全卷积U-Net来提取具有高频细节的即时视觉特征,并使用Transformer获取即时视觉特征补丁的Embedding结果,提高了模型的泛化性及感知精度。基于深度特征映射差值构建损失体,再将损失体转换为逐像素概率映射,并对即时视觉特征做加权求和得到待估计特征,以此避免了复杂场景感知不全现象的出现且摆脱了对真值的过度依赖。最后将通过细粒度查询获得的相对距离表示与待估计特征共同送入多层感知机得到最终的深度估计结果,利用细粒度查询的引入提高了对场景特别是自动驾驶常见的街景或无人机拍摄图像的细粒度特征捕获。较现有技术而言,摒弃了传统采用激光雷达获取真值数据的方式,利用深度特征映射差值构建的损失体来表征图像中每个像素在有序平面中取得正确深度的可能性,弥补了缺乏真值给图像深度估计带来的影响,具有更好的泛化性及更少的真值依赖,提高对弱小实例的识别能力,为自动驾驶时的操作判断与无人机目标跟踪提供有效的数据支撑。
附图说明
图1为本实施例所提供的具有细粒度恢复能力的单目深度估计系统的结构示意图。
图2为本实施例所提供的可变并行融合模型的结构示意图。
图3为深度估计实验中的原始图像。
图4为深度估计实验中未采用真值直接进行深度估计的图像。
图5为深度估计实验中采用构建的损失体进行深度估计的图像。
图6为本实施例所提供的具有细粒度恢复能力的单目深度估计方法的流程示意图。
10-图像预处理模块;101-局部特征子单元;102-全局特征子单元;103-融合子单元;20-视觉特征提取模块;30-自损失体构建模块;40-细粒度查询模块;50-深度估计模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
如图1所示,一种具有细粒度恢复能力的单目深度估计系统,所述系统,包括:图像预处理模块10,所述图像预处理模块10被配置为提取目标图像的特征图,并利用所述特征图对目标图像进行修复获得修复图像;视觉特征提取模块20,所述视觉特征提取模块20被配置为提取所述修复图像的图像特征,并将所述图像特征转换为即时特征;自损失体构建模块30,所述自损失体构建模块30被配置为将预设连续时间的修复图像构建为图像序列,利用所述图像序列中的帧图像定义有序平面组,并基于所述有序平面组将其他帧图像的深度特征映射扭曲到第一帧图像的视点,获得扭曲过程中所有帧图像产生的深度特征映射差值,并将所述深度特征映射差值作为自损失体;细粒度查询模块40,所述细粒度查询模块40被配置为将所述即时特征分割为若干个补丁,并对所述补丁的嵌入表示进行逐像素的相对距离查询,获得相对距离表示;深度估计模块50,所述深度估计模块50被配置为基于所述自损失体与所述相对距离表示,对修复图像进行深度估计,获得深度估计结果。
需要说明的是,现有单目深度估计技术主要为利用激光雷达数据作为真值的监督学习方法。然而,从真实世界采集大尺度深度测量数据耗时长,成本高。现有方法在缺乏足够真值的前提下存在泛化性差、感知不全、精度低等问题,且无法学习场景结构细粒度先验知识。为了解决上述问题,本实施例使用带有残差连接的全卷积U-Net来提取具有高频细节的即时视觉特征,并使用Transformer获取即时视觉特征补丁的Embedding结果,提高了模型的泛化性及感知精度。基于深度特征映射差值构建损失体,再将损失体转换为逐像素概率映射,并对即时视觉特征做加权求和得到待估计特征,以此避免了复杂场景感知不全现象的出现且摆脱了对真值的过度依赖。最后将通过细粒度查询获得的相对距离表示与待估计特征共同送入多层感知机得到最终的深度估计结果,利用细粒度查询的引入提高了对场景特别是自动驾驶常见的街景的细粒度特征捕获。较现有技术而言具有更好的泛化性及更少的真值依赖,且对场景细粒度特征具有更好的学习能力及恢复能力,能够解决现有技术利用激光雷达数据作为真值的监督学习方法存在的测量数据耗时长,成本高、泛化性差、感知不全、精度低且无法学习场景结构细粒度先验知识等问题。
具体而言,目标图像可以为自动驾驶街景场景图像、无人机俯视拍摄图等存在实例多、实例关系复杂、存在弱小实例的场景图像。实际应用中,在对自动驾驶街景场景图像、无人机俯视拍摄图中的实例进行识别,并根据识别结果执行自动驾驶操作和无人机目标跟踪时,需要先对采集的目标图像中的像素进行深度估计,并根据深度估计结果将图像中的实例进行提取与识别,而现有技术存在着严重依赖激光雷达数据作为真值进行图像深度估计的问题,这样的问题会使得数据采集测量的耗时长,影响自动驾驶操作与目标跟踪的反应灵敏度,给硬件的运算能力提出了更高的挑战,同时,采用激光雷达数据采集深度估计所需要的真值也提高了解决该场景技术问题的成本。
鉴于此,本申请摒弃了传统采用激光雷达获取真值数据的方式,利用深度特征映射差值构建的损失体来表征图像中每个像素在有序平面组中取得正确深度的可能性,弥补了缺乏真值给图像深度估计带来的影响,具有更好的泛化性及更少的真值依赖,提高对弱小实例的识别能力,为自动驾驶时的操作判断与无人机目标跟踪提供有效的数据支撑,由于减少了采集激光雷达数据作为真值的耗时,提高了自动驾驶操作与目标跟踪的反应灵敏度。
在优选的实施例中,所述图像预处理模块10,具体包括:特征图提取单元,所述特征图提取单元被配置为提取目标图像的浅层特征,利用若干个可变并行融合模型对所述浅层特征进行处理,提取获得所述浅层特征的进一步特征,并基于每个可变并行融合模型提取的进一步特征,生成目标图像的特征图;图像修复单元,所述图像修复单元被配置为将目标图像的特征图做上采样后输入多层感知机对目标图像进行修复获得修复图像。
更进一步的,所述特征图提取单元,具体包括:
浅层特征提取子单元,所述浅层特征提取子单元被配置为提取目标图像的浅层特征;其中,提取目标图像的浅层特征,具体为:
;
其中,表示对目标图像进行浅层特征提取,为一个3×3的卷积层,表示所提取的浅层特征;
进一步特征提取子单元,所述进一步特征提取子单元被配置为利用若干个可变并行融合模型对所述浅层特征进行处理,提取获得所述浅层特征的进一步特征;
其中,提取所述浅层特征的进一步特征,具体为:
;
其中,表示第n个可变并行融合模型,为提取出的特征;
特征图生成子单元,所述特征图生成子单元被配置为对每个可变并行融合模型输出的进一步特征先做1×1的卷积处理,再做3×3的卷积处理,对所有卷积处理结果做加法并拍平得到第一特征,将做3×3的卷积处理并拍平得到第二特征,将第一特征、第二特征与缩放拍平后的浅层特征共同组成一个通道数为3的特征图。
更进一步的,如图2所示,所述可变并行融合模型,具体包括:局部特征子单元101,所述局部特征子单元101由四层1×1卷积、两层平均池化、一层ReLU和一层Sigmoid组成,平均池化层与前三层1×1卷积交替组合,ReLU置于第三层卷积和第四层卷积之间,Sigmoid在第四层卷积之后;全局特征子单元102,所述全局特征子单元102由三层正则化、一层多头自注意、一层多层感知机构成,多头自注意置于第一和第二正则化之间,多层感知机置于第二和第三层正则化之间;融合子单元103,所述融合子单元103被配置为将输入所述可变并行融合模型的浅层特征、所述局部特征子单元处理后的特征和所述全局特征子单元处理后的特征进行融合相加,获得所述浅层特征的进一步特征。
本实施例中,图像预处理模块10首先对输入的目标图像(自动驾驶街景场景图像或无人机俯视拍摄图,尺寸为2048×1024,单位为px,图像中的实例个数超过20个,且存在弱小实例,所述弱小实例指像素量为1024的实例,图像深度范围为5-50m)进行浅层特征提取,然后使用n个可变并行融合模型(本实施例中n取3)对提取的浅层特征作进一步的特征提取,最后利用每个可变并行融合模型的输出结果做卷积与加法拍平得到第一特征,再将第n个可变并行融合模型的输出结果做卷积与拍平得到第二特征,最终将浅层特征、第一特征、第二特征共同组成通道数为3的特征图,利用该特征图做上采样送入多层感知机得到修复后的修复图像,以此对目标图像内部实例的缺损进行修复,为后续提取视觉特征和构建自损失体提供更准确、更贴近真实图像的输入数据,进而提高最终的深度估计结果的准确性。
在优选的实施例中,所述视觉特征提取模块20,具体包括:图像特征提取单元,所述图像特征提取单元被配置为接收尺寸为的修复图像,使用带有残差连接的全卷积U-Net模型提取所述修复图像的图像特征;上采样解码单元,所述上采样解码单元被配置为对所述图像特征进行上采样解码为尺寸为的即时特征。
本实施例中,视觉特征提取模块20首先接收图像预处理模块10输出的修复图像(其尺寸为),然后使用带有残差连接的全卷积U-Net提取图像特征,并对特征进行上采样解码为尺寸为的高分辨率即时特征。其中,在本实施例中,取,。由此,通过使用带有残差连接的全卷积U-Net来提取具有高频细节的即时视觉特征,并在后续使用Transformer获取即时视觉特征补丁的Embedding结果,使其能够隐式地表示图像中的对象,提高了模型的泛化性及感知精度,随后,对补丁的Embedding结果执行逐像素的相对距离查询,获得相对距离表示,为深度估计提供具有场景细粒度恢复与学习能力的特征。
在优选的实施例中,所述自损失体构建模块30,具体包括:有序平面组生成单元,所述有序平面组生成单元被配置为将预设连续时间的修复图像构建为图像序列,使用姿态监测模型获取帧图像之间的相对位姿,定义生成有序平面组;其中,所述有序平面组中每个平面都垂直于光轴,且深度在人为确定或估计获得的最小深度和最大深度之间线性间隔;映射扭曲单元,所述映射扭曲单元被配置为将每一帧图像编码成一个深度特征映射,t∈{1,…,N},采用每个假设的替代深度,使用已知的相机内参和估计的位姿,将其他帧图像的深度特征映射到第一帧图像的视点;自损失体构建单元,所述自损失体构建单元被配置为获取扭曲过程中所有图像帧产生的深度特征映射差值,并将所述深度特征映射差值作为自损失体;其中,自损失体蕴含了对于每一个像素在有序平面组处的取得正确深度的可能性,由于可能性来源于数据自身,与真值无关,弥补了现有方法对真值的依赖缺陷,提高对弱小实例的识别能力,为自动驾驶时的操作判断与无人机目标跟踪提供有效的数据支撑,由于减少了采集激光雷达数据作为真值的耗时,提高了自动驾驶操作与目标跟踪的反应灵敏度。
本实施例中,自损失体构建模块30首先取预设连续时间的图像,组成图像序列,使用姿态监测模型(本实施例中采用PoseCNN)获取帧与帧之间的相对位姿,定义一有序平面组,每个平面都垂直于光轴,深度在和之间线性间隔(和的确定通常采用人为确定或估计的方式)。每一帧图像都被编码成一个深度特征映射(的为,的为),并使用每个假设的替代深度,使用已知的相机内参和估计的位姿,将其他帧深度特征映射扭曲到第一帧图像的视点。扭曲过程中所有帧产生的深度特征映射差值作为损失体,损失体蕴含了对于每一个像素在有序平面组处取得正确深度的可能性,避免了复杂场景感知不全现象的出现且摆脱了对真值的过度依赖。由此,通过将基于深度特征映射差值构建的损失体转换为逐像素概率映射,并对即时视觉特征做加权求和得到待估计特征,为深度估计提供具有场景细粒度恢复与学习能力的特征。
在优选的实施例中,所述细粒度查询模块40,具体包括:补丁分割单元,所述补丁分割单元被配置为使用的卷积核和长度为的步长对即时特征进行卷积,产生尺寸为的特征映射,将特征映射重构为;其中,为通道数,为补丁数量,一个补丁的尺寸为,h和w为上采样解码的即时特征的长和宽,n为特征映射的深度;相对距离查询单元,所述相对距离查询单元被配置为将补丁送入转换器中获得尺寸为的嵌入表示结果,执行逐像素的相对距离查询,获得相对距离表示。
本实施例中,细粒度查询模块40首先将即时特征分割成多个补丁,利用Transformer获得补丁的Embedding结果,使其能够隐式地表示图像中的对象,随后,对补丁的Embedding结果执行逐像素的相对距离查询,获得相对距离表示,使其能够隐式地表示图像中的对象,利用细粒度查询的引入提高了对场景特别是自动驾驶常见的街景或无人机拍摄图像的细粒度特征捕获,为深度估计提供具有场景细粒度恢复与学习能力的特征。
在优选的实施例中,所述深度估计模块50,具体包括:概率映射转换单元,所述概率映射转换单元被配置为对所述自损失体的深度特征映射差值应用逐像素的归一化指数函数进行处理,转换为逐像素概率映射;待估计特征生成单元,所述待估计特征生成单元被配置为利用逐像素概率映射完成对即时特征的像素加权求和,得到待估计特征;深度估计单元,所述深度估计单元被配置为将所述相对距离表示与待估计特征做特征融合后送入多层感知机对修复图像进行深度估计,得到最终的深度估计结果。
更进一步的,将所述相对距离表示与待估计特征做特征融合后送入多层感知机对修复图像进行深度估计,得到最终的深度估计结果的表达式,具体为:
;
其中,为深度估计结果。
本实施例中,深度估计模块50首先对应用逐像素的Softmax(即归一化指数函数),将其转换为逐像素概率映射;然后,利用完成对的像素加权求和,即同一个像素的不同通道求和,得到待估计特征,最后,将与做Concat后送入多层感知机得到最终的深度估计结果。由此,通过自损失体并结合相对距离表示完成对恢复图像的深度估计,相较于现有技术而言具有更好的泛化性及更少的真值依赖,且对场景细粒度特征具有更好的学习能力及恢复能力,解决现有技术利用激光雷达数据作为真值的监督学习方法存在的测量数据耗时长,成本高、泛化性差、感知不全、精度低且无法学习场景结构细粒度先验知识等问题。
如图3-5所示,对无人机目标跟踪场景下采集的图像进行深度估计实验,图3-5分别为原始图像、未采用真值直接进行深度估计的图像以及采用本申请利用深度特征映射差值构建的损失体来进行深度估计的图像。由实验结果可知,现有方法对细粒度特征捕获不全,从而导致对弱小实例的丢失(图4中方框内的实例丢失),且缺乏真值的情况下树木实例与地面的深度差模糊不清(图4中树木实例与地面混为一体)。本申请方法对深度预测更为准确,且弥补了现有方法对弱小实例的丢失问题(图5中方框内的实例未丢失),且树木实例与地面的深度差更准确(图5中树木实例与地面能够明显区分)。
实施例2:
参照图6,图6为本发明实施例提供的一种具有细粒度恢复能力的单目深度估计方法的流程示意图。
如图6所示,一种具有细粒度恢复能力的单目深度估计方法,用于如上所述的具有细粒度恢复能力的单目深度估计系统,包括:
S1:提取目标图像的特征图,并利用所述特征图对目标图像进行修复获得修复图像;
S2:提取所述修复图像的图像特征,并将所述图像特征转换为即时特征;
S3:将预设连续时间的修复图像构建为图像序列,利用所述图像序列中的帧图像定义有序平面组,并基于所述有序平面组将其他帧图像的深度特征映射扭曲到第一帧图像的视点,获得扭曲过程中所有帧图像产生的深度特征映射差值,并将所述深度特征映射差值作为自损失体;
S4:将所述即时特征分割为若干个补丁,并对所述补丁的嵌入表示进行逐像素的相对距离查询,获得相对距离表示;
S5:基于所述自损失体与所述相对距离表示,对修复图像进行深度估计,获得深度估计结果。
本实施例提供了一种具有细粒度恢复能力的单目深度估计方法,通过使用带有残差连接的全卷积U-Net来提取具有高频细节的即时视觉特征,并使用Transformer获取即时视觉特征补丁的Embedding结果。将基于深度特征映射差值构建的损失体转换为逐像素概率映射,并对即时视觉特征做加权求和得到待估计特征。最后将通过细粒度查询获得的相对距离表示与待估计特征共同送入多层感知机得到最终的深度估计结果,较现有技术而言具有更好的泛化性及更少的真值依赖,且对场景细粒度特征具有更好的学习能力及恢复能力。
本申请具有细粒度恢复能力的单目深度估计方法的具体实施方式与上述具有细粒度恢复能力的单目深度估计系统各实施例基本相同,在此不再赘述。
在本发明的实施例的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“坚直”、“水平”、“中心”、“顶”、“底”、“顶部”、“底部”、“内”、“外”、“内侧”、“外侧”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。其中,“里侧”是指内部或围起来的区域或空间。“外围”是指某特定部件或特定区域的周围的区域。
在本发明的实施例的描述中,术语“第一”、“第二”、“第三”、“第四”仅用以描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”、“第四”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的实施例的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“组装”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的实施例的描述中,具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
在本发明的实施例的描述中,需要理解的是,“-”和“~”表示的是两个数值之间的范围,并且该范围包括端点。例如:“A-B”表示大于或等于A,且小于或等于B的范围。“A~B”表示大于或等于A,且小于或等于B的范围。
在本发明的实施例的描述中,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (7)
1.一种具有细粒度恢复能力的单目深度估计系统,其特征在于,所述系统,包括:
图像预处理模块,所述图像预处理模块被配置为提取目标图像的特征图,并利用所述特征图对目标图像进行修复获得修复图像;
视觉特征提取模块,所述视觉特征提取模块被配置为提取所述修复图像的图像特征,并将所述图像特征转换为即时特征;
自损失体构建模块,所述自损失体构建模块被配置为将预设连续时间的修复图像构建为图像序列,利用所述图像序列中的帧图像定义有序平面组,并基于所述有序平面组将其他帧图像的深度特征映射扭曲到第一帧图像的视点,获得扭曲过程中所有帧图像产生的深度特征映射差值,并将所述深度特征映射差值作为自损失体;
细粒度查询模块,所述细粒度查询模块被配置为将所述即时特征分割为若干个补丁,并对所述补丁的嵌入表示进行逐像素的相对距离查询,获得相对距离表示;
深度估计模块,所述深度估计模块被配置为基于所述自损失体与所述相对距离表示,对修复图像进行深度估计,获得深度估计结果;
所述图像预处理模块,具体包括:
特征图提取单元,所述特征图提取单元被配置为提取目标图像的浅层特征,利用若干个可变并行融合模型对所述浅层特征进行处理,提取获得所述浅层特征的进一步特征,并基于每个可变并行融合模型提取的进一步特征,生成目标图像的特征图;
图像修复单元,所述图像修复单元被配置为将目标图像的特征图做上采样后输入多层感知机对目标图像进行修复获得修复图像;
所述特征图提取单元,具体包括:
浅层特征提取子单元,所述浅层特征提取子单元被配置为提取目标图像的浅层特征;其中,提取目标图像的浅层特征,具体为:
;
其中,表示对目标图像进行浅层特征提取,为一个3×3的卷积层,表示所提取的浅层特征;
进一步特征提取子单元,所述进一步特征提取子单元被配置为利用若干个可变并行融合模型对所述浅层特征进行处理,提取获得所述浅层特征的进一步特征;
其中,提取所述浅层特征的进一步特征,具体为:
;
其中,表示第n个可变并行融合模型,为提取出的特征;
特征图生成子单元,所述特征图生成子单元被配置为对每个可变并行融合模型输出的进一步特征先做1×1的卷积处理,再做3×3的卷积处理,对所有卷积处理结果做加法并拍平得到第一特征,将做3×3的卷积处理并拍平得到第二特征,将第一特征、第二特征与缩放拍平后的浅层特征共同组成一个通道数为3的特征图;
所述深度估计模块,具体包括:
概率映射转换单元,所述概率映射转换单元被配置为对所述自损失体的深度特征映射差值应用逐像素的归一化指数函数进行处理,转换为逐像素概率映射;
待估计特征生成单元,所述待估计特征生成单元被配置为利用逐像素概率映射完成对即时特征的像素加权求和,得到待估计特征;
深度估计单元,所述深度估计单元被配置为将所述相对距离表示与待估计特征做特征融合后送入多层感知机对修复图像进行深度估计,得到最终的深度估计结果。
2.根据权利要求1所述的具有细粒度恢复能力的单目深度估计系统,其特征在于,所述可变并行融合模型,具体包括:
局部特征子单元,所述局部特征子单元由四层1×1卷积、两层平均池化、一层ReLU和一层Sigmoid组成,平均池化层与前三层1×1卷积交替组合,ReLU置于第三层卷积和第四层卷积之间,Sigmoid在第四层卷积之后;
全局特征子单元,所述全局特征子单元由三层正则化、一层多头自注意、一层多层感知机构成,多头自注意置于第一和第二正则化之间,多层感知机置于第二和第三层正则化之间;
融合子单元,所述融合子单元被配置为将输入所述可变并行融合模型的浅层特征、所述局部特征子单元处理后的特征和所述全局特征子单元处理后的特征进行融合相加,获得所述浅层特征的进一步特征。
3.根据权利要求1所述的具有细粒度恢复能力的单目深度估计系统,其特征在于,所述视觉特征提取模块,具体包括:
图像特征提取单元,所述图像特征提取单元被配置为接收尺寸为的修复图像,使用带有残差连接的全卷积U-Net模型提取所述修复图像的图像特征;
上采样解码单元,所述上采样解码单元被配置为对所述图像特征进行上采样解码为尺寸为的即时特征。
4.根据权利要求1所述的具有细粒度恢复能力的单目深度估计系统,其特征在于,所述自损失体构建模块,具体包括:
有序平面组生成单元,所述有序平面组生成单元被配置为将预设连续时间的修复图像构建为图像序列,使用姿态监测模型获取帧图像之间的相对位姿,定义生成有序平面组;
其中,所述有序平面组中每个平面都垂直于光轴,且深度在人为确定或估计获得的最小深度和最大深度之间线性间隔;
映射扭曲单元,所述映射扭曲单元被配置为将每一帧图像编码成一个深度特征映射,t∈{1,…,N},采用每个假设的替代深度,使用已知的相机内参和估计的位姿,将其他帧图像的深度特征映射到第一帧图像的视点;
自损失体构建单元,所述自损失体构建单元被配置为获取扭曲过程中所有图像帧产生的深度特征映射差值,并将所述深度特征映射差值作为自损失体;
其中,自损失体蕴含了对于每一个像素在有序平面组处取得正确深度的可能性。
5.根据权利要求4所述的具有细粒度恢复能力的单目深度估计系统,其特征在于,所述细粒度查询模块,具体包括:
补丁分割单元,所述补丁分割单元被配置为使用的卷积核和长度为的步长对即时特征进行卷积,产生尺寸为的特征映射,将特征映射重构为;
其中,为通道数,为补丁数量,一个补丁的尺寸为,h和w为上采样解码的即时特征的长和宽,n为特征映射的深度;
相对距离查询单元,所述相对距离查询单元被配置为将补丁送入转换器中获得尺寸为的嵌入表示结果,执行逐像素的相对距离查询,获得相对距离表示。
6.根据权利要求1所述的具有细粒度恢复能力的单目深度估计系统,其特征在于,将所述相对距离表示与待估计特征做特征融合后送入多层感知机对修复图像进行深度估计,得到最终的深度估计结果的表达式,具体为:
;
其中,为深度估计结果。
7.一种基于权利要求1所述的具有细粒度恢复能力的单目深度估计系统的方法,其特征在于,所述方法包括:
S1:提取目标图像的特征图,并利用所述特征图对目标图像进行修复获得修复图像;
S2:提取所述修复图像的图像特征,并将所述图像特征转换为即时特征;
S3:将预设连续时间的修复图像构建为图像序列,利用所述图像序列中的帧图像定义有序平面组,并基于所述有序平面组将其他帧图像的深度特征映射扭曲到第一帧图像的视点,获得扭曲过程中所有帧图像产生的深度特征映射差值,并将所述深度特征映射差值作为自损失体;
S4:将所述即时特征分割为若干个补丁,并对所述补丁的嵌入表示进行逐像素的相对距离查询,获得相对距离表示;
S5:基于所述自损失体与所述相对距离表示,对修复图像进行深度估计,获得深度估计结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202411097257.3A CN118644539B (zh) | 2024-08-12 | 2024-08-12 | 一种具有细粒度恢复能力的单目深度估计系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202411097257.3A CN118644539B (zh) | 2024-08-12 | 2024-08-12 | 一种具有细粒度恢复能力的单目深度估计系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118644539A CN118644539A (zh) | 2024-09-13 |
CN118644539B true CN118644539B (zh) | 2024-10-29 |
Family
ID=92664762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202411097257.3A Active CN118644539B (zh) | 2024-08-12 | 2024-08-12 | 一种具有细粒度恢复能力的单目深度估计系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118644539B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115115685A (zh) * | 2022-06-07 | 2022-09-27 | 南京邮电大学 | 一种基于自注意力神经网络的单目图像深度估计算法 |
CN118397062A (zh) * | 2024-04-08 | 2024-07-26 | 中国科学院空天信息创新研究院 | 融合平面结构信息的单目深度估计方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2747028B1 (en) * | 2012-12-18 | 2015-08-19 | Universitat Pompeu Fabra | Method for recovering a relative depth map from a single image or a sequence of still images |
WO2016079718A1 (en) * | 2014-11-20 | 2016-05-26 | Mantisvision Ltd. | Methods circuits devices assemblies systems and functionally associated computer executable code for image acquisition with depth estimation |
CN116258757A (zh) * | 2023-03-24 | 2023-06-13 | 南京邮电大学 | 一种基于多尺度交叉注意力的单目图像深度估计方法 |
CN117670965B (zh) * | 2023-12-13 | 2024-08-06 | 合肥工业大学 | 一种适用于红外图像的无监督单目深度估计方法及系统 |
-
2024
- 2024-08-12 CN CN202411097257.3A patent/CN118644539B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115115685A (zh) * | 2022-06-07 | 2022-09-27 | 南京邮电大学 | 一种基于自注意力神经网络的单目图像深度估计算法 |
CN118397062A (zh) * | 2024-04-08 | 2024-07-26 | 中国科学院空天信息创新研究院 | 融合平面结构信息的单目深度估计方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN118644539A (zh) | 2024-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110415342B (zh) | 一种基于多融合传感器的三维点云重建装置与方法 | |
CN111325797A (zh) | 一种基于自监督学习的位姿估计方法 | |
CN114565655B (zh) | 一种基于金字塔分割注意力的深度估计方法及装置 | |
CN116188893A (zh) | 基于bev的图像检测模型训练及目标检测方法和装置 | |
CN116246119A (zh) | 3d目标检测方法、电子设备及存储介质 | |
CN112767267B (zh) | 基于仿真偏振带雾场景数据集的图像去雾方法 | |
CN117496312A (zh) | 基于多模态融合算法的三维多目标检测方法 | |
CN115330935A (zh) | 一种基于深度学习的三维重建方法及系统 | |
CN115861591B (zh) | 基于transformer关键纹理编码匹配的无人机定位方法 | |
CN117593702B (zh) | 远程监控方法、装置、设备及存储介质 | |
CN118644539B (zh) | 一种具有细粒度恢复能力的单目深度估计系统及方法 | |
CN116206196B (zh) | 一种海洋低光环境多目标检测方法及其检测系统 | |
WO2024045942A1 (zh) | 环境信息感知方法、装置、系统、计算机设备及存储介质 | |
CN117576461A (zh) | 一种用于变电站场景的语义理解方法、介质及系统 | |
CN115825946A (zh) | 基于无监督学习的毫米波雷达测距方法及装置 | |
Kallasi et al. | Object detection and pose estimation algorithms for underwater manipulation | |
CN115861709A (zh) | 基于卷积神经网络的智能视觉检测设备及其方法 | |
CN115272450A (zh) | 一种基于全景分割的目标定位方法 | |
US20240153120A1 (en) | Method to determine the depth from images by self-adaptive learning of a neural network and system thereof | |
Rasyidy et al. | A Framework for Road Boundary Detection based on Camera-LIDAR Fusion in World Coordinate System and Its Performance Evaluation Using Carla Simulator | |
Ramachandran et al. | Self-supervised depth enhancement | |
CN117523428B (zh) | 基于飞行器平台的地面目标检测方法和装置 | |
CN113628334B (zh) | 视觉slam方法、装置、终端设备及存储介质 | |
CN113971755B (zh) | 基于改进yolov3模型的全天候海面目标检测方法 | |
Zhang | Extending deep learning based Multi-view stereo algorithms for aerial datasets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |