[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN112241976A - 一种训练模型的方法及装置 - Google Patents

一种训练模型的方法及装置 Download PDF

Info

Publication number
CN112241976A
CN112241976A CN201910655547.8A CN201910655547A CN112241976A CN 112241976 A CN112241976 A CN 112241976A CN 201910655547 A CN201910655547 A CN 201910655547A CN 112241976 A CN112241976 A CN 112241976A
Authority
CN
China
Prior art keywords
depth
scene image
sample scene
loss
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910655547.8A
Other languages
English (en)
Other versions
CN112241976B (zh
Inventor
时辉章
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Priority to CN201910655547.8A priority Critical patent/CN112241976B/zh
Publication of CN112241976A publication Critical patent/CN112241976A/zh
Application granted granted Critical
Publication of CN112241976B publication Critical patent/CN112241976B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本申请实施例提供了一种训练模型的方法及装置,涉及计算机技术领域,方法包括:获取包含预先标定的标定对象的第一样本场景图像。获取预设的标定对象的标定深度,根据标定深度,计算第一样本场景图像中各像素点的深度值,得到第一深度图,并将第一样本场景图像输入至待训练的深度估计模型,输出第二深度图。根据第一深度图中各像素点的深度值、以及第二深度图中各像素点的深度值,计算第一深度损失。根据第一深度损失和预设的训练算法,训练深度估计模型。采用本申请电子设备可以通过标定的方式,计算样本场景图像的深度真实值。通过深度真实值,训练深度估计模型。因此通过该训练方式训练出的估计模型可以预测场景的真实深度。

Description

一种训练模型的方法及装置
技术领域
本申请涉及计算机技术领域,特别是涉及一种训练模型的方法及装置。
背景技术
单目摄像机为使用单镜头进行拍摄的摄像设备,单目摄像机内可以预设深度估计模型,深度估计模型为预测图像中场景深度的算法。单目摄像机可以拍摄场景图像,并将该场景图像输入至深度估计模型,输出该场景图像的深度图。
目前,通常采用无监督学习的训练方式,对单目摄像机中的深度估计模型进行训练,以提高单目摄像机识别场景深度的准确度。具体的处理过程为:电子设备获取样本场景图像和相邻帧场景图像,将样本场景图像和相邻帧场景图像输入至位姿估计模型中,输出位姿参数,将样本场景图像输入至深度估计模型中,输出深度图。电子设备可以根据该位姿参数、该深度图和样本场景图像,计算深度损失,根据该深度损失,训练位姿估计模型和深度估计模型。其中,位姿参数为两帧图像之间的平移量,俯仰角,偏航角,滚转角等参数。深度损失为样本场景图像和相邻帧场景图像相对深度的损失值。
用户在使用无监督学习的训练方式训练深度估计模型时,由于无监督学习的训练方式是,通过相邻两帧图像位置的差异来计算该相邻两帧图像的相对深度的损失值,进而根据该相对深度的损失值训练估计模型,由于该相对深度与真实深度间存在较大误差,其训练后的估计模型不能准确预测场景的真实深度。
发明内容
本申请实施例的目的在于提供一种训练模型的方法及装置,电子设备通过该训练方法训练出的估计模型可以预测场景的真实深度,提高训练的准确度。具体技术方案如下:
第一方面,提供了一种训练模型的方法,所述方法应用于电子设备,所述方法包括:
获取第一样本场景图像,所述第一样本场景图像为包含预先标定的标定对象的图像;
获取预设的所述标定对象的标定深度,根据所述标定深度,计算所述第一样本场景图像中各像素点的深度值,得到第一深度图,并将所述第一样本场景图像输入至待训练的深度估计模型,输出第二深度图;
根据所述第一深度图中各像素点的深度值、以及所述第二深度图中各像素点的深度值,计算第一深度损失;
根据所述第一深度损失和预设的训练算法,训练所述深度估计模型。
可选的,所述获取所述第一样本场景图像之后,还包括:
若所述第一样本场景图像为包含干扰区域的图像,则获取预设的所述第一样本场景图像对应的地面掩码;
所述根据所述第一深度图中各像素点的深度值、以及所述第二深度图中各像素点的深度值,计算第一深度损失,包括:
根据所述第一深度图中各像素点的深度值、所述第二深度图中各像素点的深度值和所述地面掩码,计算第一深度损失。
可选的,所述方法还包括:
获取第二样本场景图像,所述第二样本场景图像为,所述第一样本场景图像所在的样本图像集合中的临近帧图像;
将所述第一样本场景图像和所述第二样本场景图像输入待训练的位姿估计模型,输出第一位姿参数;
根据所述第一位姿参数、所述第一样本场景图像和所述第二深度图,生成所述第一样本场景图像对应的第一重构图像;
根据所述第一重构图像中各像素点的深度值和所述第一样本场景图像中各像素点的深度值,计算第二深度损失;
根据所述第一深度损失和所述第二深度损失,计算第三深度损失;
根据所述第三深度损失和预设的所述训练算法训练所述位姿估计模型。
可选的,所述根据所述第一深度损失和预设的训练算法,训练所述深度估计模型,包括:
根据所述第三深度损失和预设的所述训练算法,训练所述深度估计模型。
第二方面,提供了一种训练模型的装置,所述装置应用于电子设备,所述装置包括:
第一获取模块,用于获取第一样本场景图像,所述第一样本场景图像为包含预先标定的标定对象的图像;
第一输出模块,用于获取预设的所述标定对象的标定深度,根据所述标定深度,计算所述第一样本场景图像中各像素点的深度值,得到第一深度图,并将所述第一样本场景图像输入至待训练的深度估计模型,输出第二深度图;
第一计算模块,用于根据所述第一深度图中各像素点的深度值、以及所述第二深度图中各像素点的深度值,计算第一深度损失;
第一训练模块,用于根据所述第一深度损失和预设的训练算法,训练所述深度估计模型。
可选的,所述装置还包括:
第二获取模块,用于若所述第一样本场景图像为包含干扰区域的图像,则获取预设的所述第一样本场景图像对应的地面掩码;
所述第一计算模块,具体用于:
根据所述第一深度图中各像素点的深度值、所述第二深度图中各像素点的深度值和所述地面掩码,计算第一深度损失。
可选的,所述装置还包括:
第三获取模块,用于获取第二样本场景图像,所述第二样本场景图像为,所述第一样本场景图像所在的样本图像集合中的临近帧图像;
第二输出模块,用于将所述第一样本场景图像和所述第二样本场景图像输入待训练的位姿估计模型,输出第一位姿参数;
生成模块,用于根据所述第一位姿参数、所述第一样本场景图像和所述第二深度图,生成所述第一样本场景图像对应的第一重构图像;
第二计算模块,用于根据所述第一重构图像中各像素点的深度值和所述第一样本场景图像中各像素点的深度值,计算第二深度损失;
第三计算模块,用于根据所述第一深度损失和所述第二深度损失,计算第三深度损失;
第二训练模块,用于根据所述第三深度损失和预设的所述训练算法训练所述位姿估计模型。
可选的,所述第一训练模块,具体用于:
根据所述第三深度损失和预设的所述训练算法,训练所述深度估计模型。
第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法步骤。
第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。
本申请实施例提供的一种训练模型的方法及装置,电子设备可以获取第一样本场景图像,所述第一样本场景图像为包含预先标定的标定对象的图像。电子设备可以获取预设的所述标定对象的标定深度,根据所述标定深度,计算所述第一样本场景图像中各像素点的深度值,得到第一深度图,并将所述第一样本场景图像输入至待训练的深度估计模型,输出第二深度图。电子设备可以根据所述第一深度图中各像素点的深度值、以及所述第二深度图中各像素点的深度值,计算第一深度损失。电子设备可以根据所述第一深度损失和预设的训练算法,训练所述深度估计模型。这样,电子设备可以通过标定的方式,计算样本场景图像的深度真实值。通过深度真实值,电子设备可以计算深度损失。由于电子设备在无监督学习的训练方式中加入了标定点进行监督学习,形成了半监督学习方式。因此通过该半监督学习的训练方式训练出的估计模型可以预测场景的真实深度。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种训练模型的方法流程图;
图2为本申请实施例提供的一种训练模型的效果示意图;
图3为本申请实施例提供的一种训练模型的方法流程图;
图4为本申请实施例提供的一种可实现方案的系统框图;
图5为本申请实施例提供的一种可实现方案的系统框图;
图6为本申请实施例提供的一种可实现方案的系统框图;
图7为本申请实施例提供的一种可实现方案的系统框图;
图8为本申请实施例提供的一种训练模型的装置的结构示意图;
图9为本申请实施例提供的一种训练模型的装置的结构示意图;
图10为本申请实施例提供的一种训练模型的装置的结构示意图;
图11为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种训练模型的方法,该方法可以应用于电子设备,用户在使用摄像设备拍摄场景图像后,可以将拍摄的场景图像输入至电子设备中,电子设备可以通过训练算法,训练估计模型,本申请实施例中,估计模型可以包括深度估计模型和位姿估计模型。其中,电子设备可以为移动终端(例如平板电脑)或PC(英文:personal computer,中文:个人计算机)终端。
下面将结合具体实施方式,对本申请实施例提供的一种训练模型的方法进行详细的说明,如图1所示,具体步骤如下:
步骤101、获取第一样本场景图像。
其中,第一样本场景图像为包含预先标定的标定对象的图像,同一场景下的标定对象相同。
本申请实施例中,摄像设备可以拍摄某场景的图像,作为第一样本场景图像,发送至电子设备。电子设备可以获取第一样本场景图像,第一样本场景图像中包含预先标定的标定对象。其中,标定对象为场景中人为设置的标记点,该标记点为用户在某场景中标记的对象。电子设备可以获取标定对象到摄像设备上的镜头的真实距离,该真实距离为标定深度。由于电子设备通过人为设置标记点的方式获取标定深度,舍弃了常规的激光雷达等昂贵设备,在一定程度上节约了训练模型的成本。
可选的,电子设备在获取第一样本场景图像后,还可以获取第一样本场景图像的地面掩码,以滤除第一样本场景图像中的干扰区域,具体的处理过程可以为:若第一样本场景图像为包含干扰区域的图像,则获取预设的第一样本场景图像对应的地面掩码。
本申请实施例中,电子设备可以通过样本场景图像中预设的地面分割网络,检测到样本场景图像中的干扰区域并获取地面掩码,地面分割网络可以用于分割样本场景图像,以获取样本场景图像对应的地面掩码,干扰区域可以包括地面反光、地面阴影、地面水渍。干扰区域在样本场景图像中的像素点的像素值,低于非干扰区域在样本场景图像中的像素点的像素值,因此在成像的过程中会形成与实际场景不符的区域。若电子设备检测到第一样本场景图像中存在干扰区域,电子设备可以获取第一样本场景图像的地面掩码,其中,地面掩码的作用为,在电子设备计算深度损失的过程中,通过数学的方法,去除运算过程中出现的干扰区域像素点的像素值。即,解决了地面反光、自身地面投影、地面水渍等场景下深度估计严重错误的问题。
本申请实施例提供一种电子设备区分干扰区域和非干扰区域的一种实施方式,具体处理过程可以为:电子设备可以根据图像中像素点的像素值,判断该像素点是否为干扰区域的像素点。其中,电子设备可以获取样本场景图像中各个像素点的像素值,通过该像素值预测该像素点在实际场景中距离水平地面的高度,当该图像中存在干扰区域时,此区域中的像素点的像素值,往往低于同高度、同深度的非干扰区域的像素点的像素值。因此,电子设备可以判断样本场景图像中的像素点是否为干扰区域的像素点,若电子设备预测的像素点的像素值低于非干扰区域的像素点的像素值时,电子设备可以确定该像素点为干扰区域的像素点,否则,电子设备可以确定该像素点为非干扰区域的像素点。在之后电子设备计算损失时,电子设备可以通过地面掩码滤除干扰区域的像素点的像素值。
步骤102、获取预设的标定对象的标定深度,根据标定深度,计算第一样本场景图像中各像素点的深度值,得到第一深度图,并将第一样本场景图像输入至待训练的深度估计模型,输出第二深度图。
本申请实施例中,电子设备可以将该标定对象的深度输入至单应性矩阵中,该单应性矩阵可以计算出第一样本场景图像中所有像素点深度,从而得到第一深度图。其中,单应性矩阵为电子设备根据摄像设备的镜头的内参和外参计算出的矩阵。电子设备得到第一深度图后,可以将第一深度图中像素点的像素值作为第一样本场景图像的深度的真实值,在后续训练深度估计模型的过程中,电子设备可以根据该第一深度图作为深度真实值计算损失。
电子设备还可以将第一样本场景图像输入至待训练的深度估计模型,其中深度估计模型可以为神经网络模型(例如:卷积神经网络模型),电子设备可以将第一样本场景图像输入至待训练的深度估计模型,输出该第一样本场景图像的深度图。当电子设备将第一样本场景图像输入至待训练的深度估计模型后,深度估计模型可以输出第二深度图。第二深度图为电子设备通过深度估计模型预测的深度图,该第二深度图中像素点的像素值为预测值。
步骤103、根据第一深度图中各像素点的深度值、以及第二深度图中各像素点的深度值,计算第一深度损失。
本申请实施例中,电子设备得到第一深度图和第二深度图后,可以根据第一深度图中各像素点的深度值、以及第二深度图中各像素点的深度值,计算第一深度损失。其中,深度损失可以表示预测值相较于真实值的偏差,电子设备可以根据该偏差,训练估计模型。
本申请实施例提供了一种计算第一深度损失的公式,具体公式如下:
Figure BDA0002136761570000081
其中,gt(中文:地面真值,英文:ground truth)为地面真值,pt(中文:像素点,英文:point),Lgt为第一深度损失,D(pt)为第二深度图中各像素点的深度值,gt(pt)为第一深度图中各像素点的深度值,count(pt)为深度图中像素点的数量。该计算第一深度损失的公式可以不止用于计算第一深度损失,本申请实施例不做限定。
可选的,计算第一深度损失的过程,还可以包括:根据第一深度图中各像素点的深度值、以及第二深度图中各像素点的深度值,计算第一深度损失。
本申请实施例中,若第一样本场景图像中存在干扰区域,则电子设备可以根据第一深度图中各像素点的深度值、第二深度图中各像素点的深度值和地面掩码,计算第一深度损失。其中,第一深度图中各像素点的深度值可以认为是第一样本场景图像中各像素点的深度的真实值,第二深度图中各像素点的深度值为,第一样本场景图像中各像素点的预测深度值。地面掩码可以以“0”或“1”的形式体现在计算深度损失的过程中,在电子设备计算第一深度损失时,电子设备可以将干扰区域的像素点的项乘“0”,以使干扰区域的像素点的项为“0”,电子设备可以将非干扰区域的像素点的项乘“1”,以使非干扰区域的像素点的项不受影响。
步骤104、根据第一深度损失和预设的训练算法,训练深度估计模型。
本申请实施例中,电子设备可以根据第一深度损失和预设的训练算法,训练深度估计模型。其中,训练算法可以根据样本场景图像的真实深度,和估计模型预测的深度之间的深度损失,训练估计模型,训练算法可以包括但不限于反向传播算法或梯度反向传播更新算法等。
可选的,训练位姿估计模型的过程,具体步骤可以包括:
步骤一、获取第二样本场景图像。
本申请实施例中,电子设备可以获取第二样本场景图像,第二样本场景图像为,第一样本场景图像所在的样本图像集合中的临近帧图像。其中,图像集合可以是摄像设备在某一场景中,连续拍摄的一组样本场景图像,图像集合中可以包含若干帧图像。
步骤二、将第一样本场景图像和第二样本场景图像输入待训练的位姿估计模型,输出第一位姿参数。
电子设备可以将第一样本场景图像和第二样本场景图像输入待训练的位姿估计模型,输出第一位姿参数。其中,位姿估计模型为一种估计模型,电子设备可以将两张图像输入至位姿估计模型,得到该两张图像之间的相对位置关系的参数,即位姿参数。
步骤三、根据第一位姿参数、第一样本场景图像和第二深度图,生成第一样本场景图像对应的第一重构图像。
本申请实施例中,电子设备可以根据第一位姿参数、第一样本场景图像和第二深度图,生成第一样本场景图像对应的第一重构图像。其中,第一重构图像为第一样本场景图像的预测深度图。
步骤四、根据第一重构图像中各像素点的深度值和第一样本场景图像中各像素点的深度值,计算第二深度损失。
本申请实施例中,电子设备可以根据第一重构图像中各像素点的深度值和第一样本场景图像中各像素点的深度值,计算第二深度损失。其中,第一重构图像中各像素点的深度值为预测的深度值,第一样本场景图像中各像素点的深度值为通过标定对象计算出的深度值,第二深度损失为电子设备通过第一重构图像中各像素点的深度值,和第一样本场景图像中各像素点的深度值,并通过上述
Figure BDA0002136761570000101
公式,计算得到的第二深度损失。其中,Lgt为第二深度损失,D(pt)为第一重构图像中各像素点的深度值,gt(pt)为第一样本场景图像中各像素点的深度值,count(pt)为深度图中像素点的数量。
计算第二深度损失的过程中,gt(pt)为电子设备根据标定深度计算出的绝对深度值(即第一样本场景图像的真实深度),因此第二深度损失Lgt是根据第一样本场景图像的真实深度计算出的损失。若用户想得到在某个尺度下的相对深度的第二深度损失,用户可以通过电子设备,在上述计算第二深度损失的公式中加入一个或者多个尺度因子系数,即可以得到在某个尺度下的相对深度的第二深度损失。其中,尺度因子系数是一种系数,可以对公式中的深度值进行缩放,从而实现将公式计算得到的第二深度损失固定到某个尺度下,进而实现将利用损失计算的估计模型固定到某个尺度下。
步骤五、根据第一深度损失和第二深度损失,计算第三深度损失。
本申请实施例中,电子设备可以根据第一深度损失和第二深度损失,计算第三深度损失。其中,第三深度损失为第一深度损失(可称为监督损失)和第二深度损失(可称为无监督损失),通过加权平均算法,根据第一深度损失和第二深度损失的权重,计算得到的深度损失。
其中,在计算第一深度损失时,电子设备可以引入地面掩码来滤除干扰区域在训练过程中带来的误差。因此,在电子设备训练位姿估计模型时,由于电子设备引入了第一深度损失来训练位姿估计模型,因此电子设备也可以滤除干扰区域在训练过程中,对样本场景图像带来的误差。
步骤六、根据第三深度损失和预设的训练算法训练位姿估计模型。
本申请实施例中,训练位姿估计模型的训练算法,可以为但不限于梯度反向传播更新算法。
可选的,对于上述训练位姿估计模型的过程,训练深度估计模型的具体处理过程可以为:根据第三深度损失和预设的训练算法,训练深度估计模型。
本申请实施例中,根据第三深度损失和预设的训练算法,训练深度估计模型的过程为一种无监督训练的过程,由于电子设备在计算第三深度损失的过程中引入了标定深度,因此,电子设备在训练深度估计模型后,深度模型可以更准确地预测场景图像的深度。
如图2所示,图2展示了一个现有技术中电子设备训练后的估计模型,和本申请实施例中电子设备训练后的估计模型,在实际应用中的效果对比图。该效果对比图包括图像组201、图像组202、图像组203、图像组204,其中图像组201和图像组203为摄像设备拍摄的同一组场景图像。图像组202为现有技术中电子设备训练后的估计模型,预测出的深度图,图像组204为本申请实施例中电子设备训练后的估计模型,预测出的深度图。显而易见的图像组204中的深度图比图像组202中的深度图更加清晰。
如图3所示,本申请实施例还提供了一种训练模型的方法的示例,具体可以包括如下步骤:
步骤301、获取样本场景图像和样本场景图像的临近帧图像。
步骤302、判断样本场景图像中是否含有标定对象。若样本场景图像中含有标定对象,则执行步骤303,若样本场景图像中不含有标定对象,则执行步骤313。
步骤303、确定标定对象的标定深度和地面掩码。
步骤304、将样本场景图像输入至待训练的深度估计模型,输出第一深度图。执行步骤304后,执行步骤305和步骤308。
步骤305、通过单应性矩阵和标定深度,计算样本场景图像中所有像素点深度值,得到第二深度图。
步骤306、根据第一深度图、第二深度图和地面掩码,计算第一深度损失。执行步骤306后,执行步骤307和步骤311。
步骤307、根据训练算法和第一深度损失,训练深度估计模型。
步骤308、将样本场景图像和临近帧图像输入至位姿估计模型,输出位姿参数。
步骤309、根据样本场景图像、第一深度图和位姿参数,生成样本场景图像的重构图像。
步骤310、根据重构图像和样本场景图像,计算第二深度损失。
步骤311、根据第一深度损失和第二深度损失,计算第三深度损失。
步骤312、根据训练算法和第三深度损失,训练位姿估计模型。
步骤313、将样本场景图像和临近帧图像输入至位姿估计模型,输出位姿参数,将样本场景图像输入至待训练的深度估计模型,输出第三深度图。
步骤314、根据样本场景图像、第三深度图和位姿参数,生成样本场景图像的重构图像。
步骤315、根据重构图像和样本场景图像,计算第四深度损失。
步骤316、根据训练算法和第四深度损失,训练位姿估计模型和深度估计模型。
步骤317、判断是否达到训练终止条件。若未到达训练终止条件,则执行步骤301。
本申请实施例提供的一种训练模型的方法,电子设备可以获取第一样本场景图像,所述第一样本场景图像为包含预先标定的标定对象的图像。电子设备可以获取预设的所述标定对象的标定深度,根据所述标定深度,计算所述第一样本场景图像中各像素点的深度值,得到第一深度图,并将所述第一样本场景图像输入至待训练的深度估计模型,输出第二深度图。电子设备可以根据所述第一深度图中各像素点的深度值、以及所述第二深度图中各像素点的深度值,计算第一深度损失。电子设备可以根据所述第一深度损失和预设的训练算法,训练所述深度估计模型。这样,电子设备可以通过标定的方式,计算样本场景图像的深度真实值。通过深度真实值,电子设备可以计算深度损失。由于电子设备在无监督学习的训练方式中加入了标定点进行监督学习,形成了半监督学习方式。因此通过该半监督学习的训练方式训练出的估计模型可以预测场景的真实深度。
基于相同的技术构思,本申请实施例还提供了一种基于单目深度估计的具体实现方式,如图4、图5、图6和图7所示,该具体实现方式可以为:
图4是本申请实施例的单目深度估计方案的系统框图。如图4所示,本单目深度估计网络模型训练中,使用地面深度真值和网络估计的深度图来计算网络的地面损失,然后使用该损失进行反向传播更新单目深度估计神经网络参数,从而实现单目深度估计神经网络的训练目的。
在图4中的101模块描述的是训练样本的地面掩码及其深度值。采集的单目镜头图像训练数据时,能够得到单个摄像头拍摄的连续图像,采集数据前需要对镜头安装位姿进行标定,并且在采集过程中对镜头进行固定。本申请实施例提出对其中部分样本使用地面标记的方式获得地面掩码,这里的地面是指近似水平的地面,如果地面坡度很大则不进行标记。使用镜头的内参外参可以计算得到水平地面的单应性矩阵,对于图像中任意一个地面像素点,使用该单应性矩阵可以计算出深度值,使用这种方法可以计算得到所有标定地面的深度值,从而在模型训练中作为真值来构造有监督损失来更新网络参数。在实际应用中,可以使用一个地面分割网络来预处理训练样本,得到地面掩码,进而使用单应性矩阵计算对应的深度值。本方案中使用的地面深度值并不局限于使用以上两种方案,也可以使用激光等方案获取。
图4中105是训练模型时的地面真值损失构造模块,对于样本中的地面部分,其深度值已知,网络输出深度值后可以直接构造一般的L1损失或者其他有效类型的损失,再通过梯度反向传播的方法来更新神经网络权值。在计算地面真值损失时,对每一个地面点,计算损失时有两种方式。一种是直接计算预测值和真值的L1损失,另一种方案是对没个预测点计算误差后除以深度真值,具体的如公式(1)(2)所示。由于同一张图像上远近差异较大,如果不进行除以真值的归一化操作,会导致近处虽然偏差较大比例,但是在计算的损失中不能很好的体现,实际模型中表现就是远处较好近处较差,通过除以真值的归一化操作可以改善这种模型的远近偏好问题。因为计算地面损失使用的是深度真值,我们将该部分损失称为有监督损失。在计算有监督损失时,如果系统希望模型直接预测出绝对深度,则计算时使用地面的绝对深度,如果是希望得到统一的某个尺度下的相对深度,则也可以将地面深度乘以一个尺度因子得到相对深度,此时训练的模型预测的深度也是这个尺度下的相对深度值。通过这种方式,不但解决了原本模型中地面部分的诸多问题,同时也能够按照需求将训练的模型固定到系统需要输出的尺度。
Figure BDA0002136761570000141
Figure BDA0002136761570000142
如果单目深度估计的应用场景中不存在或者不需要考虑地面以下场景,本申请实施例提出了一种地面自监督的方案来解决模型地面深度预测错误问题。地面预测错误的主要因素是图像上地面反光、地面水渍、地面倒影等部分,在采集图像的车辆运动时,这些部分仍然处于图像中相同的位置,根据无监督单目深度估计模型损失函数可知,模型训练时收敛的方向是将这些区域预测的深度值远远大于其真实深度,根据成像原理可知,当一个像素点的深度大于该像素为地面点的时候,该点的高度必定低于地面,而在本场景中,不存在或者不考虑地面点,当一个像素点预测的高度低于地面时,可以认为该点预测错误。预测结果中低于地面的部分认为是地面光斑或车身倒影,这样结合镜头外参,便能计算出该部分的深度真值。在模型训练时,使用这种方式可以在训练中对每个样本实时计算地面掩码及其深度值,获得地面掩码及深度值后就可以按照上面的有监督损失计算方式来计算地面损失,从而达到和标记地面相同的地面改善效果。在这种场景下,模型训练系统的框图为图5。
图4和图5为模型训练时两种可选方案,在一般场景下可以使用图4所示的系统方案,而满足上述条件时,可以选择图5的方案。
图6是图一中深度神经网络模块103的一种可选方案,在本申请实施例中包括但不仅限于使用图6所示的方式训练无监督深度估计神经网络,图6中包含一个单目深度神经网络和一个位姿估计网络,其中单目深度估计网络输入为单张目标帧图像,输出为该帧对应的深度图,位姿估计神经网络输入为目标帧和该帧的临近帧,输出为两帧图像之间的位姿参数,使用位姿参数、深度图以及目标帧本身即可重构相邻帧,再通过计算相邻帧和真实相邻帧的相似度来构造网络损失,进而更新深度估计网络参数,实现无监督学习。
根据以上描述,单目深度估计神经网络参数的更新包括无监督损失和有监督损失两个部分。模型训练中使用的大部分样本无地面深度值,仅少量数据有地面深度值,对于无地面深度部分,训练时仅使用无监督损失更新网络参数,对于有地面掩码及其深度值得样本,则同时使用有监督损失和无监督损失更新神经网络参数。由于有地面真值的样本仅占很小的比例,训练模型时我们需要将该部分数据与无地面真值数据搭配使用,使得训练的每一个batch中至少包含一张带有地面深度信息的样本,这样能够让网络训练时更快收敛,并且训练得到的模型泛化性更好。
图6中204模块是一个位姿估计模块,模型输入为目标帧和临近帧,输出为一个6维的目标帧和临近帧位姿关系,该向量描述了两帧之间的旋转平移量。模型训练时,该位姿估计网络和单目深度估计网络一起逐渐收敛,最后达到稳定。当位姿网络不能预测出较好的结果时,网络就无法构建出符合期望的损失,网络就难以收敛到较好的性能,所以在改善深度估计网络的同时,也需要寻找一种方案来提升位姿估计网络的预测精确度。位姿估计网络和深度估计网络不同,该网络是通过输入图像的全局信息得到相机在拍摄两幅图像时的位姿关系。由于一般场景下,采集的训练样本靠近底部的主要是地面,靠近上部都主要是天空等远处场景,地面和天空部分纹理不够丰富,对位姿估计造成负面影响。本申请实施例在模型训练时,位姿网络仅输入图像的中间部分,这种优化的网络输入可以提高位姿网络的性能,输出的相机位姿更加准确,这也就在一定程度上提升了深度估计网络输出深度图的整体性能。
如图7所示,电子设备使用本申请实施例提出的方案得到训练模型后,在进行单目深度估计时,仅需要将单张图片送入单目深度估计网络中,即可输出对应的深度图。最终效果如图2所示,第一行是优化前的单目深度估计网络203的深度估计效果,第二行是使用本方案优化后的单目深度估计网络103的深度估计效果,从图中可以看到本申请实施例的方案优化效果显著。
基于相同的技术构思,本申请实施例还提供了一种训练模型的装置,如图8所示,该装置包括:
第一获取模块801,用于获取第一样本场景图像,所述第一样本场景图像为包含预先标定的标定对象的图像;
第一输出模块802,用于获取预设的所述标定对象的标定深度,根据所述标定深度,计算所述第一样本场景图像中各像素点的深度值,得到第一深度图,并将所述第一样本场景图像输入至待训练的深度估计模型,输出第二深度图;
第一计算模块803,用于根据所述第一深度图中各像素点的深度值、以及所述第二深度图中各像素点的深度值,计算第一深度损失;
第一训练模块804,用于根据所述第一深度损失和预设的训练算法,训练所述深度估计模型。
可选的,如图9所示,所述装置还包括:
第二获取模块805,用于若所述第一样本场景图像为包含干扰区域的图像,则获取预设的所述第一样本场景图像对应的地面掩码;
所述第一计算模块803,具体用于:
根据所述第一深度图中各像素点的深度值、所述第二深度图中各像素点的深度值和所述地面掩码,计算第一深度损失。
可选的,如图10所示,所述装置还包括:
第三获取模块806,用于获取第二样本场景图像,所述第二样本场景图像为,所述第一样本场景图像所在的样本图像集合中的临近帧图像;
第二输出模块807,用于将所述第一样本场景图像和所述第二样本场景图像输入待训练的位姿估计模型,输出第一位姿参数;
生成模块808,用于根据所述第一位姿参数、所述第一样本场景图像和所述第二深度图,生成所述第一样本场景图像对应的第一重构图像;
第二计算模块809,用于根据所述第一重构图像中各像素点的深度值和所述第一样本场景图像中各像素点的深度值,计算第二深度损失;
第三计算模块810,用于根据所述第一深度损失和所述第二深度损失,计算第三深度损失;
第二训练模块811,用于根据所述第三深度损失和预设的所述训练算法训练所述位姿估计模型。
可选的,所述第一训练模块804,具体用于:
根据所述第三深度损失和预设的所述训练算法,训练所述深度估计模型。
本申请实施例提供的一种训练模型的方法及装置,电子设备可以获取第一样本场景图像,所述第一样本场景图像为包含预先标定的标定对象的图像。电子设备可以获取预设的所述标定对象的标定深度,根据所述标定深度,计算所述第一样本场景图像中各像素点的深度值,得到第一深度图,并将所述第一样本场景图像输入至待训练的深度估计模型,输出第二深度图。电子设备可以根据所述第一深度图中各像素点的深度值、以及所述第二深度图中各像素点的深度值,计算第一深度损失。电子设备可以根据所述第一深度损失和预设的训练算法,训练所述深度估计模型。这样,电子设备可以通过标定的方式,计算样本场景图像的深度真实值。通过深度真实值,电子设备可以计算深度损失。由于电子设备在无监督学习的训练方式中加入了标定点进行监督学习,形成了半监督学习方式。因此通过该半监督学习的训练方式训练出的估计模型可以预测场景的真实深度。
本申请实施例还提供了一种电子设备,如图11所示,包括处理器1101、通信接口1102、存储器1103和通信总线1104,其中,处理器1101,通信接口1102,存储器1103通过通信总线1104完成相互间的通信,
存储器1103,用于存放计算机程序;
处理器1101,用于执行存储器1103上所存放的程序时,实现如下步骤:
获取第一样本场景图像,所述第一样本场景图像为包含预先标定的标定对象的图像;
获取预设的所述标定对象的标定深度,根据所述标定深度,计算所述第一样本场景图像中各像素点的深度值,得到第一深度图,并将所述第一样本场景图像输入至待训练的深度估计模型,输出第二深度图;
根据所述第一深度图中各像素点的深度值、以及所述第二深度图中各像素点的深度值,计算第一深度损失;
根据所述第一深度损失和预设的训练算法,训练所述深度估计模型。
可选的,所述获取所述第一样本场景图像之后,还包括:
若所述第一样本场景图像为包含干扰区域的图像,则获取预设的所述第一样本场景图像对应的地面掩码;
所述根据所述第一深度图中各像素点的深度值、以及所述第二深度图中各像素点的深度值,计算第一深度损失,包括:
根据所述第一深度图中各像素点的深度值、所述第二深度图中各像素点的深度值和所述地面掩码,计算第一深度损失。
可选的,所述方法还包括:
获取第二样本场景图像,所述第二样本场景图像为,所述第一样本场景图像所在的样本图像集合中的临近帧图像;
将所述第一样本场景图像和所述第二样本场景图像输入待训练的位姿估计模型,输出第一位姿参数;
根据所述第一位姿参数、所述第一样本场景图像和所述第二深度图,生成所述第一样本场景图像对应的第一重构图像;
根据所述第一重构图像中各像素点的深度值和所述第一样本场景图像中各像素点的深度值,计算第二深度损失;
根据所述第一深度损失和所述第二深度损失,计算第三深度损失;
根据所述第三深度损失和预设的所述训练算法训练所述位姿估计模型。
可选的,所述根据所述第一深度损失和预设的训练算法,训练所述深度估计模型,包括:
根据所述第三深度损失和预设的所述训练算法,训练所述深度估计模型。
上述网络设备提到的通信总线可以是外设部件互连标准(英文:PeripheralComponent Interconnect,简称:PCI)总线或扩展工业标准结构(英文:Extended IndustryStandard Architecture,简称:EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述网络设备与其他设备之间的通信。
存储器可以包括随机存取存储器(英文:Random Access Memory,简称:RAM),也可以包括非易失性存储器(英文:Non-Volatile Memory,简称:NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(英文:Central ProcessingUnit,简称:CPU)、网络处理器(英文:Network Processor,简称:NP)等;还可以是数字信号处理器(英文:Digital Signal Processing,简称:DSP)、专用集成电路(英文:ApplicationSpecific Integrated Circuit,简称:ASIC)、现场可编程门阵列(英文:Field-Programmable Gate Array,简称:FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
基于相同的技术构思,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述训练模型的方法步骤。
基于相同的技术构思,本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述训练模型的方法步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。

Claims (10)

1.一种训练模型的方法,其特征在于,所述方法包括:
获取第一样本场景图像,所述第一样本场景图像为包含预先标定的标定对象的图像;
获取预设的所述标定对象的标定深度,根据所述标定深度,计算所述第一样本场景图像中各像素点的深度值,得到第一深度图,并将所述第一样本场景图像输入至待训练的深度估计模型,输出第二深度图;
根据所述第一深度图中各像素点的深度值、以及所述第二深度图中各像素点的深度值,计算第一深度损失;
根据所述第一深度损失和预设的训练算法,训练所述深度估计模型。
2.根据权利要求1所述的方法,其特征在于,所述获取所述第一样本场景图像之后,还包括:
若所述第一样本场景图像为包含干扰区域的图像,则获取预设的所述第一样本场景图像对应的地面掩码;
所述根据所述第一深度图中各像素点的深度值、以及所述第二深度图中各像素点的深度值,计算第一深度损失,包括:
根据所述第一深度图中各像素点的深度值、所述第二深度图中各像素点的深度值和所述地面掩码,计算第一深度损失。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取第二样本场景图像,所述第二样本场景图像为,所述第一样本场景图像所在的样本图像集合中的临近帧图像;
将所述第一样本场景图像和所述第二样本场景图像输入待训练的位姿估计模型,输出第一位姿参数;
根据所述第一位姿参数、所述第一样本场景图像和所述第二深度图,生成所述第一样本场景图像对应的第一重构图像;
根据所述第一重构图像中各像素点的深度值和所述第一样本场景图像中各像素点的深度值,计算第二深度损失;
根据所述第一深度损失和所述第二深度损失,计算第三深度损失;
根据所述第三深度损失和预设的所述训练算法训练所述位姿估计模型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一深度损失和预设的训练算法,训练所述深度估计模型,包括:
根据所述第三深度损失和预设的所述训练算法,训练所述深度估计模型。
5.一种训练模型的装置,其特征在于,所述装置包括:
第一获取模块,用于获取第一样本场景图像,所述第一样本场景图像为包含预先标定的标定对象的图像;
第一输出模块,用于获取预设的所述标定对象的标定深度,根据所述标定深度,计算所述第一样本场景图像中各像素点的深度值,得到第一深度图,并将所述第一样本场景图像输入至待训练的深度估计模型,输出第二深度图;
第一计算模块,用于根据所述第一深度图中各像素点的深度值、以及所述第二深度图中各像素点的深度值,计算第一深度损失;
第一训练模块,用于根据所述第一深度损失和预设的训练算法,训练所述深度估计模型。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于若所述第一样本场景图像为包含干扰区域的图像,则获取预设的所述第一样本场景图像对应的地面掩码;
所述第一计算模块,具体用于:
根据所述第一深度图中各像素点的深度值、所述第二深度图中各像素点的深度值和所述地面掩码,计算第一深度损失。
7.根据权利要求5所述的装置,其特征在于,所述装置还包括:
第三获取模块,用于获取第二样本场景图像,所述第二样本场景图像为,所述第一样本场景图像所在的样本图像集合中的临近帧图像;
第二输出模块,用于将所述第一样本场景图像和所述第二样本场景图像输入待训练的位姿估计模型,输出第一位姿参数;
生成模块,用于根据所述第一位姿参数、所述第一样本场景图像和所述第二深度图,生成所述第一样本场景图像对应的第一重构图像;
第二计算模块,用于根据所述第一重构图像中各像素点的深度值和所述第一样本场景图像中各像素点的深度值,计算第二深度损失;
第三计算模块,用于根据所述第一深度损失和所述第二深度损失,计算第三深度损失;
第二训练模块,用于根据所述第三深度损失和预设的所述训练算法训练所述位姿估计模型。
8.根据权利要求7所述的装置,其特征在于,所述第一训练模块,具体用于:
根据所述第三深度损失和预设的所述训练算法,训练所述深度估计模型。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-4任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法步骤。
CN201910655547.8A 2019-07-19 2019-07-19 一种训练模型的方法及装置 Active CN112241976B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910655547.8A CN112241976B (zh) 2019-07-19 2019-07-19 一种训练模型的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910655547.8A CN112241976B (zh) 2019-07-19 2019-07-19 一种训练模型的方法及装置

Publications (2)

Publication Number Publication Date
CN112241976A true CN112241976A (zh) 2021-01-19
CN112241976B CN112241976B (zh) 2024-08-27

Family

ID=74167824

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910655547.8A Active CN112241976B (zh) 2019-07-19 2019-07-19 一种训练模型的方法及装置

Country Status (1)

Country Link
CN (1) CN112241976B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819875A (zh) * 2021-02-03 2021-05-18 苏州挚途科技有限公司 单目深度估计的方法、装置及电子设备
CN112991416A (zh) * 2021-04-13 2021-06-18 Oppo广东移动通信有限公司 深度估计方法、模型训练方法、装置、设备及存储介质
CN113591823A (zh) * 2021-10-08 2021-11-02 北京的卢深视科技有限公司 深度预测模型的训练及人脸深度图像的生成方法、装置
CN113610879A (zh) * 2021-07-27 2021-11-05 Oppo广东移动通信有限公司 深度预测模型的训练方法及装置、介质和电子设备
CN113870334A (zh) * 2021-09-29 2021-12-31 北京百度网讯科技有限公司 深度检测方法、装置、设备以及存储介质
CN113887456A (zh) * 2021-10-11 2022-01-04 广州小鹏自动驾驶科技有限公司 三维可达空间的确定方法、车辆及计算机可读存储介质
CN114037087A (zh) * 2021-10-29 2022-02-11 北京百度网讯科技有限公司 模型训练方法及装置、深度预测方法及装置、设备和介质
CN114549612A (zh) * 2022-02-25 2022-05-27 北京百度网讯科技有限公司 模型训练和图像处理方法、装置、设备及存储介质
CN115147683A (zh) * 2022-07-08 2022-10-04 南京人工智能高等研究院有限公司 位姿估计网络模型的训练方法、位姿估计方法及装置
WO2022257487A1 (zh) * 2021-06-08 2022-12-15 北京百度网讯科技有限公司 深度估计模型的训练方法, 装置, 电子设备及存储介质
CN116452638A (zh) * 2023-06-14 2023-07-18 煤炭科学研究总院有限公司 位姿估计模型的训练方法、装置、设备和存储介质
WO2024012333A1 (zh) * 2022-07-12 2024-01-18 上海商汤智能科技有限公司 位姿估计方法及相关模型的训练方法、装置、电子设备、计算机可读介质和计算机程序产品

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10105700A (ja) * 1996-08-02 1998-04-24 Sony Corp 画像雑音の除去方法及び除去装置
US20140132721A1 (en) * 2012-11-14 2014-05-15 Qualcomm Incorporated Structured Light Active Depth Sensing Systems Combining Multiple Images to Compensate for Differences in Reflectivity and/or Absorption
CN103971115A (zh) * 2014-05-09 2014-08-06 中国科学院遥感与数字地球研究所 一种基于NDVI和PanTex指数的高分辨率遥感影像新增建设用地图斑自动提取方法
US20150302593A1 (en) * 2013-04-08 2015-10-22 Lsi Corporation Front-End Architecture for Image Processing
CN106204475A (zh) * 2016-07-04 2016-12-07 西安交通大学 基于field map对fMRI中的几何畸变伪影进行校正的方法
KR20170038622A (ko) * 2015-09-30 2017-04-07 삼성전자주식회사 영상으로부터 객체를 분할하는 방법 및 장치
CN108765479A (zh) * 2018-04-04 2018-11-06 上海工程技术大学 利用深度学习对视频序列中单目视图深度估计优化方法
CN109003297A (zh) * 2018-07-18 2018-12-14 亮风台(上海)信息科技有限公司 一种单目深度估计方法、装置、终端和存储介质
CN109190537A (zh) * 2018-08-23 2019-01-11 浙江工商大学 一种基于掩码感知深度强化学习的多人物姿态估计方法
CN109410318A (zh) * 2018-09-30 2019-03-01 先临三维科技股份有限公司 三维模型生成方法、装置、设备和存储介质
CN109658418A (zh) * 2018-10-31 2019-04-19 百度在线网络技术(北京)有限公司 场景结构的学习方法、装置及电子设备
CN109685060A (zh) * 2018-11-09 2019-04-26 科大讯飞股份有限公司 图像处理方法和装置
CN109903252A (zh) * 2019-02-27 2019-06-18 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN109949316A (zh) * 2019-03-01 2019-06-28 东南大学 一种基于rgb-t融合的电网设备图像弱监督实例分割方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10105700A (ja) * 1996-08-02 1998-04-24 Sony Corp 画像雑音の除去方法及び除去装置
US20140132721A1 (en) * 2012-11-14 2014-05-15 Qualcomm Incorporated Structured Light Active Depth Sensing Systems Combining Multiple Images to Compensate for Differences in Reflectivity and/or Absorption
US20150302593A1 (en) * 2013-04-08 2015-10-22 Lsi Corporation Front-End Architecture for Image Processing
CN103971115A (zh) * 2014-05-09 2014-08-06 中国科学院遥感与数字地球研究所 一种基于NDVI和PanTex指数的高分辨率遥感影像新增建设用地图斑自动提取方法
KR20170038622A (ko) * 2015-09-30 2017-04-07 삼성전자주식회사 영상으로부터 객체를 분할하는 방법 및 장치
CN106204475A (zh) * 2016-07-04 2016-12-07 西安交通大学 基于field map对fMRI中的几何畸变伪影进行校正的方法
CN108765479A (zh) * 2018-04-04 2018-11-06 上海工程技术大学 利用深度学习对视频序列中单目视图深度估计优化方法
CN109003297A (zh) * 2018-07-18 2018-12-14 亮风台(上海)信息科技有限公司 一种单目深度估计方法、装置、终端和存储介质
CN109190537A (zh) * 2018-08-23 2019-01-11 浙江工商大学 一种基于掩码感知深度强化学习的多人物姿态估计方法
CN109410318A (zh) * 2018-09-30 2019-03-01 先临三维科技股份有限公司 三维模型生成方法、装置、设备和存储介质
CN109658418A (zh) * 2018-10-31 2019-04-19 百度在线网络技术(北京)有限公司 场景结构的学习方法、装置及电子设备
CN109685060A (zh) * 2018-11-09 2019-04-26 科大讯飞股份有限公司 图像处理方法和装置
CN109903252A (zh) * 2019-02-27 2019-06-18 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN109949316A (zh) * 2019-03-01 2019-06-28 东南大学 一种基于rgb-t融合的电网设备图像弱监督实例分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
路轩轩: "植被覆盖区的遥感蚀变信息提取研究及应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 2, 15 February 2015 (2015-02-15) *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819875A (zh) * 2021-02-03 2021-05-18 苏州挚途科技有限公司 单目深度估计的方法、装置及电子设备
CN112819875B (zh) * 2021-02-03 2023-12-19 苏州挚途科技有限公司 单目深度估计的方法、装置及电子设备
CN112991416A (zh) * 2021-04-13 2021-06-18 Oppo广东移动通信有限公司 深度估计方法、模型训练方法、装置、设备及存储介质
WO2022257487A1 (zh) * 2021-06-08 2022-12-15 北京百度网讯科技有限公司 深度估计模型的训练方法, 装置, 电子设备及存储介质
CN113610879A (zh) * 2021-07-27 2021-11-05 Oppo广东移动通信有限公司 深度预测模型的训练方法及装置、介质和电子设备
CN113870334B (zh) * 2021-09-29 2022-09-02 北京百度网讯科技有限公司 深度检测方法、装置、设备以及存储介质
CN113870334A (zh) * 2021-09-29 2021-12-31 北京百度网讯科技有限公司 深度检测方法、装置、设备以及存储介质
CN113591823A (zh) * 2021-10-08 2021-11-02 北京的卢深视科技有限公司 深度预测模型的训练及人脸深度图像的生成方法、装置
CN113887456A (zh) * 2021-10-11 2022-01-04 广州小鹏自动驾驶科技有限公司 三维可达空间的确定方法、车辆及计算机可读存储介质
CN114037087A (zh) * 2021-10-29 2022-02-11 北京百度网讯科技有限公司 模型训练方法及装置、深度预测方法及装置、设备和介质
CN114037087B (zh) * 2021-10-29 2024-02-09 北京百度网讯科技有限公司 模型训练方法及装置、深度预测方法及装置、设备和介质
CN114549612A (zh) * 2022-02-25 2022-05-27 北京百度网讯科技有限公司 模型训练和图像处理方法、装置、设备及存储介质
CN115147683A (zh) * 2022-07-08 2022-10-04 南京人工智能高等研究院有限公司 位姿估计网络模型的训练方法、位姿估计方法及装置
WO2024012333A1 (zh) * 2022-07-12 2024-01-18 上海商汤智能科技有限公司 位姿估计方法及相关模型的训练方法、装置、电子设备、计算机可读介质和计算机程序产品
CN116452638A (zh) * 2023-06-14 2023-07-18 煤炭科学研究总院有限公司 位姿估计模型的训练方法、装置、设备和存储介质
CN116452638B (zh) * 2023-06-14 2023-09-08 煤炭科学研究总院有限公司 位姿估计模型的训练方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN112241976B (zh) 2024-08-27

Similar Documents

Publication Publication Date Title
CN112241976A (zh) 一种训练模型的方法及装置
US10990825B2 (en) Image processing method, electronic device and computer readable storage medium
CN111507343B (zh) 语义分割网络的训练及其图像处理方法、装置
US10205896B2 (en) Automatic lens flare detection and correction for light-field images
CN110148157B (zh) 画面目标跟踪方法、装置、存储介质及电子设备
CN108898624B (zh) 一种运动物体跟踪的方法、装置、电子设备和存储介质
CN110493527B (zh) 主体对焦方法、装置、电子设备和存储介质
US20180225527A1 (en) Method, apparatus, storage medium and device for modeling lane line identification, and method, apparatus, storage medium and device for identifying lane line
CN108230292B (zh) 物体检测方法和神经网络的训练方法、装置及电子设备
CN105721853A (zh) 用于深度图生成的数码相机的配置设置
US20210256299A1 (en) System and method for correspondence map determination
CN110909663B (zh) 一种人体关键点识别方法、装置及电子设备
CN109815770A (zh) 二维码检测方法、装置及系统
CN111383252B (zh) 多相机目标追踪方法、系统、装置及存储介质
CN107564020B (zh) 一种图像区域确定方法及装置
CN108229274B (zh) 多层神经网络模型训练、道路特征识别的方法和装置
CN112989910A (zh) 电力目标检测方法、装置、计算机设备和存储介质
CN113888438A (zh) 图像处理方法、装置及存储介质
CN111598117B (zh) 图像识别方法及装置
CN111445487A (zh) 图像分割方法、装置、计算机设备和存储介质
CN110516731B (zh) 一种基于深度学习的视觉里程计特征点检测方法及系统
CN111445513A (zh) 基于深度图像的植株冠层体积获取方法、装置、计算机设备和存储介质
CN111582013A (zh) 一种基于灰度共生矩阵特征船只检索方法及装置
CN117893455B (zh) 图像亮度和对比度调整方法
CN111353597B (zh) 一种目标检测神经网络训练方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant