CN113870334B - 深度检测方法、装置、设备以及存储介质 - Google Patents
深度检测方法、装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN113870334B CN113870334B CN202111155117.3A CN202111155117A CN113870334B CN 113870334 B CN113870334 B CN 113870334B CN 202111155117 A CN202111155117 A CN 202111155117A CN 113870334 B CN113870334 B CN 113870334B
- Authority
- CN
- China
- Prior art keywords
- depth
- subinterval
- target object
- image
- depth value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 49
- 238000000605 extraction Methods 0.000 claims description 32
- 238000000034 method Methods 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 16
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/529—Depth or shape recovery from texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了深度检测方法、装置、设备以及存储介质,涉及人工智能领域,具体涉及计算机视觉和深度学习领域,可应用于智能机器人和自动驾驶场景下。具体实现方案为:提取待检测图像中的高层语义特征,高层语义特征用于表征待检测图像中的目标物;将高层语义特征输入预先训练的深度估计分支网络,得到目标物在深度预测区间的各子区间内的分布概率;根据目标物在各子区间内的分布概率以及各子区间所表征的深度值,确定目标物的深度值。根据本公开的技术,通过设计的自适应深度分布的深度估计分支网络,可以将深度值的预测任务转化为分类任务,最终得到的深度值较为精准,有利于在针对图像的3D物体检测的应用中提升3D定位精度。
Description
技术领域
本公开涉及人工智能领域,具体涉及计算机视觉和深度学习领域,可应用于智能机器人和自动驾驶场景下。
背景技术
单目3D检测主要依赖于3D物体投影到2D图像上的关键点预测,再通过预测3D属性(长度、宽度、高度)以及物体的深度值,恢复出物体的真实3D包围框,从而完成3D检测的任务。
相关技术中,针对深度预测,通常采用头部分支网络单独预测物体的深度值,存在精准度低的缺陷,从而影响3D检测的性能。
发明内容
本公开提供了一种深度检测方法、装置、设备以及存储介质。
根据本公开的一方面,提供了一种深度检测方法,包括:
提取待检测图像中的高层语义特征,所述高层语义特征用于表征所述待检测图像中的目标物;
将所述高层语义特征输入预先训练的深度估计分支网络,得到所述目标物在深度预测区间的各子区间内的分布概率;
根据所述目标物在各所述子区间内的分布概率以及各所述子区间所表征的深度值,确定所述目标物的深度值。
根据本公开的另一方面,还提供了一种深度估计分支网络的训练方法,包括:
获取样本图像中的目标物的真实分布概率;
对样本图像进行特征提取处理,得到所述样本图像的高层语义特征;
将所述样本图像的高层语义特征输入待训练的深度估计分支网络,得到所述高层语义特征所表征的目标物的预测分布概率;
确定所述样本图像的预测分布概率与所述真实分布概率的差异,根据所述差异调整所述待训练的深度估计分支网络的参数,直至所述待训练的深度估计分支网络收敛。
根据本公开的另一方面,还提供了一种目标检测装置,包括:
提取模块,用于提取待检测图像中的高层语义特征,所述高层语义特征用于表征所述待检测图像中的目标物;
分布概率获取模块,用于将所述高层语义特征输入预先训练的深度估计分支网络,得到所述目标物在深度预测区间的各子区间内的分布概率;
深度值确定模块,用于根据所述目标物在各所述子区间内的分布概率以及各所述子区间所表征的深度值,确定所述目标物的深度值。
根据本公开的另一方面,还提供了一种深度估计分支网络的训练装置,包括:
真实分布概率获取模块,用于获取样本图像中的目标物的真实分布概率;
提取模块,用于对样本图像进行特征提取处理,得到所述样本图像的高层语义特征;
预测分布概率确定模块,用于将所述样本图像的高层语义特征输入待训练的深度估计分支网络,得到所述高层语义特征所表征的目标物的预测分布概率;
参数调整模块,用于确定所述样本图像的预测分布概率与所述真实分布概率的差异,根据所述差异调整所述待训练的深度估计分支网络的参数,直至所述待训练的深度估计分支网络收敛。
根据本公开实施例的深度检测方法,通过设计的自适应深度分布的深度估计分支网络,可以将深度值的预测任务转化为分类任务,即预测目标物在深度预测区间的各子区间内的分布概率,并根据各子区间所表征的深度值,极大地提升了深度预测的精准性,有利于在针对图像的3D物体检测的应用中提升3D定位精度。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例的深度检测方法的流程图;
图2是根据本公开实施例的深度检测方法的划分子区间的具体流程图;
图3是根据本公开实施例的深度检测方法的确定子区间所表征的深度值的具体流程图;
图4是根据本公开实施例的深度检测方法的确定目标物深度值的具体流程图;
图5是根据本公开实施例的深度检测方法的特征提取的具体流程图;
图6是根据本公开实施例的深度估计分支网络的训练方法的流程图;
图7是根据本公开实施例的目标检测装置的框图;
图8是根据本公开实施例的深度估计分支网络的训练装置的框图;
图9是用来实现本公开实施例的深度检测方法和/或深度估计分支网络的训练方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
下面参照图1至图5描述根据本公开实施例的深度检测方法。
如图1所示,根据本公开实施例的深度检测方法包括:
S101:提取待检测图像中的高层语义特征,高层语义特征用于表征待检测图像中的目标物;
S102:将高层语义特征输入预先训练的深度估计分支网络,得到目标物在深度预测区间的各子区间内的分布概率;
S103:根据目标物在各子区间内的分布概率以及各子区间所表征的深度值,确定目标物的深度值。
本公开实施例的方法可以用于对待检测图像中的深度信息进行检测。其中,待检测图像可以为单目视觉图像,单目视觉图像可以通过利用单目视觉传感器进行采集得到,
示例性地,在步骤S101中,待检测图像中的高层语义特征可以通过3D检测模型的特征提取层进行特征提取得到。其中,特征提取层可以包括多个卷积层,经过多个卷积层的层层提取,最终由深度卷积层输出待检测图像中的高层语义特征。
示例性地,在步骤S102中,深度估计分支网络根据输入的高层语义特征,输出目标物在深度预测区间的各个子区间内的分布概率。其中,深度预测区间指的是预先设定的最大深度测量范围,深度预测区间预先划分有多个子区间,多个子区间可以为连续的或者断续的。
其中,目标物在各子区间内的分布概率可以理解为,目标物位于各个子区间内的概率,即各子区间分别对应有一个概率值。
深度估计分支网络可以采用本领域技术人员已知的或未来可知悉的各种分类网络,例如可以采用VGG Net(Visual Geometry Group Net,一种分类网络)、ResNet(Residual Neural Network,一种残差分类网络)、ResNeXt(ResNet和Inception的结合网络)、SE-Net(一种图像识别分类网络)等分类网络。
示例性地,在步骤S103中,可以通过目标物在各子区间的分布概率与各子区间所表征的深度值的乘积之和,得到目标物的深度值。
在一个具体示例中,深度预测区间可以为70m,根据预先设定的划分条件,将整个深度预测区间划分为(0-a,a-b,…,-70m)的预设数量个子区间。深度估计分支网络根据提取到的高层语义特征,输出高层语义特征所表征的目标物位于每个子区间内的分布概率,且各子区间对应的分布概率的和为1。最后,通过对所有子区间进行权重的求和,就可以得到目标物的深度值。其中,各子区间对应的加权值即为各子区间所表征的深度值。
需要说明的是,深度估计分支网络可以为3D检测模型的分支网络。
在一个示例中,3D检测模型可以包括特征提取层、深度估计分支网络、2D头部网络和3D头部网络。其中,特征提取层用于对输入的待检测图像进行特征提取处理,得到待检测图像的高层语义特征。2D头部网络根据高层语义特征,输出待检测图像中的目标物的分类信息和位置信息;3D头部网络根据高层语义特征,输出待检测图像中的目标物的尺寸信息和角度信息;深度估计分支网络根据高层语义特征,输出待检测图像中目标物的深度值。最后,3D检测模型的输出网络根据上述信息,得到待检测图像中的目标物的预测框以及相关信息。
其中,3D检测模型具体可以为针对单目图像进行3D物体检测的模型,可以应用于智能机器人以及自动驾驶场景中。
根据本公开实施例的深度检测方法,通过设计自适应深度分布的深度估计分支网络,可以将深度值的预测任务转化为分类任务,即预测目标物在深度预测区间的各子区间内的分布概率,并根据各子区间所表征的深度值,得到的目标物的深度值较为精准,有利于在针对图像的3D检测的应用中提升3D定位精度。
如图2所示,在一种实施方式中,该方法还包括:
S201:根据样本分布数据以及预设划分标准,将深度预测区间划分为预设数量个子区间,其中,样本分布数据包括多个样本在深度预测区间内的深度值;
S202:根据样本分布数据,确定子区间所表征的深度值。
示例性地,样本分布数据可以为深度估计分支网络训练过程中所采用的训练样本集,训练样本集中包括多个样本图像,各样本图像包含有目标物框以及目标物框的真实深度值。
示例性地,在步骤S201中,预设划分标准可以根据实际情况具体设定,例如,可以是在深度预测区间内划分出均等长度的预设数量个子区间,也可以根据训练样本集中各目标物框在预测深度区间内的分布密度,划分出分布密度大致相等的多个子区间。
示例性地,在步骤S202中,可以根据预测深度区间中已划分出的多个子区间的长度值,通过计算各子区间的长度值的平均值,得到该子区间所表征的深度值。或者,通过计算各子区间内分布的目标物的深度值的平均值,得到该子区间所表征的深度值。
根据上述实施方式,通过利用样本分布数据的先验部分对深度预测区间进行划分,并确定出各子区间所表征的深度值,可以将深度预测区间合理地划分为多个子区间,且各子区间所表征的深度值也可根据样本分布数据的先验部分进行确定,从而确保最终得到的目标物的深度值具有较高的精准度。
在一种实施方式中,预设划分标准为:
对于任一子区间,子区间的深度范围与子区间内分布的样本数量的乘积符合预设数值范围。
示例性地,子区间的深度范围指的是子区间的长度范围,预设数值范围可以为预设的常数值上下浮动的区间范围。子区间的深度范围与子区间内分布的样本数量的乘积符合预设数值范围,可以理解为子区间的深度范围与子区间内分布的样本数量的乘积大致趋近于预设的常数值。
通过上述实施方式,可以自适应的合理划分出各子区间的深度范围,保证样本分布相对密集的区域的子区间的划分也相对密集,从而针对样本分布密集的区域,可以有效地提升子区间的划分精度,确保最终得到的深度值更为精准。
如图3所示,在一种实施方式中,步骤S202包括:
S301:对于任一子区间,计算分布于子区间内的样本的深度值的平均值,将平均值确定为子区间所表征的深度值。
可以理解的是,针对任一个子区间,该子区间内的样本的分布是随机的,通过计算该子区间内所分布的多个样本的深度值的平均值,并将平均值确定为该子区间所表征的深度值,可以使子区间所表征的深度值更符合样本的实际分布情况,提升子区间所表征的深度值的可预测性,从而使最终得到的深度值更为精确。
如图4所示,在一种实施方式中,步骤S103包括:
S401:对目标物在各子区间内的分布概率以及各个子区间所表征的深度值的乘积进行求和,得到目标物的深度值。
示例性地,通过利用深度估计分支网络得到目标物在各子区间内的分布概率后,结合预先设置的各子区间所表征的深度值,可以通过以下公式计算得到目标物的深度值D:
D=∑PiDi,,
其中,Pi用于表征目标物在第i个子区间内的分布概率,Di用于表征第i个子区间所表征的深度值。
通过上述实施方式,根据目标物在各子区间内的分布概率以及各子区间所表征的深度值,计算目标物的深度值的过程较为简便,且最终得到的深度值符合概率分部的精准性。
如图5所示,在一种实施方式中,步骤S101包括:
S501:将待检测图像输入预先训练的目标检测模型,利用目标检测模型的特征提取层,得到待检测图像的高层语义特征。
示例性地,目标检测模型的特征提取层,可以采用多个卷积层对待检测图像进行特征提取处理,经过多个卷积层的层层提取,最终通过深度卷积层输出高层语义特征。
通过上述实施方式,可以利用目标检测模型的特征提取层直接对待检测图像的高层语义特征进行提取,且深度估计分支网络输出的深度信息可以作为目标检测模型的输出层的输入,最终结合各个分支网络输出的信息,得到待检测图像的3D检测结果。
根据本公开的实施例,还提供了一种深度估计分支网络的训练方法。
如图6所示,该深度估计分支网络的训练方法包括:
S601:获取样本图像中的目标物的真实分布概率;
S602:对样本图像进行特征提取处理,得到样本图像的高层语义特征;
S603:将样本图像的高层语义特征输入待训练的深度估计分支网络,得到高层语义特征所表征的目标物的预测分布概率;
S604:确定样本图像的预测分布概率与真实分布概率的差异,根据差异调整待训练的深度估计分支网络的参数,直至待训练的深度估计分支网络收敛。
示例性地,样本图像中目标物的真实分布概率,可以通过人工标注或机器标注的方式确定,
示例性地,可以利用预选训练好的3D检测模型的特征提取层,对样本图像进行特征提取处理。
示例性地,在步骤S603中,可以利用预先设置的损失函数,计算得到样本图像的预测分布概率和真实分布概率的差异。并基于损失函数,对深度估计分支网络的参数进行调整。
根据本公开实施例的深度估计分支网络的训练方法,可以训练得到能够预测目标物在深度检测区间的各子区间内的分布概率,且得到的深度估计分支网络的预测精准度较高。
根据本公开的实施例,还提供了一种目标检测装置。
如图7所示,该装置包括:
提取模块701,用于提取待检测图像中的高层语义特征,高层语义特征用于表征待检测图像中的目标物;
分布概率获取模块702,用于将高层语义特征输入预先训练的深度估计分支网络,得到目标物在深度预测区间的各子区间内的分布概率;
深度值确定模块703,用于根据目标物在各子区间内的分布概率以及各子区间所表征的深度值,确定目标物的深度值。
在一种实施方式中,该装置还包括:
子区间划分模块,用于根据样本分布数据以及预设划分标准,将深度预测区间划分为预设数量个子区间,其中,样本分布数据包括多个样本在深度预测区间内的深度值;
子区间深度值确定模块,用于根据样本分布数据,确定子区间所表征的深度值。
在一种实施方式中,预设划分标准为:
对于任一子区间,子区间的深度范围与子区间内分布的样本数量的乘积符合预设数值范围。
在一种实施方式中,深度值确定模块703还用于:
对于任一子区间,计算分布于子区间内的样本的深度值的平均值,将平均值确定为子区间所表征的深度值。
在一种实施方式中,深度值确定模块703还用于:
对目标物在各子区间内的分布概率以及各个子区间所表征的深度值的乘积进行求和,得到目标物的深度值。
在一种实施方式中,提取模块701还用于:
将待检测图像输入预先训练的目标检测模型,利用目标检测模型的特征提取层,得到待检测图像的高层语义特征。
根据本公开的实施例,还提供了一种深度估计分支网络的训练装置。
如图8所示,该装置包括:
真实分布概率获取模块801,用于获取样本图像中的目标物的真实分布概率;
提取模块802,用于对样本图像进行特征提取处理,得到样本图像的高层语义特征;
预测分布概率确定模块803,用于将样本图像的高层语义特征输入待训练的深度估计分支网络,得到高层语义特征所表征的目标物的预测分布概率;
参数调整模块804,用于确定样本图像的预测分布概率与真实分布概率的差异,根据差异调整待训练的深度估计分支网络的参数,直至待训练的深度估计分支网络收敛。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM 903中,还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
设备900中的多个部件连接至I/O接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如深度检测方法和/或深度估计分支网络的训练方法。例如,在一些实施例中,深度检测方法和/或深度估计分支网络的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时,可以执行上文描述的深度检测方法和/或深度估计分支网络的训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行深度检测方法和/或深度估计分支网络的训练方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (12)
1.一种深度检测方法,包括:
提取待检测图像中的高层语义特征,所述高层语义特征用于表征所述待检测图像中的目标物;
将所述高层语义特征输入预先训练的深度估计分支网络,得到所述目标物在深度预测区间的各子区间内的分布概率;
根据所述目标物在各所述子区间内的分布概率以及各所述子区间所表征的深度值,确定所述目标物的深度值;
其中,所述深度预测区间的各子区间的确定方法包括:
根据样本分布数据以及预设划分标准,将所述深度预测区间划分为预设数量个子区间,所述样本分布数据包括多个样本在所述深度预测区间内的深度值;所述预设划分标准为:对于任一所述子区间,所述子区间的深度范围与所述子区间内分布的样本数量的乘积符合预设数值范围;
根据所述样本分布数据,确定所述子区间所表征的深度值。
2.根据权利要求1所述的方法,其中,根据所述样本分布数据,确定所述子区间所表征的深度值,包括:
对于任一子区间,计算分布于所述子区间内的样本的深度值的平均值,将所述平均值确定为所述子区间所表征的深度值。
3.根据权利要求1所述的方法,其中,根据所述目标物在各所述子区间内的分布概率以及各所述子区间所表征的深度值,确定所述目标物的深度值,包括:
对所述目标物在各所述子区间内的分布概率以及各个所述子区间所表征的深度值的乘积进行求和,得到所述目标物的深度值。
4.根据权利要求1所述的方法,其中,对所述待检测图像进行特征提取处理,得到所述待检测图像的高层语义特征,包括:
将所述待检测图像输入预先训练的目标检测模型,利用所述目标检测模型的特征提取层,得到所述待检测图像的高层语义特征。
5.一种深度估计分支网络的训练方法,包括:
获取样本图像中的目标物的真实分布概率;
对样本图像进行特征提取处理,得到所述样本图像的高层语义特征;
将所述样本图像的高层语义特征输入待训练的深度估计分支网络,得到所述高层语义特征所表征的目标物在深度预测区间的各子区间内的预测分布概率;
确定所述样本图像的预测分布概率与所述真实分布概率的差异,根据所述差异调整所述待训练的深度估计分支网络的参数,直至所述待训练的深度估计分支网络收敛;
所述深度预测区间的各子区间的确定方法包括:
根据样本分布数据以及预设划分标准,将所述深度预测区间划分为预设数量个子区间,所述样本分布数据包括多个样本在所述深度预测区间内的深度值;所述预设划分标准为:对于任一所述子区间,所述子区间的深度范围与所述子区间内分布的样本数量的乘积符合预设数值范围;
根据所述样本分布数据,确定所述子区间所表征的深度值。
6.一种目标检测装置,包括:
提取模块,用于提取待检测图像中的高层语义特征,所述高层语义特征用于表征所述待检测图像中的目标物;
分布概率获取模块,用于将所述高层语义特征输入预先训练的深度估计分支网络,得到所述目标物在深度预测区间的各子区间内的分布概率;
深度值确定模块,用于根据所述目标物在各所述子区间内的分布概率以及各所述子区间所表征的深度值,确定所述目标物的深度值;
子区间划分模块,用于根据样本分布数据以及预设划分标准,将所述深度预测区间划分为预设数量个子区间,所述样本分布数据包括多个样本在所述深度预测区间内的深度值;对于任一子区间,所述子区间的深度范围与所述子区间内分布的样本数量的乘积符合预设数值范围;
子区间深度值确定模块,用于根据所述样本分布数据,确定所述子区间所表征的深度值。
7.根据权利要求6所述的装置,其中,所述深度值确定模块还用于:
对于任一子区间,计算分布于所述子区间内的样本的深度值的平均值,将所述平均值确定为所述子区间所表征的深度值。
8.根据权利要求6所述的装置,其中,所述深度值确定模块还用于:
对所述目标物在各所述子区间内的分布概率以及各个所述子区间所表征的深度值的乘积进行求和,得到所述目标物的深度值。
9.根据权利要求6所述的装置,其中,所述提取模块还用于:
将所述待检测图像输入预先训练的目标检测模型,利用所述目标检测模型的特征提取层,得到所述待检测图像的高层语义特征。
10.一种深度估计分支网络的训练装置,包括:
真实分布概率获取模块,用于获取样本图像中的目标物的真实分布概率;
提取模块,用于对样本图像进行特征提取处理,得到所述样本图像的高层语义特征;
预测分布概率确定模块,用于将所述样本图像的高层语义特征输入待训练的深度估计分支网络,得到所述高层语义特征所表征的目标物在深度预测区间的各子区间内的预测分布概率;
参数调整模块,用于确定所述样本图像的预测分布概率与所述真实分布概率的差异,根据所述差异调整所述待训练的深度估计分支网络的参数,直至所述待训练的深度估计分支网络收敛;
子区间划分模块,用于根据样本分布数据以及预设划分标准,将所述深度预测区间划分为预设数量个子区间,所述样本分布数据包括多个样本在所述深度预测区间内的深度值;对于任一子区间,所述子区间的深度范围与所述子区间内分布的样本数量的乘积符合预设数值范围;
子区间深度值确定模块,用于根据所述样本分布数据,确定所述子区间所表征的深度值。
11.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111155117.3A CN113870334B (zh) | 2021-09-29 | 2021-09-29 | 深度检测方法、装置、设备以及存储介质 |
US17/813,870 US20220351398A1 (en) | 2021-09-29 | 2022-07-20 | Depth detection method, method for training depth estimation branch network, electronic device, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111155117.3A CN113870334B (zh) | 2021-09-29 | 2021-09-29 | 深度检测方法、装置、设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113870334A CN113870334A (zh) | 2021-12-31 |
CN113870334B true CN113870334B (zh) | 2022-09-02 |
Family
ID=79000781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111155117.3A Active CN113870334B (zh) | 2021-09-29 | 2021-09-29 | 深度检测方法、装置、设备以及存储介质 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20220351398A1 (zh) |
CN (1) | CN113870334B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115906921B (zh) * | 2022-11-30 | 2023-11-21 | 北京百度网讯科技有限公司 | 深度学习模型的训练方法、目标对象检测方法和装置 |
CN116109991B (zh) * | 2022-12-07 | 2024-01-09 | 北京百度网讯科技有限公司 | 模型的约束参数确定方法、装置及电子设备 |
CN116883479B (zh) * | 2023-05-29 | 2023-11-28 | 杭州飞步科技有限公司 | 单目图像深度图生成方法、装置、设备及介质 |
CN116844134B (zh) * | 2023-06-30 | 2024-08-09 | 北京百度网讯科技有限公司 | 目标检测方法、装置、电子设备、存储介质及车辆 |
CN117788475B (zh) * | 2024-02-27 | 2024-06-07 | 中国铁路北京局集团有限公司天津供电段 | 一种基于单目深度估计的铁路危树检测方法、系统及设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112241976A (zh) * | 2019-07-19 | 2021-01-19 | 杭州海康威视数字技术股份有限公司 | 一种训练模型的方法及装置 |
CN112862877A (zh) * | 2021-04-09 | 2021-05-28 | 北京百度网讯科技有限公司 | 用于训练图像处理网络和图像处理的方法和装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10733482B1 (en) * | 2017-03-08 | 2020-08-04 | Zoox, Inc. | Object height estimation from monocular images |
CN109658418A (zh) * | 2018-10-31 | 2019-04-19 | 百度在线网络技术(北京)有限公司 | 场景结构的学习方法、装置及电子设备 |
GB2580691B (en) * | 2019-01-24 | 2022-07-20 | Imperial College Innovations Ltd | Depth estimation |
CN111428859A (zh) * | 2020-03-05 | 2020-07-17 | 北京三快在线科技有限公司 | 自动驾驶场景的深度估计网络训练方法、装置和自主车辆 |
CN111680554A (zh) * | 2020-04-29 | 2020-09-18 | 北京三快在线科技有限公司 | 自动驾驶场景的深度估计方法、装置和自主车辆 |
CN112488104B (zh) * | 2020-11-30 | 2024-04-09 | 华为技术有限公司 | 深度及置信度估计系统 |
CN112784981A (zh) * | 2021-01-20 | 2021-05-11 | 清华大学 | 训练样本集生成方法、深度生成模型的训练方法和装置 |
CN113222033A (zh) * | 2021-05-19 | 2021-08-06 | 北京数研科技发展有限公司 | 基于多分类回归模型与自注意力机制的单目图像估计方法 |
-
2021
- 2021-09-29 CN CN202111155117.3A patent/CN113870334B/zh active Active
-
2022
- 2022-07-20 US US17/813,870 patent/US20220351398A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112241976A (zh) * | 2019-07-19 | 2021-01-19 | 杭州海康威视数字技术股份有限公司 | 一种训练模型的方法及装置 |
CN112862877A (zh) * | 2021-04-09 | 2021-05-28 | 北京百度网讯科技有限公司 | 用于训练图像处理网络和图像处理的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113870334A (zh) | 2021-12-31 |
US20220351398A1 (en) | 2022-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113870334B (zh) | 深度检测方法、装置、设备以及存储介质 | |
CN113705628B (zh) | 预训练模型的确定方法、装置、电子设备以及存储介质 | |
CN113361578A (zh) | 图像处理模型的训练方法、装置、电子设备及存储介质 | |
CN113537192B (zh) | 图像检测方法、装置、电子设备及存储介质 | |
CN112966744A (zh) | 模型训练方法、图像处理方法、装置和电子设备 | |
CN114187459A (zh) | 目标检测模型的训练方法、装置、电子设备以及存储介质 | |
CN113947188A (zh) | 目标检测网络的训练方法和车辆检测方法 | |
CN115294332A (zh) | 一种图像处理方法、装置、设备和存储介质 | |
CN114821063A (zh) | 语义分割模型的生成方法及装置、图像的处理方法 | |
CN114186681A (zh) | 用于生成模型簇的方法、装置及计算机程序产品 | |
CN112528995A (zh) | 用于训练目标检测模型的方法、目标检测方法及装置 | |
CN115147680A (zh) | 目标检测模型的预训练方法、装置以及设备 | |
CN115456167A (zh) | 轻量级模型训练方法、图像处理方法、装置及电子设备 | |
CN113706705A (zh) | 用于高精地图的图像处理方法、装置、设备以及存储介质 | |
CN114037052A (zh) | 检测模型的训练方法、装置、电子设备及存储介质 | |
CN114067099A (zh) | 学生图像识别网络的训练方法及图像识别方法 | |
CN114022865A (zh) | 基于车道线识别模型的图像处理方法、装置、设备和介质 | |
CN112862017A (zh) | 点云数据的标注方法、装置、设备和介质 | |
CN114842305A (zh) | 深度预测模型训练方法、深度预测方法及相关装置 | |
CN114707638A (zh) | 模型训练、对象识别方法及装置、设备、介质和产品 | |
CN114037965A (zh) | 模型训练和车道线预测方法、设备及自动驾驶车辆 | |
CN114492793A (zh) | 一种模型训练和样本生成方法、装置、设备及存储介质 | |
CN113361621A (zh) | 用于训练模型的方法和装置 | |
CN116416500B (zh) | 图像识别模型训练方法、图像识别方法、装置及电子设备 | |
CN116797829B (zh) | 一种模型生成方法、图像分类方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |