CN110033481A

CN110033481A - 用于进行图像处理的方法和设备

Info

Publication number: CN110033481A
Application number: CN201810024743.0A
Authority: CN
Inventors: 刘志花; 马林; 李源煕; 安敏洙; 高天豪; 洪成勋; 王淳; 王光伟
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2018-01-10
Filing date: 2018-01-10
Publication date: 2019-07-19
Anticipated expiration: 2038-01-10
Also published as: CN110033481B; KR102661954B1; KR20190085464A

Abstract

公开了一种对图像进行处理的方法和设备。所述方法包括：接收输入的图像；以及根据所述图像中的预定目标的位置、尺寸和类别来估计所述预定目标的深度。

Description

用于进行图像处理的方法和设备

技术领域

本公开涉及用于进行图像处理的方法和设备，更具体地，涉及对图像进行目标检测、目标分类以及目标深度估计的方法和设备。

背景技术

在图像中对目标对象进行深度估计可以适用于各种场景，尤其适用于自动驾驶或者辅助驾驶中。现有的深度估计的方法主要有基于立体视觉的方法、基于激光测距的方法、以及基于目标尺寸的方法等。

现有的深度估计的方法主要有两大类，一类是直接从硬件设备中获取深度，比如Velodyne激光雷达设备，该设备可以得到高精度的深度估计，但是该设备体积较大而且成本较高，得到的深度图是稀疏的，低分辨率的。另一类方法是从低成本的视觉传感器获取深度，比如从两个视觉传感器获取深度，当目标距离传感器特别远的时候，该方法得到的深度非常不准确，因为此时视线几乎是平行的。

从单个视觉传感器(例如，相机)拍摄单目图像，并基于深度学习来估计单目图像的深度正变得越来越流行，但是该方法的主要缺点包括(1)较依赖训练数据；(2)精度低。

因此，需要一种成本低且精度高的在图像中进行目标深度估计的方法和设备。

发明内容

本公开提供了一种用于进行图像处理的方法和设备。具体地，本公开涉及一种根据同焦距图像中的物体近大远小的特性来基于单目图像对目标进行深度估计的方法和设备。

根据本公开的一个方面，公开了一种对图像进行处理的方法，该方法包括：接收输入的图像；根据所述图像中的预定目标的位置、尺寸和类别来估计所述预定目标的深度。

在本公开的一个实施例中，估计所述预定目标的深度包括：在预定目标的位置、尺寸和类别已知的情况下，通过单任务网络学习来估计所述预定目标的深度；和/或在预定目标的位置、尺寸和类别未知的情况下，通过多任务网络学习来估计所述预定目标的深度。

在本公开的一个实施例中，所述预定目标的位置是所述预定目标的在整个图像中的坐标。

在本公开的一个实施例中，所述预定目标的尺寸是包围所述预定目标的检测框的尺寸。

在本公开的一个实施例中，在估计所述预定目标的深度之前，所述方法还包括：对接收的图像进行预处理。

在本公开的一个实施例中，对接收的图像进行预处理包括：根据所述图像的焦距信息和标准焦距信息对所述图像进行规范化。

在本公开的一个实施例中，通过单任务网络学习来估计所述预定目标的深度包括：在所述图像中在所述预定目标的检测框的周围裁剪出预定大小的图像块，对所述图像块进行掩码处理以得到同样大小的掩码图像；将所述图像块与所述掩码图像按通道拼接在一起；将拼接在一起的图像输入单任务网络；从单任务网络输出所述预定目标的深度。

在本公开的一个实施例中，从单任务网络输出所述预定目标的深度包括：确定所述预定目标的深度属于各个预定深度区间的概率，利用概率加权的方式得到所述预定目标的深度的最后结果，并输出所述最后结果。

在本公开的一个实施例中，通过多任务网络学习来估计所述预定目标的深度包括：采用多任务网络来估计所述预定目标的位置和尺寸、所述预定目标的类别以及所述预定目标的深度。

在本公开的一个实施例中，多任务网络包括多个卷积层和相应的池化层。

在本公开的一个实施例中，多任务网络是基于更快的基于卷积层特征的目标区域(faster-rcnn)的网络，并且多任务网络的损失函数是在faster-rcnn的损失函数的基础上加上深度的损失信息的损失函数。

在本公开的一个实施例中，通过多任务网络学习同时估计所述预定目标的深度包括：对所述图像进行目标检测分支处理、目标分类分支处理以及目标深度估计分支处理：通过所述目标检测分支处理，确定所述预定目标的位置和尺寸，通过所述目标分类分支处理，基于所述预定目标的位置和尺寸，确定所述预定目标的类别；以及通过所述目标深度估计分支处理，基于所述预定目标的位置、尺寸和类别，确定所述预定目标的深度。

在本公开的一个实施例中，多任务网络是基于YOLO2的网络，并且多任务网络的损失函数是在YOLO2的损失函数的基础上加上深度的损失信息的损失函数。

在本公开的一个实施例中，经由所述多个卷积层中的最后一个卷积层输出所述预定目标的位置和尺寸、所述预定目标的类别以及所述预定目标的深度。

在本公开的一个实施例中，所述最后一个卷积层中的每个格子包括多个锚的信息。

在本公开的一个实施例中，采用单层特征或多层特征来估计所述预定目标的位置和尺寸、所述预定目标的类别以及所述预定目标的深度。

在本公开的一个实施例中，所述多层特征通过不同的预测层或同一个预测层获得。

在本公开的一个实施例中，所述目标深度估计分支处理包括：确定所述预定目标的深度属于各个预定深度区间的概率；以及将所述预定目标的概率最大的深度区间作为所述预定目标的深度，或者利用概率加权的方式得到所述预定目标的深度。

在本公开的一个实施例中，所述损失函数包括平方误差、交叉熵和对数多项逻辑斯特回归中的至少一个。

在本公开的一个实施例中，所述预定目标包括所述图像中的人、交通工具、交通信号灯和交通标志中的至少一个。

根据本公开的另一方面，提供了一种对图像进行处理的设备，包括：接收器，被配置用于接收输入的图像；处理器；以及存储器，存储有计算机可执行指令，所述指令在被处理器执行时，使处理器执行以下操作：根据所述图像中的预定目标的位置、尺寸和类别来估计所述预定目标的深度。

在本公开的一个实施例中，所述指令在被处理器执行时，使处理器执行以下操作：在预定目标的位置、尺寸和类别已知的情况下，通过单任务网络学习来估计所述预定目标的深度；和/或在预定目标的位置、尺寸和类别未知的情况下，通过多任务网络学习来估计所述预定目标的深度。

在本公开的一个实施例中，所述指令在被处理器执行时，使处理器执行以下操作：在估计所述预定目标的深度之前，对接收的图像进行预处理。

在本公开的一个实施例中，所述指令在被处理器执行时，使处理器执行以下操作：根据所述图像的焦距信息和标准焦距信息对所述图像进行规范化。

在本公开的一个实施例中，所述指令在被处理器执行时，使处理器执行以下操作：在所述图像中在所述预定目标的检测框的周围裁剪出预定大小的图像块，对所述图像块进行掩码处理以得到同样大小的掩码图像；将所述图像块与所述掩码图像按通道拼接在一起；将拼接在一起的图像输入单任务网络；从单任务网络输出所述预定目标的深度。

在本公开的一个实施例中，所述指令在被处理器执行时，使处理器执行以下操作：确定所述预定目标的深度属于各个预定深度区间的概率，利用概率加权的方式得到所述预定目标的深度的最后结果，并输出所述最后结果。

在本公开的一个实施例中，所述指令在被处理器执行时，使处理器执行以下操作：采用多任务网络来估计所述预定目标的位置和尺寸、所述预定目标的类别以及所述预定目标的深度。

在本公开的一个实施例中，所述指令在被处理器执行时，使处理器执行以下操作：对所述图像进行目标检测分支处理、目标分类分支处理以及目标深度估计分支处理：通过所述目标检测分支处理，确定所述预定目标的位置和尺寸，通过所述目标分类分支处理，基于所述预定目标的位置和尺寸，确定所述预定目标的类别；以及通过所述目标深度估计分支处理，基于所述预定目标的位置、尺寸和类别，确定所述预定目标的深度。

在本公开的一个实施例中，多任务网络是基于(YOLO2)的网络，并且多任务网络的损失函数是在YOLO2的损失函数的基础上加上深度的损失信息的损失函数。

在本公开的一个实施例中，所述指令在被处理器执行时，使处理器执行以下操作：经由所述多个卷积层中的最后一个卷积层输出所述预定目标的位置和尺寸、所述预定目标的类别以及所述预定目标的深度。

在本公开的一个实施例中，所述指令在被处理器执行时，使处理器执行以下操作：采用单层特征或多层特征来估计所述预定目标的位置和尺寸、所述预定目标的类别以及所述预定目标的深度。

在本公开的一个实施例中，所述指令在被处理器执行时，使处理器执行以下操作：确定所述预定目标的深度属于各个预定深度区间的概率；以及将所述预定目标的概率最大的深度区间作为所述预定目标的深度，或者利用概率加权的方式得到所述预定目标的深度。

在本公开的一个实施例中，所述预定目标包括所述图像中的人、交通工具、交通信号灯和交通标志，但不限于以上目标。

利用本公开的上述实施例的方案，可以仅使用一个视觉传感器，来对图像进行高精度的目标深度估计。

附图说明

为了更好地理解本发明，将根据以下附图对本发明进行详细描述：

图1示出了根据本公开示例性实施例的对图像进行处理的方法；

图2A示出了根据本公开示例性实施例的对图像进行目标深度估计的方法；

图2B示出了根据本公开另一示例性实施例的对图像进行目标深度估计的方法；

图3示出了根据本公开示例性实施例的在目标状态已知的情况下对目标进行深度估计的示意图；

图4示出了根据本公开示例性实施例的在目标状态未知的情况下对目标进行深度估计的示意图；

图5示出了在基于YOLO2网络框架的情况下多个特征层连接到不同的预测层的情形；

图6示出了在基于YOLO2网络框架的情况下多个特征层连接到同一个预测层的情形；以及

图7示出了根据本公开示例性实施例的设备的结构示意图。

具体实施方式

为了使本申请的目的、技术手段和优点更加清楚明白，以下结合附图对本申请做进一步详细说明。下面通过参考附图描述的实施例是示例性的，仅用于解释本公开，而不能解释为对本公开的限制。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本公开所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

图1示出了根据本公开示例性实施例的对图像进行处理的方法100。

如图1所示，在步骤S110，接收输入的图像。输入的图像可以是由单个视觉传感器(例如，相机)拍摄的单目图像。

在步骤S120，根据输入的图像中的目标的位置、尺寸和类别来估计所述目标的深度。目标的类别可以是图像中的人、交通工具、交通信号灯和交通标志中的至少一个。目标的位置是该目标在图像中的坐标。目标的尺寸可以是包围该目标的检测框(一般用矩形框来表示)的尺寸。具体地，在目标的位置、尺寸和类别已知的情况下，通过单任务网络学习来估计该目标的深度，其中单任务网络学习指的是通过只有一个任务(例如进行深度估计)的网络来进行学习。在目标的位置、尺寸和类别未知的情况下，通过多任务网络学习来估计该目标的深度，其中多任务网络学习指的是通过具有多个任务(例如包括目标检测、目标识别、深度估计这三个任务)的网络来进行学习。在下文中，将分别参考图2A和图2B详细描述通过单任务网络学习来估计目标的深度、以及通过多任务网络学习来估计目标的深度。

根据本公开的一个实施例，在步骤S120之前，该方法还可以包括对接收的图像进行预处理的步骤。预处理可以包括根据输入的图像的焦距信息和标准焦距信息对该图像进行规范化。例如，由于图像可能是由不同相机在不同的焦距下得到的，而在不同的焦距之下同一个目标在照片上显示的尺寸不同，从而会造成所推断的目标深度的不同。根据本公开的实施例，在给定标准焦距f₀的情况下，对任意一张宽为w、高为h、焦距为f的图像，将该图像的宽度和高度规范化为w′＝f₀w/f，h′＝f₀h/f，其中w′为图像规范化后的宽度，h′为图像规范化后的高度。各个像素根据w与w′(或h与h′)的比例采用插值的方式得到。

下面，将参考图2A描述根据本公开示例性实施例的对图像进行目标深度估计的方法。

图2A示出了在目标的位置、尺寸和类别已知的情况下，对图像进行目标深度估计的方法200a。

在图像中的目标的位置、尺寸和类别已知的情况下，如图2A所示，在步骤S210a中，在该图像中在目标周围裁剪出预定大小的图像块，对所述图像块进行掩码处理以得到同样大小的掩码图像，并将所述图像块与所述掩码图像按通道拼接在一起。

之后，在步骤S220a中，将拼接在一起的图像输入单任务网络。在步骤S230a中，从单任务网络输出目标的深度。

下面将参考图3详细描述在目标状态已知的情况下对目标进行深度估计的方法。图3示出了根据本公开示例性实施例的在目标状态已知的情况下对目标进行深度估计的示意图。

在自动驾驶和辅助驾驶领域，通常使用KITTI数据集来在测试交通场景中执行车辆检测、车辆追踪、语义分割等算法。对于KITTI数据集，所有的深度数据都通过激光雷达扫描得到。通过分析，雷达的探测深度范围大约位于5～85米。为了描述简单，本公开将该范围等分为8个区间，也就是8类，比如：(5，15]为第0类，(15，25]为第一类，以此类推。通过这种方式将目标深度估计问题转化为分类问题。该区间的划分也可以采用非均匀划分的形式，比如近距离区间可以稠密一些，远距离区间可以稀疏一些，比如[5，7]、[8，11]、[11，15]、[16，23]...。具体区间范围可以根据训练样本的分布来划分。

在图3中，通过KITTI数据集规范化后的图像大小为1242×375像素(为了简洁，在后文中将“像素”省略)，如310所示。根据本发明的实施例，以目标区域为中心裁剪出321×181的RGB图像，同时得到与该目标的RGB图像相同大小的二值掩码图像(即，该掩码图像的大小也为321×181)，如320所示。这里，目标图像块大小选择为321×181主要是依据目标区域的大小。本发明经过统计发现目标的大小一般是100×60。优选地，当目标区域与背景区域的比例为1∶3时能更好地利用背景信息识别物体。在321×181的掩码图像中，将目标矩形框内的元素置1，否则置0。为了包含背景信息，所使用的矩形框可以比目标实际矩形框大一些，大的程度可以根据情况来设定。此处按照1∶3的比例来设置实际框大小与所使用的矩形框大小。在某些情况下，当目标比较大的时候，矩形框的大小可能会超出321×181的范围，超出的部分可以直接截断。本发明将321×181大小的图像块和与其对应的掩码图像拼接在一起，作为到单任务网络的输入。此处掩码指明了RGB图中目标的区域，所以需要将RGB图像与掩码图像拼接在一起作为输入。在单任务网络中对输入的图像进行特征提取和预测，如330所示。然后，通过对单任务网络输出的目标深度的概率进行加权，来得到目标的最终深度，如340所示。

根据实施例，单任务网络可以是基于卷积神经网络(CNN)的网络。本发明采用一种改进的VGG16的网络结构，该网络的具体结构如下表1所示。

表1

网络层

Conv1

Conv2

Conv3

Conv4

Fc1

Fc2

Fc3

传统VGG 16网络

3×3×64

3×3×128

3×3×256

3×3×512

4096

1000

改进VGG 16网络

3×3×32

3×3×64

128

64

8

在上面的表1中，Conv表示卷积层，Fc表示全连层。此外，在例如“3×3×64”的参数中，3×3表示核大小，64表示通道数目，以此类推。

定义从单任务网络(即，改进的VGG 16网络)输出的目标的深度属于类别k的概率为p_k，k＝0，1，...，7。单任务网络可以通过SGD(Stochastic Gradient Descent，随机梯度下降)算法来进行训练。定义d_k＝(k+1)×10，d_k表示第k个深度区间的平均深度。因此，目标的深度d可以利用概率加权的方式得到，即：

下面，将参考图2B描述根据本公开另一示例性实施例的对图像进行目标深度估计的方法。

图2B示出了在目标的位置、尺寸和类别未知的情况下，对图像进行目标深度估计的方法200b。

在图像中的目标的位置、尺寸和类别未知的情况下，如图2B所示，在步骤S210b中，将图像输入多任务网络，以利用多任务网络来估计目标的位置、尺寸和类别以及目标的深度。目标的位置是该目标在图像中的坐标。目标的尺寸可以是包围该目标的检测框(一般用矩形框来表示)的尺寸。之后在步骤S220b中，从多任务网络输出目标的位置、尺寸和类别以及目标的深度。这里，多任务网络的一个示例可以是基于faster-rcnn(faster-Regionswith Convolutional Neural Network Features，更快的基于卷积层特征的目标区域)的网络架构。下面将参考图4详细地描述基于多任务网络对目标进行深度估计的操作。

图4示出了根据本公开示例性实施例的在目标状态未知的情况下对目标进行深度估计的示意图。

在一幅图像中目标的位置、尺寸和类别未知的情况下，将该图像输入多任务网络以输出目标的位置和尺寸、目标的类别以及目标的深度估计结果。如图4所示，当输入一幅图像时，对其进行若干层卷积操作以及相应的池化操作，得到共享的特征。之后，将经过卷积和池化操作的图像分成三个分支，即，对输入的图像进行目标检测分支处理、目标分类分支处理以及目标深度估计分支处理。通过目标检测分支处理，确定目标的位置和尺寸(例如，包围目标的检测框的尺寸)。将目标位置、尺寸输入到目标分类分支中，即，通过目标分类分支处理，基于目标的位置和尺寸，确定目标的类别。之后，将目标位置、尺寸和目标的类别输入到目标深度估计分支中，即，通过目标深度估计分支处理，基于目标的位置、尺寸和类别，确定目标的深度。通过这种方式，本发明在进行深度估计时，可以由前两个分支提供所需要的目标区域以及类别信息。采用滑动窗口或者区域采样(region proposal)的方式来提供候选框。类似于faster-rcnn，可以定义多个锚(anchor)，即在每个位置有一个锚，选择最合适的锚所对应的结果来输出。

可以通过在faster-rcnn的损失函数的基础上加上深度的损失信息来得到多任务网络的损失函数。多任务网络的损失函数定义如下：

其中，

i代表一个锚在mini-batch中的序号，

p_i是第i个锚预测的类别标签，

t_i是4参数的检测框，

d_i是预测的深度。

L_cls和L_depth都是多项逻辑斯特回归(softmax)的损失函数，

L_reg是一个L1平滑的损失函数，

表示根据GT(GT指的是groundtruth，是人工标注的)，当前锚是一个正的锚，

是GT的检测框，

是GT的深度。

N_cls、N_reg与N_depth是归一化项，以及

λ₁和λ₂是损失的权重项。

该网络可以通过SGD算法来进行训练。

具体的损失函数可参见faster-rcnn(Faster R-CNN：Towards Real-Time ObjectDetection with Region Proposal Networks，NIPS 2015)。

网络输出目标的位置和尺寸、目标的类别以及深度信息。根据faster-rcnn会得到许多候选框，经过网络的前向传播，对每个候选框可以同时输出其分类的置信度、检测框以及深度。可以根据分类的置信度阈值以及非极大值抑制来筛选出属于目标的那些框。对于留下的框，可以直接输出与其对应的类别、检测框以及深度信息。目标的深度信息可以是目标的最优(即，概率最大)的深度区间，也可以是根据上面的方程式(1)得到的概率加权后的深度。

多任务网络的另一个示例是基于YOLO2(You Only Look Once，只看一次)的网络架构。该网络架构如下面的表2所示。

表2

在YOLO2中也采用了锚的概念。当输入了一幅图像时，本发明对其进行卷积和池化操作，最后得到一个卷积层。该最后一个卷积层的维度是w×h×s，其中w和h分别表示图像缩小后的宽度和高度，s对应于一个向量。这相当于将一幅图像分成许多格子。最后一个卷积层中的每个格子包括多个锚的信息。定义R_i表示第i个锚的检测框，P_i表示第i个锚的各类的概率，D_i表示第i个锚的深度，那么每个格子的向量可表示为[R₁，…，R_K，P₁，…，P_K，D₁，…，D_K]。

可以通过在YOLO2的损失函数的基础上加上深度的损失信息来得到多任务网络的损失函数。多任务网络的损失函数可以表示为：

其中，

λ_coord、λ_noobj是分别是坐标、以及无物体项的权重，

n是最后一个卷积层的各个格子，即宽×高，

B是锚的个数，

标志第i个格子(像素)的第j个锚是否有物体，即，有物体则否则为0，

表示GT的x坐标，

表示GT的y坐标，

表示GT的宽度w，

表示GT的高度h，

是实际得到的当前锚的检测框，

p_ij(c)是当前锚属于第c类的概率，

d_ij是当前锚对应的目标的深度，

是第i个格子(像素)的第j个锚有第c类物体的概率，是GT值，

是第i个格子(像素)的第j个锚的物体的深度，是GT值，以及

classes是各类的集合，表示对于各个类别的计算值求和。

具体的损失函数参数可参见YOLO(You Only Look Once：Unified，Real-TimeObject Detection，CVPR 2016)。

当某个格子存在目标时，通过该损失函数，可以使检测出的矩形框与实际框尽可能接近，检测出的矩形框与GT框的重叠率尽可能接近，所估计的目标深度与实际深度尽可能接近。当某个格子不存在目标时，也可以通过该损失函数使这个格子检出目标的概率尽可能小。该网络可通过SGD算法来进行训练。在上面的方程式(2)和(3)中列出的各项的损失函数可以不限于上述方程式中的形式，可以是平方误差、交叉熵和对数多项逻辑斯特回归(softmax log)中的至少一个。

在输入单幅图像的情况下，可以根据单层特征对图像中的目标进行检测、分类以及深度估计。当得到最后一个卷积层时，可以根据得到的类别的概率判断格子中是否存在目标，以及该目标属于什么类别。当一个格子被判断为存在目标时，可以根据相应的锚得到该目标的检测框，同时得到与此框对应的深度。目标最终的深度信息可以是目标的最优(即，概率最大)的深度区间，也可以是根据上面的方程式(1)得到的概率加权后的深度。

根据本公开的另一实施例，在处理多尺度(即，对一幅图像进行采样而得到多个不同大小的图像)的情况下，可以类似SSD(Single Shot MultiBox Detector，单一命中的多尺度框检测)那样根据多层特征对图像中的目标进行检测、分类以及深度估计。这些不同尺度的特征层可以连接到不同的预测层，也可以连接到同一个预测层。图4和图5分别示出了在基于YOLO2网络框架的情况下多个特征层连接到不同预测层和同一预测层的情况。

在图5中，分别对连接到不同预测层的各个特征层进行分类、检测以及深度估计。在图6中，两个特征层连接到同一个预测层，也就是共享预测层的参数，但是对不同层的特征分别进行预测，以得到不同尺度的目标的计算结果。对于各个不同特征层得到的检测框，根据其类别的置信度值以及非极大值抑制来得到最后的结果。

以下将参考图7，对根据本公开示例性实施例的设备的示意性结构进行描述。图7示出了根据本公开示例性实施例的设备700的结构示意图。设备700可以用于执行参考图1描述的方法100。为了简明，在此对根据本公开示例性实施例的设备的示意性结构进行描述，而省略了如前参考图1描述的方法中已经详述过的细节。

如图7所示，设备700可以包括用于接收输入的图像的接收器701；处理单元或处理器703，该处理器703可以是单个单元或者多个单元的组合，用于执行方法的不同步骤；存储器705，其中存储有计算机可执行指令。这里，输入的图像可以是由单个视觉传感器(例如，相机)拍摄的单目图像。

根据本公开的实施例，当所述指令在被处理器703执行时，使处理器703根据输入的图像中的目标的位置、尺寸和类别来估计所述目标的深度(如图1的步骤S120中所述，此处不再赘述)。具体地，在目标的位置、尺寸和类别已知的情况下，通过单任务网络学习来估计该目标的深度(如图2A的步骤S210a至S230a中所述，此处不再赘述)；在目标的位置、尺寸和类别未知的情况下，通过多任务网络学习来估计该目标的深度(如图2B的步骤S210b至S220b中所述，此处不再赘述)。

通过本发明的技术方案，可以利用单个相机来高精度地估计图像中的目标深度。实验结果表明，本发明的方法和当前最好的单目深度估计方法相比，大约可以减少1.4倍的误差，更精确的，RMSE(最小均方误差)从约4.1米降低到约2.9米。也就是说，利用本发明的目标深度估计方法，可以在降低成本的同时提高估计精度，这尤其有利于自动驾驶或辅助驾驶领域。

如本领域技术人员可以理解的那样，运行在根据本公开的设备上的程序可以是通过控制中央处理单元(CPU)来使计算机实现本公开的实施例功能的程序。该程序或由该程序处理的信息可以临时存储在易失性存储器(如随机存取存储器RAM)、硬盘驱动器(HDD)、非易失性存储器(如闪速存储器)、或其他存储器系统中。

用于实现本公开各实施例功能的程序可以记录在计算机可读记录介质上。可以通过使计算机系统读取记录在所述记录介质上的程序并执行这些程序来实现相应的功能。此处的所谓“计算机系统”可以是嵌入在该设备中的计算机系统，可以包括操作系统或硬件(如外围设备)。“计算机可读记录介质”可以是半导体记录介质、光学记录介质、磁性记录介质、短时动态存储程序的记录介质、或计算机可读的任何其他记录介质。

用在上述实施例中的设备的各种特征或功能模块可以通过电路(例如，单片或多片集成电路)来实现或执行。设计用于执行本说明书所描述的功能的电路可以包括通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或其他可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或上述器件的任意组合。通用处理器可以是微处理器，也可以是任何现有的处理器、控制器、微控制器、或状态机。上述电路可以是数字电路，也可以是模拟电路。因半导体技术的进步而出现了替代现有集成电路的新的集成电路技术的情况下，本公开的一个或多个实施例也可以使用这些新的集成电路技术来实现。

如上，已经参考附图对本公开的实施例进行了详细描述。但是，具体的结构并不局限于上述实施例，本公开也包括不偏离本公开主旨的任何设计改动。另外，可以在权利要求的范围内对本公开进行多种改动，通过适当地组合不同实施例所公开的技术手段所得到的实施例也包含在本公开的技术范围内。此外，上述实施例中所描述的具有相同效果的组件可以相互替代。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种对图像进行处理的方法，包括：

接收输入的图像；以及

根据所述图像中的预定目标的位置、尺寸和类别来估计所述预定目标的深度。

2.根据权利要求1所述的方法，其中估计所述预定目标的深度包括：在预定目标的位置、尺寸和类别已知的情况下，通过单任务网络学习来估计所述预定目标的深度；和/或

在预定目标的位置、尺寸和类别未知的情况下，通过多任务网络学习来估计所述预定目标的深度。

3.根据权利要求1或2所述的方法，其中所述预定目标的尺寸是包围所述预定目标的检测框的尺寸。

4.根据前述权利要求之一所述的方法，在估计所述预定目标的深度之前，所述方法还包括：对接收的图像进行预处理。

5.根据权利要求4所述的方法，其中对接收的图像进行预处理包括：根据所述图像的焦距信息和标准焦距信息对所述图像进行规范化。

6.根据权利要求3所述的方法，其中通过单任务网络学习来估计所述预定目标的深度包括：

在所述图像中在所述预定目标的检测框的周围裁剪出预定大小的图像块，对所述图像块进行掩码处理以得到同样大小的掩码图像；

将所述图像块与所述掩码图像按通道拼接在一起；

将拼接在一起的图像输入单任务网络；

从单任务网络输出所述预定目标的深度。

7.根据权利要求6所述的方法，其中从单任务网络输出所述预定目标的深度包括：

确定所述预定目标的深度属于各个预定深度区间的概率，利用概率加权的方式得到所述预定目标的深度的最后结果，并输出所述最后结果。

8.根据权利要求2所述的方法，其中通过多任务网络学习来估计所述预定目标的深度包括：采用多任务网络来估计所述预定目标的位置、尺寸、所述预定目标的类别以及所述预定目标的深度。

9.根据权利要求8所述的方法，其中多任务网络包括多个卷积层和相应的池化层。

10.根据权利要求8或9所述的方法，其中多任务网络是基于更快的基于卷积层特征的目标区域“faster-rcnn”的网络，并且多任务网络的损失函数是在faster-rcnn的损失函数的基础上加上深度的损失信息的损失函数。

11.根据权利要求10所述的方法，其中通过多任务网络学习来估计所述预定目标的深度包括：

对所述图像进行目标检测分支处理、目标分类分支处理以及目标深度估计分支处理：

通过所述目标检测分支处理，确定所述预定目标的位置和尺寸，

通过所述目标分类分支处理，基于所述预定目标的位置和尺寸，确定所述预定目标的类别；以及

通过所述目标深度估计分支处理，基于所述预定目标的位置、尺寸和类别，确定所述预定目标的深度。

12.根据权利要求8或9所述的方法，其中多任务网络是基于“YOLO2”的网络，并且该网络的损失函数是在YOLO2的损失函数的基础上加上深度的损失信息的损失函数。

13.根据权利要求12所述的方法，其中经由所述多个卷积层中的最后一个卷积层输出所述预定目标的位置和尺寸、所述预定目标的类别以及所述预定目标的深度。

14.根据权利要求13所述的方法，其中所述最后一个卷积层中的每个格子包括多个锚的信息。

15.根据权利要求12所述的方法，其中采用单层特征或多层特征来估计所述预定目标的位置和尺寸、所述预定目标的类别以及所述预定目标的深度。

16.根据权利要求15所述的方法，其中所述多层特征通过不同的预测层或同一个预测层获得。

17.根据权利要求11或13所述的方法，其中所述目标深度估计分支处理包括：

确定所述预定目标的深度属于各个预定深度区间的概率；以及

将所述预定目标的概率最大的深度区间作为所述预定目标的深度，或者利用概率加权的方式得到所述预定目标的深度。

18.根据权利要求10或12所述的方法，其中，所述损失函数包括平方误差、交叉熵和对数多项逻辑斯特回归中的至少一个。

19.根据前述权利要求之一所述的方法，其中所述预定目标包括所述图像中的人、交通工具、交通信号灯和交通标志中的至少一个。

20.一种对图像进行处理的设备，包括：

接收器，被配置用于接收输入的图像；

处理器；以及

存储器，存储有计算机可执行指令，所述指令在被处理器执行时，使处理器执行以下操作：