CN113362388A

CN113362388A - 一种用于目标定位和姿态估计的深度学习模型

Info

Publication number: CN113362388A
Application number: CN202110618048.9A
Authority: CN
Inventors: 林广栋; 王强; 黄光红
Original assignee: Anhui Core Century Technology Co ltd
Current assignee: Anhui Core Century Technology Co ltd
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2021-09-07

Abstract

本发明提供一种深度学习模型，输入二维图像，输出二维图像中目标物体的类别及其在该图像中的最小包围矩形，以及该目标在世界坐标系下的位置与姿态，对推进计算机视觉在机器人、自动驾驶等领域应用具有重要意义；与此同时，还提供了一种用于上述深度学习模型的训练样本生成方法，样本生成效率高，可以给该深度学习模型的训练提供充足的训练样本。

Description

一种用于目标定位和姿态估计的深度学习模型

技术领域

本发明涉及深度学习技术领域，尤其是一种用于目标定位和姿态估计的深度学习模型。

背景技术

目标检测是计算机视觉领域中的经典问题，它将图像分割与目标识别两个任务合二为一个，直接从图像中识别出目标的位置和种类。目前，深度学习技术已经成为实现目标检测任务的主流方法。基于深度学习模型的目标检测算法在精度上已经远远超越了传统的计算机视觉算法。常用于目标检测的深度学习模型包括Fast RCNN、Faster RCNN、SSD、Yolo等。

然而，目前的深度学习模型仅能计算目标在二维图像中的位置，不能给出目标在世界坐标系下的位置以及绕X、Y、Z轴的旋转角度(即姿态)，而目标在世界坐标系下的位置和姿态，对机器人、自动驾驶等领域具有重要意义，也是计算机视觉的最终目标之一。目前，通过二维图像得到目标在世界坐标系下的位置，传统计算机视觉领域一般采用特征点匹配的方法，该方法的基础是物体成像公式

其中x、y为空间中某点在相机拍摄形成的二维图像中的坐标，u、v、w为该点在三维空间世界坐标系中的坐标，

代表相机的内参矩阵，

代表由世界坐标系变换至相机坐标系需要进行的旋转和平移变换，

代表由世界坐标系中的坐标变换至图像坐标系中所需要进行的变换，称为单应变换矩阵。

传统计算机视觉方法通过提取出图像的SIFT或SURF等特征点，与目标在特定已知位置下的图像进行特征点匹配，再利用RANSAC方法进行筛选，得到符合某单应变换矩阵的匹配内点，再利用这些内点估计得到目标图像相对于已知位置的图像的单应变换矩阵。传统方法缺点在于不是端到端的方法，需要进行大量数学计算和调整参数。当目标在图像中比较小时，从整个图像中提取的特征点会掩盖目标的特征点信息，导致匹配失败。

针对常规深度学习模型和传统计算机视觉方法在识别目标在世界坐标系下的位置和姿态方面的不足，行业内诸多研究人员进行了探索。

PoseNet是剑桥大学Alex Kendall等人提出的深度学习模型，可以从二维图像中得到相机的位置和姿态，但不能得到二维图像中目标物体在世界坐标系下的位置和姿态信息。

美国学者Arun CS Kumar等人提出DepthNet，该深度学习模型可以从双目摄像头输入的两张输入图像中得到图像中每个像素对应的深度信息，即相对于相机的距离信息。显然，该模型给出一些关于图像的三维空间信息，但并不能识别图像中的目标，并给出该目标在世界坐标系下的位置和姿态信息。

德国学者Philipp Fischer等人提出FlowNet，该深度学习模型以视频中的连续两张图像作为输入，可以给出图像中每个像素的光流信息，即对每个像素的运动方向与速度进行预测。显然，该模型也不能给出目标在世界坐标系下的位置和姿态信息。

国家知识产权局于2019年7年5年公开的发明专利申请CN109977945A——《基于深度学习的定位方法和系统》提出的深度学习模型可以给出物体在二维图像中的位置，以及在二维图像中包围目标的最小矩阵和最小旋转包围矩形信息，仍然不是在世界坐标系下的位置和姿态信息。

国家知识产权局于2018年12月28日公开的发明专利申请CN109101966A——《基于深度学习的工件识别定位和姿态估计系统和方法》提出的深度学习模型可以给出目标在二维图像中的中心位置、宽、高，以及绕三维空间坐标系统X、Y、Z轴旋转的角度信息，但并未给出目标在世界坐标系下的位置信息。

国家知识产权局于2019年12月17日公开的发明专利申请CN110580723A——《一种利用深度学习和计算机视觉进行精准定位的方法》提出利用常规的用于目标检测的深度学习模型来识别目标在二维图像中的位置，然后把这部分图像截取出来，采取传统计算机视觉方法估计出目标的空间位置。此方法中的深度学习模型仅仅用来识别目标在二维图像中的位置，仍然要采用传统计算机视觉方法来估计出目标的空间位置。

国家知识产权局于2019年2月16日授权公告的发明专利CN106023211B——《基于深度学习的机器人图像定位方法及系统》提出利用深度学习模型提取二维图像的特征信息，再基于这些特征信息进行匹配，通过传统计算机视觉方法得到机器人的运动轨迹。此方法也不能由深度学习模型得到目标在世界坐标系下的位置和姿态信息。

国家知识产权局于2020年7月14日公开的发明专利申请CN111415384A——《一种基于深度学习的工业图像组件精准定位系统》提出利用深度学习模型得到二维图像中工业组件的角点位置信息，再基于这些角点位置信息，得到工件的位置。此方法也不能由深度学习模型得到目标在世界坐标系下的位置和姿态信息。

发明内容

针对现有技术中缺少能够直接从二维图像中识别出目标在世界坐标系下的位置和姿态信息的深度学习模型，本发明提出一种用于目标定位和姿态估计的深度学习模型。

一种用于目标定位和姿态估计的深度学习模型，向该深度学习模型输入二维图像，输出二维图像中目标物体的类别及其在该图像中的最小包围矩形，以及该目标物体在世界坐标系下的位置与姿态；

该深度学习模型主要由多层特征提取模块和对应于每层特征提取模块的空间定位模块组成；特征提取模块提取图像信息形成特征图金字塔；空间定位模块为每层特征图中的每个点生成一个虚拟锚框，并根据训练数据中目标物体在二维图像中的中心位置以及与锚框的重叠程度，选择重叠度高的锚框输出进行训练；

空间定位模块为每层特征图中的每个点形成多个输出作为训练目标，其中包括中心在该点代表的锚框内的目标物体在二维图像中的最小包围矩形信息，目标物体在世界坐标系下的位置信息与姿态信息，以及目标物体的类别概率信息。该深度学习模型在训练完成后方可执行目标定位和姿态估计任务。执行目标定位和姿态估计任务时，选择每层特征图的每个位置的输出中属于任一类别概率超过预设阈值的输出，进行非极大值抑制后，作为整个模型的最终输出，该输出代表模型从输入的二维图像中识别出的目标物体信息。

进一步的，最小包围矩形信息包括目标在原始图像中的中心位置相对于锚框矩形中心位置的偏移量和目标在图像中的最小包围矩形相对于锚框矩形的高和宽的比例的对数函数值；目标的位置信息为中心在特征图该点代表的锚框内的目标在世界坐标系中的X、Y、Z轴坐标，目标的姿态信息为中心在特征图该点代表的锚框内的目标相对于世界坐标系X、Y、Z轴的旋转角度；目标的类别概率信息为经过softmax函数输出的目标物体为某个类别的概率。

进一步的，每层特征提取模块由多个特征提取单元构成。

进一步的，空间定位模块由最小包围矩形运算单元、空间位置运算单元、旋转角度运算单元和分类概率运算单元构成，每个运算单元通过神经网络对每层特征图进行运算，得到与该层特征图维度相同的多通道输出，包括4通道的最小包围矩形信息输出、3通道的空间位置信息输出、3通道的旋转角度信息输出、N通道的分类概率信息输出(记目标物体分为N类)。

进一步的，对该深度学习模型进行训练时，该深度学习模型的总误差L＝λ_RL_R+λ_PL_P+λ_CL_C+λ_BL_B，其中L_R为旋转角度误差，L_P为空间位置误差，L_C为分类误差，L_B为最小包围矩阵误差，λ_R、λ_P、λ_C、λ_B分别为旋转角度误差、空间位置误差、分类误差、最小包围矩阵误差在总误差中的占比，均为该深度学习模型的超参数。

进一步的，该深度学习模型执行目标识别与定位功能时，针对目标的每个类别，若某层的某位置的输出概率大于预设阈值，则认为目标属于该类别；当针对一个类别，存在多个位置的输出概率大于预设阈值时，则对多个位置的输出进行非极大值抑制。

进一步的，针对一个类别的多个位置的输出进行非极大值抑制包括以下步骤：

步骤A1，选择所有输出概率大于预设阈值的位置作为候选目标输出；

步骤A2，选取候选目标输出中属于该类别概率最大的输出，将其作为最终输出之一，同时从候选目标输出中予以删除；

步骤A3，计算候选目标输出中其他目标输出的最小包围矩形与概率最大的目标输出的最小包围矩形的IOU，并删除IOU大于预设阈值的候选目标输出；

步骤A4，若还存在其他目标输出，则返回步骤A2，否则，结束非极大值抑制算法。

本发明还保护一种用于上述深度学习模型的训练样本获取方法，包括以下步骤：

步骤B1，获取目标的三维矢量图，包括物体的大小、形状及各个面的纹理图像；

步骤B2，利用计算机仿真软件将目标以随机姿态放入背景图像的随机位置；

步骤B3，根据物体成像公式，通过计算机图形学算法计算得到该目标的虚拟图像及其在虚拟图像中的最小包围矩形；

步骤B4，对虚拟图像进行图像处理，以得到更多的虚拟图像，图像处理操作包括但不限于模糊、锐化、加入噪声；

步骤B5，已知的目标的类别、在世界坐标系中的位置和姿态信息，目标在该虚拟图像中的最小包围矩形，以及对应的虚拟图像即构成该深度学习模型的一个训练样本。

本发明提供了一种深度学习模型，输入二维图像，就能识别出二维图像中的目标类别及其在该图像中的最小包围矩形，以及该目标在世界坐标系下的位置与姿态，对推进计算机视觉在机器人、自动驾驶等领域应用具有重要意义；与此同时，还提供了一种用于上述深度学习模型的训练样本生成方法，样本生成效率高，可以给模型训练提供充足的训练样本。

附图说明

图1为多层特征提取模块结构示意图；

图2为每层特征图维度缩小2倍时的特征图变化示意图；

图3为包含2个连续特征提取单元的特征提取模块示意图；

图4为增加直连操作的特征提取模块示意图；

图5为2*2大小的特征图在原始图像中代表的锚框示意图；

图6为4*4大小的特征图在原始图像中代表的锚框示意图；

图7为空间定位模块模型示意图；

图8为空间定位模块针对特征图中的每个点的输出示意图；

图9为物体的中心在多个不同特征层的不同锚框中的示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明的实施例是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

实施例1

一种用于目标定位和姿态估计的深度学习模型，向该深度学习模型输入二维图像，输出二维图像中的目标类别及其在该图像中的最小包围矩形，以及该目标在世界坐标系下的位置与姿态。简而言之，该深度学习模型主要由多层特征提取模块和对应于每层特征提取模块的空间定位模块组成。

特征提取模块提取图像信息形成特征图，除最后一层特征提取模块之外的每层特征提取模块，在完成图像特征提取后，通过池化层降低特征图的维度，再由下一层特征提取模块进行更低维度的图像特征提取，进而形成特征图金字塔。

以图1所示的6层特征提取模块为例，大小为1024*1024的原始图像输入第1层特征提取模块，得到第1层特征图(1024*1024)；通过池化层1将特征图降维至256*256，再通过第2层特征提取模块得到第2层特征图(256*256)；通过池化层2将特征图降维至64*64，再通过第3层特征提取模块得到第3层特征图(64*64)；通过池化层3将特征图降维至16*16，再通过第4层特征提取模块得到第4层特征图(16*16)；通过池化层4将特征图降维至4*4，再通过第5层特征提取模块得到第5层特征图(4*4)；通过池化层5将特征图降维至1*1，再通过第6层特征提取模块得到第6层特征图(1*1)。

图1以特征图维度每层缩小4倍为例，若特征图维度每层缩小2倍，即1024→512→256→128→64→32→16→8→4→2→1，即经过11层特征提取模块，得到1*1大小的特征图。图2为此种情形下的特征图变化示意图。从中可以看出，随着特征图的维度随着层数的增加而降低，其通道数逐渐增加。特征图的维度越小，代表图像中越大目标的特征，同时，因为目标的抽象特征种类很多，一般其通道数越大；特征图的维度越大，代表图像中越小目标的特征，其可能包含的物体数量越多，同时，由于物体的低层特征种类相对较少，一般其通道数越少。

特征提取模块可以基于现有技术以任意方式实现，其本质在于提取图像中包含的信息。一般，低层的特征提取模块提供图像的底层信息，如边缘、明暗、纹理等等；而高层特征提取模块再组合底层特征提取模块的信息，提取更抽象的信息，如图像中的物体类别等等。在本实施例中，每层特征提取模块由多个特征提取单元构成，每个特征提取单元由卷积层(Conv2D)、批量归一化层(BatchNormalization)、线性整流层(Relu)构成。图3所示为包含2个连续特征提取单元的特征提取模块示意图。

将基于一层特征提取模块进行的特征操作称之为一个阶段。每个阶段，随着操作向后进行，每个操作的输出代表图像更为抽象的信息，而前面操作的输出代表图像较为具体的信息。例如，第一次卷积操作之后，特征图代表图像中边缘的强度，经过多次卷积、批量归一化、线性整流操作之后，特征图则代表图像中某种角点的强度。为了把图像的抽象特征与具体特征相融合，本实施例选择在每个阶段中增加直连操作。直连操作直接将某个操作的输出通过逐元素相加与后面若干个操作之后的输出相连，或把某个操作的输出直接拼接到后面若干个操作之后的输出中，作为后面若干个操作的输入的一个通道，如图4所示。

每层特征图在输出给下一层特征提取模块的同时，还输出至空间定位模块。特征图中的每个点通过空间定位模块形成多个输出，其中包括中心在该点代表的锚框内的目标物体在二维图像中的最小包围矩形信息，目标物体在世界坐标系下的位置信息与姿态信息，以及目标物体的类别概率信息。

空间定位模块通过锚框矩形在原始图像中定位每层特征图中每个点的位置，并基于每层特征图，得到与该层特征图维度相同的多通道输出。

首先，空间定位模块为每层特征图定义了锚框矩形的概念，将特征图放大至原始图像大小后，特征图上每个点在原始图像中的位置和大小即为锚框矩形的位置和大小。

例如，设原始图像大小N*M，则2*2大小的特征图放大到原始图像大小后，每个特征点均放大为高为N/2、宽为M/2的矩形，且4个特征点放大之后形成矩形分别对应原始图像的左上区域、右上区域、左下区域、右下区域。以图像左上角为坐标原点，横向为X轴，纵向为Y轴建立平面坐标系，X轴向右增长，Y轴向下增长，则每个特征点的锚框矩形的中心点坐标分别为(M/4,N/4)、(M*3/4,N/4)、(M/4,N*3/4)、(M*3/4,N*3/4)，锚框矩形的高均为N/2，宽均为M/2。图5、图6分别展示了2*2大小的特征图和4*4大小的特征图在原始图像中代表的锚框。

空间定位模块由最小包围矩形运算单元、空间位置运算单元、旋转角度运算单元和分类概率运算单元构成，这些运算单位分别输出目标物体的最小包围矩形信息、空间位置信息、旋转角度信息、分类概率信息，如图7所示。每个运算单元通过神经网络对每层特征图进行运算，得到与该层特征图维度相同的多通道输出，包括4通道的最小包围矩形信息输出、3通道的空间位置信息输出、3通道的旋转角度信息输出、N通道的分类概率信息输出(记目标物体分为N类)，如图8所示。运算单元的神经网络也是通过对特征图反复交替使用卷积操作、批量归一化操作和线性整流操作，最终得到与该层特征图维度相同的多通道输出。由于最小包围矩形运算单元、空间位置运算单元、旋转角度运算单元的输出可能有负数，在这些运算单元靠近输出的最后一层不再使用线性整流操作，而是采用卷积操作，参照图7。在分类概率运算单元的最后一层通过softmax算子对卷积层的输出进行归一化，以输出总和为1的各类别的分类概率。图7中仅示出一轮卷积操作、批量归一化操作和线性整流操作。

最小包围矩形信息包括目标在原始图像中的中心位置相对于锚框矩形中心位置的偏移量d_x、d_y和目标在图像中的最小包围矩形相对于锚框矩形的高和宽的比例的对数函数值d_w、d_h；目标的位置信息为中心在特征图该点代表的锚框内的目标的X、Y、Z轴坐标P_x、P_y、P_z，目标的姿态信息为中心在特征图该点代表的锚框内的目标相对于X、Y、Z轴的旋转角度R_x、R_y、R_z；目标的类别概率信息为经过softmax函数输出的目标物体为各个类别的概率。

当对该深度学习模型进行训练时，总误差L＝λ_RL_R+λ_PL_P+λ_CL_C+λ_BL_B，其中L_R为旋转角度误差，L_P为空间位置误差，L_C为分类误差；L_B为最小包围矩阵误差，λ_R、λ_P、λ_C、λ_B分别为旋转角度误差、空间位置误差、分类误差、最小包围矩阵误差在总误差中的占比。

旋转角度误差函数

其中R_x、R_y、R_z分别为深度学习模型预测的目标相对于X、Y、Z轴的旋转角度，

分别为目标真实绕X、Y、Z轴的旋转角度。深度学习模型会产生金字塔结构的特征图输出，L为特征金字塔的层数，N_l为特征金字塔第l层特征图的行数，M_l为特征金字塔第l层特征图的列数，I_lij表征特征金字塔第l层特征图的第i行第j列的位置有无目标(若有目标，I_lij为1；若无目标，I_lij为0)。深度学习模型为特征金字塔的每一层的每一特征位置输出3个旋转角度信息，上述误差仅仅测量包含目标位置处的旋转角度误差。

空间位置误差

其中P_x、P_y、P_z分别为深度学习模型预测的目标在X、Y、Z轴的坐标；

分别为目标的X、Y、Z轴的坐标。深度学习模型为特征金字塔的每一层的每一特征位置输出X、Y、Z轴的坐标信息，上述误差仅仅测量包含目标位置处的空间位置误差。

分类误差

其中N为目标的类别数目。深度学习模型在特征金字塔的每一层的每一特征位置都针对分类产生一个softmax型输出。所谓softmax型输出即输出N个实数，每个输出代表目标属于某个类型的概率，所有N个输出之和为1。p_c为深度学习模型针对分类任务的第c个输出的值，代表模型计算出的中心点在该锚框中的目标属于第c类的概率，

为目标属于第c个类型的真实概率。显然，对于特定的目标，

要么为0，要么为1，且所有类型中只有1个为1，即N个

中只能有1个为1，其余都是0。

最小包围矩形误差

其中d_x、d_y分别为深度学习模型预测的目标最小包围矩形的中心相对于锚框中心位置在图像上偏移，d_w、d_h分别为深度学习模型预测的目标最小包围矩形的宽、高相对于锚框矩形宽、高的比例，

分别为真实的目标最小包围矩形的中心相对于锚框中心位置在图像上偏移，

分别为真实的目标最小包围矩形的宽、高相对于锚框矩形宽、高的比例。

以上四种误差的计算公式中都包含一个重要的参数I_lij，I_lij表征特征金字塔第l层特征图的第i行第j列的位置有无目标。参照图9所示，一个目标物体的中心可能处于特征金字塔不同特征层不同位置所代表的锚框中，该图中的目标物体是一个立方体，该立方体的中心既位于锚框1中，也位于锚框2、3中。本模型规定选择与目标物体的最小包围矩形的IOU最大的锚框作为包含目标物体的锚框。因此，对于一个目标物体，所有特征层的所有位置的锚框只能有一处的I_lij为1。对于图9中的物体，仅有锚框3所代表的I_lij为1，其余锚框所代表的I_lij均为0。若图像中仅包含一个目标物体，则只有一个锚框代表的误差为非0，其余锚框输出的误差为0，不参与误差反传的计算。显然，大多数情况下，图像中的目标物体的数量是较少的，因此，对于一个训练样本，只有少数锚框代表的误差为非0，参与误差反传的计算。

当该深度学习模型执行目标识别与定位任务时，针对目标的每个类别，若某层的某位置的输出概率大于预设阈值，则认为目标属于该类别；当针对一个类别，存在多个位置的输出概率大于预设阈值时，则对多个位置的输出进行非极大值抑制，具体包括以下步骤：

最终，模型输出二维图像中的目标类别及其在该图像中的最小包围矩形，以及该目标在世界坐标系下的位置与姿态。

实施例2

目前，用于类似深度学习模型训练样本的传统获取方法是按照已知位置和已知姿态摆放好目标物体，然后拍摄目标物体照片，人工标注图像中目标物体的最小包围矩形，最后将目标物体的空间位置、旋转角度、人工标注的最小包围矩形、物体分类以及图像一起作为训练样本加入训练样本集中。该方法的优点是数据最为真实，缺点是获取样本的速度慢。由于本发明提出的深度学习模型包含信息量大，需要大量不同位置、不同姿态的物体照片作为训练样本。若使用该方法获取训练样本，将会耗费大量时间。

因此，本发明还提供一种基于上述深度学习模型的训练样本获取方法，包括以下步骤：

步骤B5，已知的目标的类别、在世界坐标系中的位置和姿态信息、目标在该虚拟图像中的最小包围矩形，以及对应的虚拟图像即构成该深度学习模型的一个训练样本。

通过上述方法，只需要有物体矢量图，就可以快速获得大量包含位置、姿态信息的训练样本，解决了本发明提出的深度学习模型，训练样本难以快速获得的不足。

显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域及相关领域的普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

Claims

1.一种用于目标定位和姿态估计的深度学习模型，其特征在于，向该深度学习模型输入二维图像，输出二维图像中目标物体的类别及其在该图像中的最小包围矩形，以及该目标物体在世界坐标系下的位置与姿态；

该深度学习模型主要由多层特征提取模块和对应于每层特征提取模块的空间定位模块组成；特征提取模块提取图像信息形成特征图金字塔；空间定位模块为每层特征图中的每个点生成一个虚拟锚框，并输出该虚拟锚框中目标物体在二维图像中的最小包围矩形信息，该目标物体在世界坐标系下的位置信息与姿态信息，以及该目标物体的类别概率信息。对该深度学习模型进行训练时，根据训练数据中目标物体在二维图像中的中心位置以及与锚框的重叠程度，选择重叠度高的锚框输出进行训练。

该深度学习模型执行目标定位和姿态估计任务时，空间定位模块为每层特征图中的每个点形成多个输出，其中包括中心在该点代表的锚框内的目标物体在二维图像中的最小包围矩形信息，该目标物体在世界坐标系下的位置信息与姿态信息，以及该目标物体的类别概率信息。选择所有特征图的所有位置的类别输出中属于任一类别概率超过预设阈值的输出，进行非极大值抑制后，作为整个模型的最终输出，该输出代表模型从输入的二维图像中识别出的目标物体信息。

2.根据权利要求1所述的用于目标定位和姿态估计的深度学习模型，其特征在于，最小包围矩形信息包括目标在原始图像中的中心位置相对于锚框矩形中心位置的偏移量和目标在图像中的最小包围矩形相对于锚框矩形的高和宽的比例的对数函数值；

目标的位置信息为目标物体在世界坐标系下的X、Y、Z轴坐标，目标的姿态信息为目标物体相于世界坐标系X、Y、Z轴的旋转角度；目标的类别概率信息为经过softmax函数输出的目标为某个类别的概率。

3.根据权利要求2所述的用于目标定位和姿态估计的深度学习模型，其特征在于，每层特征提取模块由多个特征提取单元构成。

4.根据权利要求1-3任意一项所述的用于目标定位和姿态估计的深度学习模型，其特征在于，空间定位模块由最小包围矩形运算单元、空间位置运算单元、旋转角度运算单元和分类概率运算单元构成，每个运算单元通过神经网络对每层特征图进行运算，得到与该层特征图维度相同的多通道输出，包括4通道的最小包围矩形信息输出、3通道的空间位置信息输出、3通道的旋转角度信息输出、N通道的分类概率信息输出。

5.根据权利要求4所述的用于目标定位和姿态估计的深度学习模型，其特征在于，当对该深度学习模型进行训练时，该深度学习模型的总误差L＝λ_RL_R+λ_PL_P+λ_CL_C+λ_BL_B，其中L_R为旋转角度误差，L_P为空间位置误差，L_C为分类误差，L_B为最小包围矩阵误差，λ_R、λ_P、λ_C、λ_B分别为旋转角度误差、空间位置误差、分类误差、最小包围矩阵误差在总误差中的占比，均为该深度学习模型的超参数。

6.根据权利要求1所述的用于目标定位和姿态估计的深度学习模型，其特征在于，当执行目标定位和姿态估计任务时，针对目标的每个类别，若某层的某位置的输出概率大于预设阈值，则认为目标属于该类别；当针对一个类别，存在多个位置的输出概率大于预设阈值时，则对多个位置的输出进行非极大值抑制，得到该模型最终的输出。

7.根据权利要求6所述的用于目标定位和姿态估计的深度学习模型，其特征在于，针对一个类别的多个位置的输出进行非极大值抑制包括以下步骤：

8.一种用于权利要求1所述的深度学习模型的训练样本获取方法，其特征在于，包括以下步骤：