CN110047101A - 物体姿态估计方法、获得稠密深度图像的方法、相应装置 - Google Patents
物体姿态估计方法、获得稠密深度图像的方法、相应装置 Download PDFInfo
- Publication number
- CN110047101A CN110047101A CN201810036473.5A CN201810036473A CN110047101A CN 110047101 A CN110047101 A CN 110047101A CN 201810036473 A CN201810036473 A CN 201810036473A CN 110047101 A CN110047101 A CN 110047101A
- Authority
- CN
- China
- Prior art keywords
- image
- deep learning
- feature
- learning network
- estimated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
提供一种物体姿态估计方法、获得稠密深度图像的方法、相应装置。所述物体姿态估计方法,包括:获取待估计物体对应的二维(2D)图像;提取待估计物体对应的2D图像的全局视觉特征和/或局部几何特征;根据提取的所述全局视觉特征和/或局部几何特征,对所述待估计物体进行三维(3D)姿态估计。
Description
技术领域
本发明涉及图像处理技术领域,具体而言,本发明涉及物体姿态估计方法、获得稠密深度图像的方法、相应装置。
背景技术
在增强现实场景中,需要使用稠密深度图像来确定虚拟内容的位置、呈现方式,以便为用户提供更接近现实的增强现实场景。稠密指物体图像区域的每个像素都具有深度估计值。
获取稠密深度图像的一种方式是使用特定传感器(如深度传感器)来获取稠密深度图像。该方法的局限是需要特殊的硬件传感器,并且测量深度所需的结构光源需要消耗能量,降低了设备的使用时间。此外,由于结构光无法照射到远距离物体且受到太阳等强烈光线的影响,基于特定传感器的方法只适用于室内场景,使用场景非常局限。
获取稠密深度图像的另一种现有的方式是通过移动相机来获取多幅图像,利用多视角图像的信息融合计算深度图像。这种技术要求用户做出运动,操作繁琐,降低了用户体验。
由于上述问题,需要对现有方法进行改善,以更便捷的获得稠密深度图像。
发明内容
针对现有技术的问题,本发明提出了以下的解决方案:
本发明提出可以从单幅二维(2D,Two Dimensional)图像中提取全局视觉特征和/或局部几何特征,根据提取的特征估计物体的三维(3D,Three Dimensional)姿态,进而还可以根据物体3D姿态得到稠密深度图像。本发明提供的上述方法无需使用特定传感器(如深度传感器),也无需用户移动相机获得多幅图像,只需使用容易获取的单幅2D图像即可获得稠密深度图像,极大提高了获得稠密深度图像的便捷性。
本发明还提出,可以使用深度学习网络提取全局视觉特征和/或局部几何特征。在训练深度学习网络时,不仅可以使用2D图像进行训练,还可以同时使用2D图像对应的深度信息或3D体素信息进行训练。训练得到的深度学习网络,由于利用了2D图像和深度信息(或3D体素信息)作为指导信息,因此提取出的特征的分辨性较高、鲁棒性更高。
通过在训练过程中使用特征逼近策略,训练得到的网络模型可以仅使用单幅2D图像估计物体的3D姿态信息,但是可以达到与同时使用2D图像和深度信息(或3D体素信息)相近的性能,提高了物体姿态估计的准确性。
本发明提出在估计物体3D姿态时,提取图像的全局视觉特征,根据全局视觉特征进行物体3D姿态的估计,并进一步获得稠密深度图像。
本发明提出在估计物体3D姿态时,提取图像的局部几何特征,根据局部几何特征进行物体3D姿态的估计,并进一步获得稠密深度图像。
本发明提出在估计物体3D姿态时,还可以同时提取全局视觉特征和局部的几何特征,结合这两个特征一起进行物体3D姿态的估计,并进一步获得稠密深度图像。
通过该方法可以从单幅图像中得到稠密深度图像,得到的稠密深度图像可用于增强现实应用场景中显示高真实感的虚拟图像,也可以用于自动驾驶等其他需要深度图像的应用。
具体地,根据本发明的一个方面,提供一种物体姿态估计方法,包括:获取待估计物体对应的2D图像;提取待估计物体对应的2D图像的全局视觉特征和/或局部几何特征;根据提取的所述全局视觉特征和/或局部几何特征,对所述待估计物体进行3D姿态估计。
所述局部几何特征为表征物体局部关键部件或关键点的特征。
其中,提取待估计物体对应的2D图像的全局视觉特征和/或局部几何特征,包括:通过第一深度学习网络,提取待估计物体对应的2D图像的全局视觉特征;和/或通过第二深度学习网络,提取待估计物体对应的2D图像的局部几何特征。
其中,所述第一深度学习网络通过如下方式训练得到:根据输入的2D图像和2D图像对应的深度信息训练得到第三深度学习网络;根据输入的2D图像以及第三深度学习网络,通过第一特征逼近策略,训练得到第一深度学习网络。
其中,通过第一特征逼近策略,训练得到第一深度学习网络,包括:在损失函数中设定第一辅助损失项,所述第一辅助损失项为第一深度学习网络的特征与第三深度学习网络的特征的差值函数;通过所述第一辅助损失项,对第一深度学习网络进行训练,使第一深度学习网络的特征逼近第三深度学习网络的特征。
其中,所述第二深度学习网络通过如下方式训练得到:根据输入的2D图像和2D图像对应的3D体素信息训练得到第四深度学习网络;根据输入的2D图像以及第四深度学习网络,通过第二特征逼近策略,训练得到第二深度学习网络。
其中,通过第二特征逼近策略,训练得到第二深度学习网络,包括:在损失函数中设定第二辅助损失项,所述第二辅助损失项为第二深度学习网络的特征与第四深度学习网络的特征的差值函数;通过所述第二辅助损失项,对第二深度学习网络进行训练,使第二深度学习网络的特征逼近第四深度学习网络的特征。
其中,获取待估计物体对应的2D图像,包括:将待处理2D图像进行物体区域分割,得到待估计物体对应的2D图像。
根据本发明的另一个方面,提供一种通过上述物体姿态估计方法获得稠密深度图像的方法,包括:根据2D图像中待估计物体的3D姿态,确定所述待估计物体对应的稠密深度图像;根据待处理2D图像中各待估计物体对应的稠密深度图像,确定所述待处理2D图像对应的稠密深度图像。
根据本发明的另一个方面,提供一种物体姿态估计装置,包括:图像获取模块,用于获取待估计物体对应的二维2D图像;特征提取模块,用于提取待估计物体对应的2D图像的全局视觉特征和/或局部几何特征;姿态估计模块,用于根据提取的所述全局视觉特征和/或局部几何特征,对所述待估计物体进行三维3D姿态估计。
其中,所述局部几何特征为表征物体局部关键部件或关键点的特征。
其中,特征提取模块包括:通过第一深度学习网络提取待估计物体对应的2D图像的全局视觉特征的组件;和/或通过第二深度学习网络提取待估计物体对应的2D图像的局部几何特征的组件。
其中,所述第一深度学习网络通过如下组件训练得到:根据输入的2D图像和2D图像对应的深度信息训练得到第三深度学习网络的组件;根据输入的2D图像以及第三深度学习网络通过第一特征逼近策略训练得到第一深度学习网络的组件。
其中,通过第一特征逼近策略训练得到第一深度学习网络的组件包括:在损失函数中设定第一辅助损失项的组件,所述第一辅助损失项为第一深度学习网络的特征与第三深度学习网络的特征的差值函数;以及通过所述第一辅助损失项对第一深度学习网络进行训练使第一深度学习网络的特征逼近第三深度学习网络的特征的组件。
其中,所述第二深度学习网络通过如下组件训练得到:根据输入的2D图像和2D图像对应的3D体素信息训练得到第四深度学习网络的组件;根据输入的2D图像以及第四深度学习网络通过第二特征逼近策略训练得到第二深度学习网络的组件。
其中,通过第二特征逼近策略训练得到第二深度学习网络的组件包括:在损失函数中设定第二辅助损失项的组件,所述第二辅助损失项为第二深度学习网络的特征与第四深度学习网络的特征的差值函数;通过所述第二辅助损失项对第二深度学习网络进行训练使第二深度学习网络的特征逼近第四深度学习网络的特征的组件。
其中,图像获取模块包括:将待处理2D图像进行物体区域分割得到待估计物体对应的2D图像的组件。
根据本发明的另一个方面,提供一种通过上述物体姿态估计装置获得稠密深度图像的装置,包括:分图像确定模块,用于根据2D图像中待估计物体的3D姿态,确定所述待估计物体对应的稠密深度图像;总图像确定模块,用于根据待处理2D图像中各待估计物体对应的稠密深度图像,确定所述待处理2D图像对应的稠密深度图像。
附图说明
通过结合附图对示范性实施例的以下描述,上述和/或其他方面将变得明显且更加易于理解,其中:
图1是根据本发明的以第一深度学习网络为GAppNet、第二深度学习网络为LGeoNet为例的获得物体3D姿态的流程图;
图2是根据本发明的物体姿态估计的简略流程图;
图3是根据本发明的基于深度学习的全局视觉特征的训练流程,其中得到提取图像全局视觉特征的网络模型;
图4是根据本发明的基于深度学习的局部几何特征的训练流程,其中得到提取图像局部几何特征的网络模型;
图5是根据本发明的基于深度学习的训练GAppNet的流程(以VGG16模型为例);
图6是根据本发明的基于深度学习的训练LGeoNet的流程图(以VGG16模型为例);
图7是根据本发明的通过仅提取基于深度学习的全局视觉特征进行姿态估计的流程图(以VGG16模型为例);
图8是根据本发明的通过仅提取基于深度学习的局部几何特征进行姿态估计的流程图(以VGG16模型为例);
图9是根据本发明的通过结合基于深度学习的全局视觉特征和基于深度学习的局部几何特征进行姿态估计的流程图(以VGG16模型为例);
图10是根据本发明的基于物体的3D姿态生成深度图像的流程图;
图11是根据本发明的物体姿态估计装置的框图;以及
图12是根据本发明的获得稠密深度图像的装置的框图。
具体实施方式
现将详细描述本发明的示例性实施例,所述实施例的示例在附图中示出,其中,相同的标号指示相同的部分。以下将通过参照附图来说明所述实施例,以便解释本发明。
针对背景技术部分说明的获取稠密深度图像的上述两种方式,本发明提出,可以不依靠特定传感器或多幅图像,只使用单幅2D图像作为输入,从单幅图像中估计出物体的3D姿态,然后根据物体的3D姿态进一步得到稠密深度图像。
物体的3D姿态估计是计算物体相对于相机或人的6个自由度的角度信息,可分解为平移矩阵T和旋转矩阵R。其中6个自由度分别为方位角a、仰角e、平面旋转角θ、深度d、以及物体的主点(u,v)。其中方位角a、仰角e、平面旋转角θ构成了旋转矩阵R,方位角a、仰角e、深度信息d构成了平移矩阵T。平移矩阵和旋转矩阵构成了相机的外部参数,物体主点(u,v),焦距f,视窗大小α构成了相机的内部参数。
从单幅2D图像估计物体3D姿态存在若干难点,例如:同一物体的图像在视觉上可能有很大的差异性(从正面和背面看到的同一张椅子完全不同)。此外,物体在图像中有可能被其它物体所遮挡,也可能图像只包含物体的一部分(物体被图像截断)。如果能够解决上述问题,就可以得到更高精度的物体3D姿态,从而能够更加满足增强现实场景下的需求。
由于上述问题,需要对现有方法进行改善以获得更高准确度的物体3D姿态估计以及稠密深度图像。
以下,将参照附图详细描述本发明的改进方法及装置。
根据本发明的通过提取图像特征获得物体3D姿态的方法,可以通过仅提取全局视觉特征、仅提取局部几何特征或者提取全局视觉特征和局部几何特征二者来获得3D物体姿态。
所谓全局视觉特征是从整幅图像(彩色图像或灰度图像)中提取的特征,可以表示物体的整体特性。所谓局部几何特征,是指可以表征物体局部关键部件或关键点的特征,以汽车为例,包含有左前车轮、右前车轮、左后车轮、右后车轮、前照灯、车门等关键部件。局部几何特征可以区分物体在被遮挡或截断时的差异性。
由于在实际的图像中物体的不同姿态通常具有很大差异,且物体在图像中会出现遮挡或截断现象,全局视觉特征不能体现出物体的局部特征,因此当物体被遮挡、截断的情形下,局部几何特征能够更好地反映出物体的姿态,在该情形下,局部几何特征更鲁棒,能够有效地提高物体姿态估计的准确性。
如果将全局视觉特征和局部的几何特征结合起来进行姿态估计,不仅能反映出物体的整体特征,也能反映出物体局部特性,因此能够组合起来成为更鲁棒、更具区分性的特征,使得物体的3D姿态估计的准确性更高。
本发明提供一种物体姿态估计方法,包括如下步骤:
在步骤00,获取待估计物体对应的2D图像;
在步骤02,提取待估计物体对应的2D图像的全局视觉特征和/或局部几何特征;
在步骤04,根据提取的全局视觉特征和/或局部几何特征,对待估计物体进行3D姿态估计。
其中,步骤00进一步包括:将待处理2D图像进行物体区域分割,得到待估计物体对应的2D图像。
其中,步骤02进一步包括:
通过第一深度学习网络,提取待估计物体对应的2D图像的全局视觉特征;和/或
通过第二深度学习网络,提取待估计物体对应的2D图像的局部几何特征。
在步骤04中,如果步骤02提取的特征为全局视觉特征和局部几何特征,则可以将提取的全局视觉特征和局部几何特征进行特征组合,得到组合后的图像特征,根据组合后的图像特征,对待估计物体进行3D姿态估计。其中,可以将组合后的图像特征输入到后续网络中,得到物体3D姿态。
在训练第一深度学习网络时,可以将2D图像和深度信息作为指导信息进行训练,具体地,可以先根据输入的2D图像和2D图像对应的深度信息训练得到第三深度学习网络,再根据输入的2D图像以及第三深度学习网络,通过第一特征逼近策略,训练得到第一深度学习网络。其中,可以在损失函数中加入第一辅助损失项,该第一辅助损失项为第一深度学习网络的特征与第三深度学习网络的特征的差值函数,通过加入第一辅助损失项,对第一深度学习网络进行训练,使第一深度学习网络的特征逼近第三深度学习网络的特征。
在训练第二深度学习网络时,可以将2D图像和3D体素信息作为指导信息进行训练,具体的,先根据输入的2D图像和2D图像对应的3D体素信息训练得到第四深度学习网络,根据输入的2D图像以及第四深度学习网络,通过第二特征逼近策略,训练得到第二深度学习网络。其中,可以在损失函数中加入第二辅助损失项,第二辅助损失项为第二深度学习网络的特征与第四深度学习网络的特征的差值函数,通过加入所述第二辅助损失项,对第二深度学习网络进行训练,使第二深度学习网络的特征逼近第四深度学习网络的特征。
通过上述方式训练得到的第一深度学习网络和第二深度学习网络,在实际在线测试过程中,可以仅使用单幅2D图像提取图像特征并估计物体的3D姿态信息,但是可以达到与同时使用2D图像和深度信息(或3D体素信息)相近的性能,提高了物体姿态估计的准确性。
图1是以第一深度学习网络为GAppNet、第二深度学习网络为LGeoNet为例的获得物体3D姿态的流程图。图1中示出了结合全局视觉特征和局部几何特征获取物体3D姿态的方法。
如图1所示,根据本发明的提取图像特征获得3D物体姿态的方法的具体步骤如下:
在步骤10,输入2D图像,经过深度学习网络GAppNet得到图像的全局视觉特征。2D图像可以为彩色图像或灰度图像。
在步骤12,输入2D图像,经过深度学习网络LGeoNet得到图像的局部几何特征。
在步骤14,将经过LGeoNet网络卷积后的局部几何特征和经过GAppNet网络卷积后的全局视觉特征结合起来,即进行特征组合,得到最终的图像特征f,作为后续网络的输入。
在步骤16,将得到的图像特征f作为后续网络的输入,即经过作为后续网络的一个或多个全连接层进行处理。
最后,在步骤18根据图像特征f输出最终的物体3D姿态。
通常,用于估计物体姿态的深度学习网络结构至少包括输入层、隐藏层和输出层,其中隐藏层的最后一层是一个全连接层,作为特征提取层。本发明的物体姿态估计的流程如图2所示,图2是根据本发明的物体姿态估计的简略流程图。
在图2中,在步骤20,输入彩色(或灰度)图像数据,如输入RGB图像,对应深度学习网络结构的输入层;
在步骤22,提取图像特征f,对应深度学习网络结构的隐藏层;
在步骤24,根据图像特征f估计出物体的3D姿态信息,对应深度学习网络结构的输出层。
深度学习是一种包含多个隐含层的感知器,它使用底层特征形成高层特征,并使用更加抽象的高层特征表示类别,从而最终提升分类或预测的准确性。卷积神经网络因其局部子采样、全局训练、共享权值等特点,已成功应用到手写字体识别、人脸检测等相关研究中,并表现出良好的抗干扰能力,对光线变化、前景遮挡均有较高的鲁棒性。为此,本发明同样采用深度学习方法进行特征的学习和提取。图3是根据本发明的提取全局视觉特征的深度学习网络(上述第一深度学习网络)的训练流程;图4是根据本发明的提取局部几何特征的深度学习网络(上述第二深度学习网络)的训练流程。其中通过图3训练获得的网络模型来提取图像的全局视觉特征,通过图4训练获得的网络模型来提取图像的局部几何特征,图3、4分别示出获取用于提取全局视觉特征和局部几何特征的网络模型的功能步骤组成。
如图3所示,在训练时,首先训练深度学习网络CDNet(对应上述第三深度学习网络),输入为图像数据,图像数据既包含彩色(或灰度)通道(如RGB图像),也包含深度通道(如深度图像)。其中,有关物体的图像数据与对应的深度数据要具有一致的姿态信息。在步骤30-1,图像数据经过若干个卷积层、激活函数层(未示出)、池化层(未示出)操作,然后在步骤32-1,再接入若干个全连接层,得到特征fcd,最后在步骤34-1,输出物体的3D姿态信息,得到网络模型Modelcd。
然后训练深度学习网络网络GAppNet(对应上述第一深度学习网络),输入的图像数据仅包含为彩色(或灰度)通道(即2D图像),图像数据同样在步骤30-2经过若干个卷积层、激活函数层(未示出)、池化层(未示出)操作,得到经过卷积变换后的图像特征,然后经过卷积后的图像特征在步骤32-2再接入若干个全连接层,得到特征fc,最后在步骤34-2输出物体的3D姿态信息,得到网络模型ModelGApp。
在深度学习网络GAppNet的训练过程中要采取特征逼近的策略,所谓特征逼近策略,指的是使一个网络输出的特征与另一个网络输出的特征尽可能的一致。在本发明GAppNet网络的训练中,特征逼近策略是使通过网络模型ModelGApp得到的特征尽可能与通过网络模型Modelcd得到特征一致。
具体而言,在深度网络GAppNet训练时,利用已经训练好的网络模型Modelcd监督GAppNet网络的训练过程,即在损失函数中添加一个辅助损失项:losscd=fc-fcd。由此,通过网络模型ModelGApp得到的特征会不断地逼近通过网络模型Modelcd得到的特征。由于网络模型Modelcd用到了彩色和深度的双重数据,因此在加入辅助损失项losscd后,可以使网络模型ModelGApp隐性地学习深度信息,增加学习特征的分辩性和鲁棒性。
通过图4训练获取图像的局部几何特征的深度学习网络,与图3的训练方法类似,同样采取了特征逼近的策略。
如图4所示,首先训练深度学习网络VolNet(对应上述第四深度学习网络),在步骤40-1输入从3D模型数据库生成的3D Voxel(体素)数据,3D体素数据是一种3D深度数据,然后在步骤42-1经过若干个卷积层、激活函数层(未示出)、池化层(未示出)操作,得到特征fvol,然后在步骤44-1再接入若干个反卷积层,最后在步骤46-1输出物体的关键部件信息,得到网络模型Modelvol。
然后训练深度学习网络LGeoNet,在步骤40-2从3D模型数据库输入彩色或灰度图像(如RGB图像),同样,在步骤42-2经过若干个卷积层、激活函数层(未示出)、池化层(未示出)操作,得到特征fLGeo,然后在步骤44-2再接入若干个反卷积层,最后在步骤46-2输出物体的关键部件信息,得到网络模型ModelLGeo。
在LGeoNet网络的训练过程中同样要采取特征逼近的策略,即要参考已经训练好的网络模型Modelvol,使网络模型ModelLGeo得到的特征尽可能与网络模型Modelvol得到特征一致。
具体而言,在网络训练时,利用已经训练好的网络模型Modelvol监督LGeoNet网络的训练过程,即在损失函数中添加一个辅助损失项:lossLGeo=fLGeo-fvol。由此,网络模型ModelLGeo得到的特征会不断地逼近网络模型Modelvol得到的特征。由于网络模型Modelvol用到了作为3D深度数据的3D体素数据,因此在加入辅助损失项lossLGeo后,可以使网络模型ModelLGeo隐性地学习深度信息,增加局部几何特征的表达能力。
通过已训练好的网络模型ModelGApp和网络模型ModelLGeo,输入有关物体的单幅图像,提取出图像的全局视觉特征和/或局部几何特征,通过全局视觉特征和/或局部几何特征进行物体的3D姿态估计。
本发明的实施例可以基于卷积神经网络对物体姿态进行分类或回归。输入信息包含彩色通道、深度通道和3D体素数据,并利用特征逼近的策略,增强彩色图像的特征表达能力。其中网络结构可以采用多种模型,本发明以VGG16模型(一种非常经典的深度学习网络结构)为例进行说明,VGG16模型包含16个隐含层,其中前面13个为卷积层,每个卷积层后连着一个激活函数层(未示出)和一个池化层(未示出),后面三个为全连接层,其中前两个全连接层后面分别连着一个激活函数层(未示出)和一个Dropout层(未示出),最后一个全连接层为输出层,输出估计出的物体3D姿态。
图5是根据本发明的基于深度学习的训练GAppNet的流程(以VGG16模型为例);图6是根据本发明的基于深度学习的训练LGeoNet的流程图(以VGG16模型为例)。通过图5的方法来使用彩色信息和深度信息训练深度学习网络模型,用来估计物体的3D姿态。通过图6的方法来使用彩色信息和3D Voxel训练深度学习网络模型,分割物体的关键部件,用来估计物体的3D姿态。其中,通过图5训练的网络模型获得图像的全局视觉特征,通过图6训练的网络模型获得图像的局部几何特征,图5、6分别示出训练获取全局视觉特征和局部几何特征的网络模型的功能步骤组成。
如图5所示,首先训练CDNet,具体步骤如下:
在步骤50-1,图像的彩色和深度数据经过13层的卷积操作得到图像的卷积特征fcd_5_3。其中,输入数据大小为[64,4,224,224],其中64为批大小,4为通道数,含有红、绿、蓝、深度四个通道的数据,224为输入图像的高度和宽度。卷积核大小为3×3,步长设定为1,边缘扩充值为1,卷积核与输入数据进行卷积运算,输出的通道数为当前卷积核的神经元个数。由于进行了边缘扩充,卷积操作不改变特征图的大小。经过卷积操作后的特征图经过非线性激活函数relu函数处理,relu函数的计算公式为max(0,x),使用relu函数可减少反向传播时误差梯度的计算量,同时可增加网络的稀疏行,减少参数的相互依存关系,缓解过拟合问题的发生。Relu层既不改变特征图大小也不改变特征图个数。池化层即为下采样层,设定池化窗口大小为2×2,池化步长为2,对图片进行无重叠的最大值池化操作,池化操作只改变特征图大小,不改变特征图个数,每经过一次池化操作,特征图变为原来的四分之一大小。分别在经过2次、4次、7次、10次、13层卷积操作时,进行池化操作,经过5次池化操作,特征图宽高变为输入图像的1/32大小。
在步骤52-1,经过卷积操作后的特征fcd_5_3再进行两层的全连接层操作,两层全连接层操作后的特征图经非线性激活函数relu函数处理后进行dropout操作,丢弃数据概率设置为0.5,设置dropout层的主要作用是防止过拟合现象的出现。最后得到图像特征fcd_7,图像特征fcd_7对应图3中的fcd。
在步骤54-1,图像特征fcd_7再经过一层全连接层操作,输出最终的3D姿态信息。
如图5所示,接着训练GAppNet,具体步骤如下:
在步骤50-2,对彩色图像进行13层的卷积层操作,得到经过卷积操作后的图像特征fc_5_3。其中,输入数据大小为[64,3,224,224],其中64为批大小,3为通道数,含有红、绿、蓝三个通道的数据,224为输入图像的高度和宽度。卷积核大小为3×3,步长设定为1,边缘扩充值为1,卷积核与输入数据进行卷积运算,输出的通道数为当前卷积核的神经元个数。经过卷积操作后的特征图经过非线性激活函数relu函数处理,分别在经过2次、4次、7次、10次、13层卷积操作时,对特征图进行下采样,设定池化窗口大小为2×2,池化步长为2,对图片进行无重叠的最大值池化操作。
在步骤52-2,对步骤50-2中卷积得到的特征fc_5_3进行两层的全连接层操作,全连接层操作后的特征图经非线性激活函数relu函数处理后进行dropout操作,丢弃数据概率设置为0.5。最后得到图像特征fc_7,对应图3中的图像特征fc。
在步骤54-2,图像特征fc_7再经过一层全连接层操作,输出最终的3D姿态信息。
在网络GAppNet训练的过程中采取特征逼近的策略,即使网络结构GAppNet得到的图像特征fc_7与网络结构CDNet得到的图像特征fcd_7尽可能的一致。为此,在损失函数添加一个辅助损失项,losscd=fc_7-fcd_7,使网络在训练时,图像特征fc_7不断的逼近fcd_7。在这步的训练过程中,网络模型Modelcd的参数是不变的,其仅用于辅助GAppNet网络的训练。
如图6所示,首先训练VolNet,具体步骤如下:
在步骤60-1,从3D模型数据库中生成3D Voxel数据。
在步骤62-1,对生成的3D Voxel数据进行13层的卷积操作,得到特征fvol。其中,输入数据大小为[64,n,224,224],其中64为批大小,n为3D voxel数据的通道数,224为输入数据的高度和宽度。卷积核大小为3×3,步长设定为1,边缘扩充值为1,卷积核与输入数据进行卷积运算,输出的通道数为当前卷积核的神经元个数。经过卷积操作后的特征图经过非线性激活函数relu函数处理,分别在经过2次、4次、7次、10次、13层卷积操作时,对特征图进行下采样,设定池化窗口大小为2×2,池化步长为2,对图片进行无重叠的最大值池化操作。
在步骤64-1,对特征fvol进行若干反卷积操作,输出物体的关键部件信息。反卷积又被称为转置的卷积,利用反卷积可实现图像的上采样。经过反卷积操作,在步骤66-1输出与输入图像相同宽度和高度的物体关键部件信息。
如图6所示,接着训练LGeoNet,具体步骤如下:
在步骤60-2,从3D模型数据库中生成彩色图像数据,生成的彩色图像与对应的3DVoxel数据要具有一致的姿态信息。
在步骤62-2,对生成的彩色图像进行13层的卷积操作,得到图像局部几何特征fLGeo。其中,输入数据大小为[64,3,224,224],其中64为批大小,3为通道数,含有红、绿、蓝三个通道的数据,224为输入图像的高度和宽度。卷积核大小为3×3,步长设定为1,边缘扩充值为1,卷积核与输入数据进行卷积运算,输出的通道数为当前卷积核的神经元个数。经过卷积操作后的特征图经过非线性激活函数relu函数处理,分别在经过2次、4次、7次、10次、13层卷积操作时,对特征图进行下采样,设定池化窗口大小为2×2,池化步长为2,对图片进行无重叠的最大值池化操作。
在步骤64-2,对特征fLGeo进行若干反卷积操作,在步骤66-2输出物体的关键部件信息。
在网络LGeoNet训练的过程中采取特征逼近的策略,即使网络结构LGeoNet得到的图像特征fLGeo与网络结构VolNet得到的图像特征fvol尽可能的一致。为此,在损失函数中添加一个辅助损失项,lossLGeo=fLGeo-fvol,使网络在训练时,图像特征fLGeo不断的逼近fvol。在这步的训练过程中,网络模型Modelvol的参数是不变的,其仅用于辅助LGeoNet网络的训练。
在实际应用中,针对网络的总体训练,可以仅使用基于深度学习的GAppNet网络提取图像的全局视觉特征,进行物体的3D姿态估计,也可以仅使用基于深度学习的LGeoNet网络提取图像的局部几何特征,进行物体的3D姿态估计,或者将两者结合起来进行物体的3D姿态估计。
仅使用基于深度学习的GAppNet网络进行物体姿态估计时,由于输出层即为物体的3D姿态,故不需要额外的训练。如图7所示,图7是根据本发明的仅基于深度学习提取的全局视觉特征进行姿态估计的流程图(以VGG16模型为例),具体步骤如下:
在步骤70,输入彩色图像,根据已经训练好的基于深度学习的网络模型GAppNet得到全局视觉特征fc_7,fc_7作为后续网络的输入,即经过一个全连接层,输出物体的3D姿态。
仅使用基于深度学习的LGeoNet网络进行物体姿态估计时,由于网络结构的输出层为物体的关键部件或关键点,所以需要进一步的训练,以达到估计物体姿态的目的。如图8所示,图8是根据本发明的仅基于深度学习提取的局部几何特征进行姿态估计的流程图(以VGG16模型为例),具体步骤如下:
在步骤80,输入彩色图像,通过13层的卷积操作训练基于深度学习的网络模型LGeoNet,并通过训练好的基于深度学习的网络模型LGeoNet得到局部几何特征fLGeo。
在步骤82,局部几何特征fLGeo作为后续网络的输入,即经过三个全连接层,最后在步骤84输出物体的3D姿态。
在此训练过程中,提取局部几何特征的网络结构的学习率为0,即网络参数不变,其仅用于辅助LGeoNet网络的训练。
结合基于深度学习提取的图像的全局视觉特征和局部几何特征进行物体的姿态估计时,由于需要将两种特征合成一种新的特征,故需要进一步的训练,以估计物体的3D姿态。如图9所示,图9是根据本发明的结合基于深度学习的全局视觉特征和基于深度学习的局部几何特征进行姿态估计的流程图(VGG16为例)具体步骤如下:
输入彩色图像,然后,分别在步骤90-1、90-2,通过13层的卷积操作训练基于深度学习的网络模型GAppNet和LGeoNet,根据已经训练好的基于深度学习的网络模型GAppNet和LGeoNet分别得到经过卷积操作后的全局视觉特征fc_5_3和局部几何特征fLGeo。
在步骤92,将经过卷积操作后的全局视觉特征fc_5_3和局部几何特征fLGeo相对应的位置的特征相加得到总特征f。
在步骤94,特征f作为后续网络的输入,即经过三个全连接层,最后在步骤96输出物体的3D姿态。
在此训练过程中,提取全局视觉特征和局部几何特征的网络结构卷积层的学习率为0,即网络参数不变,只改变后面三个全连接层的网络参数。
在实际应用中,针对网络在线测试,可以仅使用全局视觉特征,也可以仅使用局部几何特征,或者将两种特征结合起来,用于最终的物体3D姿态估计。
仅使用全局视觉特征进行姿态估计的流程如图7所示,上述步骤细化如下:
在步骤70,输入彩色图像,经过GAppNet得到图像特征fc_7。其中,输入数据大小为[1,3,224,224],其中1为批大小,3为通道数,含有红、绿、蓝三个通道的数据,224为输入图像的高度和宽度,即每次测试一幅图像。
在步骤72,根据特征fc_7,经过一个全连接层,输出物体的3D姿态信息。
仅使用局部几何特征进行姿态估计的流程如图8所示,上述步骤细化如下:
在步骤80,输入彩色图像,经过LGeoNet得到图像特征fLGeo。其中,输入数据大小为[1,3,224,224],其中1为批大小,3为通道数,含有红、绿、蓝三个通道的数据,224为输入图像的高度和宽度,即每次测试一幅图像。
在步骤82、84,局部几何特征fLGeo作为后续网络的输入,经过三个全连接层输出物体的3D姿态信息。
将全局视觉特征和局部几何特征结合起来进行姿态估计的流程如图9所示,上述步骤细化如下:
在步骤90-1、90-2,输入彩色图像,分别经过LGeoNet和GAppNet得到图像特征fLGeo和fc_5_3。其中,输入数据大小为[1,3,224,224],其中1为批大小,3为通道数,含有红、绿、蓝三个通道的数据,224为输入图像的高度和宽度,即每次测试一幅图像。
在步骤92,将经过卷积操作后的全局视觉特征fc_5_3和局部几何特征fLGeo相对应的位置的特征相加得到总特征f。
在步骤94、96,将特征f作为后续网络的输入,最终输出物体的3D姿态信息。
通过本发明估计的物体3D姿态信息,可以计算出深度图像。具体的,可以根据2D图像中待估计物体的3D姿态,确定待估计物体对应的稠密深度图像;根据待处理2D图像中各待估计物体对应的稠密深度图像,确定该待处理2D图像对应的稠密深度图像。
图10是根据本发明的基于物体的3D姿态生成深度图像的流程图,具体步骤如下:
针对获取到的第t帧2D图像:
在步骤1000,在第t帧执行图像分割,将图像分割为不同的物体区域。即,将待处理2D图像进行物体区域分割,形成待估计物体对应的2D图像。
在步骤1002,对每个分割的物体进行3D姿态估计。
在步骤1004,对每一个物体,根据对应的3D模型和估计姿态信息生成稠密的深度图像。
在步骤1006,集合图像中的所有物体的深度图,生成当前图像的稠密深度值。
第t+dt1帧:
在步骤1010,得到相机6个自由度的运动参数。
在步骤1012,检测相机是否运动,如果没有运动,则图像深度图不变,跳转到步骤1019;若有相机运动,则执行步骤1014。
在步骤1014,根据两个视角的三角剖分更新物体的距离。
在步骤1016,得到相机从第t帧到第t+dt1帧的6个自由度的运动参数。
在步骤1018,根据第t帧的物体姿态信息和相机的运动参数,计算当前帧的物体姿态信息。
在步骤1019,根据当前帧的物体姿态,得到当前第t+dt1帧的稠密深度值,生成当前第t+dt1帧的深度图。
第t+dt2帧:
执行步骤1020、1022、1026、1028、1029,对应于步骤1010、1012、1016、1018、1019。
由此可以得到深度图像。
本发明可以使用在增强现实、自动驾驶,家庭智能机器人等领域。根据估计到的3D姿态信息,将对应的3D模型反投影到图像上,获取稠密的深度图像。
图11是根据本发明的物体姿态估计装置的框图。如图11所示,根据本发明的物体姿态估计装置包括图像获取模块1101、特征提取模块1103、姿态估计模块1105。
在图像获取模块1101,获取待估计物体对应的二维(2D)图像;在特征提取模块1103,提取待估计物体对应的2D图像的全局视觉特征和/或局部几何特征;在姿态估计模块1105,根据提取的所述全局视觉特征和/或局部几何特征,对所述待估计物体进行3D姿态估计。
图12是根据本发明的获得稠密深度图像的装置的框图。如图12所示,根据本发明的获得稠密深度图像的装置包括分图像确定模块1201,总图像确定模块1203。
分图像确定模块1201根据通过图11的物体姿态估计装置而得到的2D图像中待估计物体的3D姿态,确定所述待估计物体对应的稠密深度图像;总图像确定模块1203,根据待处理2D图像中各待估计物体对应的稠密深度图像,确定所述待处理2D图像对应的稠密深度图像。
通过特征逼近学习的策略,可以使深度学习网络GAppNet学习到类似于网络结构CDNet的特征,使深度学习网络LGeoNet学习到类似于网络结构VolNet的特征。由于网络模型CDNet和VolNet使用了图像的深度信息(或3D体素信息),故该方法隐性地学习了图像的深度特征,使学习到的特征更鲁棒、更具有区分性。而网络结构GAppNet和LGeoNet均是以彩色(或灰度)图像作为输入,所以在实际预测时,使用本发明的技术,可以从单幅图像中估计出物体的3D姿态信息,且可以达到与同时使用图像和深度数据相近的结果。另外,在实际测试时,既可以将两种特征组合起来,也可以两种特征单独使用,用于物体的3D姿态估计。
为了便于理解示范性实施例,已经描述并在附图中示出根据本发明的基于单幅彩色(或灰度)图像得到物体的姿态及稠密深度图像的方法的某些示范性实施例。然而,应当理解,这些示范性实施例仅仅意在例示示范性实施例,而非限制示范性实施例。还应当理解,示范性实施例不限于图示和描述的示范性实施例。本领域普通技术人员可以对示范性实施例进行各种修改。
Claims (11)
1.一种物体姿态估计方法,包括:
获取待估计物体对应的二维2D图像;
提取待估计物体对应的2D图像的全局视觉特征和/或局部几何特征;
根据提取的所述全局视觉特征和/或局部几何特征,对所述待估计物体进行三维3D姿态估计。
2.如权利要求1所述的方法,所述局部几何特征为表征物体局部关键部件或关键点的特征。
3.如权利要求1或2所述的方法,提取待估计物体对应的2D图像的全局视觉特征和/或局部几何特征,包括:
通过第一深度学习网络,提取待估计物体对应的2D图像的全局视觉特征;和/或
通过第二深度学习网络,提取待估计物体对应的2D图像的局部几何特征。
4.如权利要求3所述的方法,所述第一深度学习网络通过如下方式训练得到:
根据输入的2D图像和2D图像对应的深度信息训练得到第三深度学习网络;
根据输入的2D图像以及第三深度学习网络,通过第一特征逼近策略,训练得到第一深度学习网络。
5.如权利要求4所述的方法,通过第一特征逼近策略,训练得到第一深度学习网络,包括:
在损失函数中设定第一辅助损失项,所述第一辅助损失项为第一深度学习网络的特征与第三深度学习网络的特征的差值函数;
通过所述第一辅助损失项,对第一深度学习网络进行训练,使第一深度学习网络的特征逼近第三深度学习网络的特征。
6.如权利要求3所述的方法,所述第二深度学习网络通过如下方式训练得到:
根据输入的2D图像和2D图像对应的3D体素信息训练得到第四深度学习网络;
根据输入的2D图像以及第四深度学习网络,通过第二特征逼近策略,训练得到第二深度学习网络。
7.如权利要求6所述的方法,通过第二特征逼近策略,训练得到第二深度学习网络,包括:
在损失函数中设定第二辅助损失项,所述第二辅助损失项为第二深度学习网络的特征与第四深度学习网络的特征的差值函数;
通过所述第二辅助损失项,对第二深度学习网络进行训练,使第二深度学习网络的特征逼近第四深度学习网络的特征。
8.如权利要求1-7中任一项所述的方法,获取待估计物体对应的2D图像,包括:
将待处理2D图像进行物体区域分割,得到待估计物体对应的2D图像。
9.一种通过权利要求1-8任一项的物体姿态估计方法获得稠密深度图像的方法,包括:
根据2D图像中待估计物体的3D姿态,确定所述待估计物体对应的稠密深度图像;
根据待处理2D图像中各待估计物体对应的稠密深度图像,确定所述待处理2D图像对应的稠密深度图像。
10.一种物体姿态估计装置,包括:
图像获取模块,用于获取待估计物体对应的二维2D图像;
特征提取模块,用于提取待估计物体对应的2D图像的全局视觉特征和/或局部几何特征;
姿态估计模块,用于根据提取的所述全局视觉特征和/或局部几何特征,对所述待估计物体进行三维3D姿态估计。
11.一种通过权利要求10的物体姿态估计装置获得稠密深度图像的装置,包括:
分图像确定模块,用于根据2D图像中待估计物体的3D姿态,确定所述待估计物体对应的稠密深度图像;
总图像确定模块,用于根据待处理2D图像中各待估计物体对应的稠密深度图像,确定所述待处理2D图像对应的稠密深度图像。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810036473.5A CN110047101A (zh) | 2018-01-15 | 2018-01-15 | 物体姿态估计方法、获得稠密深度图像的方法、相应装置 |
KR1020180070334A KR102718665B1 (ko) | 2018-01-15 | 2018-06-19 | 객체 자세 추정 방법 및 장치 |
US16/161,243 US10885659B2 (en) | 2018-01-15 | 2018-10-16 | Object pose estimating method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810036473.5A CN110047101A (zh) | 2018-01-15 | 2018-01-15 | 物体姿态估计方法、获得稠密深度图像的方法、相应装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110047101A true CN110047101A (zh) | 2019-07-23 |
Family
ID=67272778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810036473.5A Pending CN110047101A (zh) | 2018-01-15 | 2018-01-15 | 物体姿态估计方法、获得稠密深度图像的方法、相应装置 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR102718665B1 (zh) |
CN (1) | CN110047101A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110728222A (zh) * | 2019-09-30 | 2020-01-24 | 清华大学深圳国际研究生院 | 一种用于机械臂抓取系统中目标物体的位姿估计方法 |
CN110956656A (zh) * | 2019-12-17 | 2020-04-03 | 北京工业大学 | 一种基于深度目标检测的纺锤定位方法 |
CN111126269A (zh) * | 2019-12-24 | 2020-05-08 | 京东数字科技控股有限公司 | 三维目标检测方法、装置以及存储介质 |
CN111489394A (zh) * | 2020-03-16 | 2020-08-04 | 华南理工大学 | 物体姿态估计模型训练方法、系统、装置及介质 |
CN111629194A (zh) * | 2020-06-10 | 2020-09-04 | 北京中科深智科技有限公司 | 一种基于神经网络的全景视频转6dof视频的方法及系统 |
CN112489205A (zh) * | 2020-12-16 | 2021-03-12 | 北京航星机器制造有限公司 | 一种仿真人脸制造方法 |
CN112669335A (zh) * | 2021-01-27 | 2021-04-16 | 东软睿驰汽车技术(沈阳)有限公司 | 车辆感知方法、装置、电子设备以及机器可读存储介质 |
CN116071785A (zh) * | 2023-03-06 | 2023-05-05 | 合肥工业大学 | 一种基于多维空间交互的人体姿态估计方法 |
US12095973B2 (en) | 2020-12-22 | 2024-09-17 | Intel Corporation | Method and system of image processing with multi-object multi-view association |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102213494B1 (ko) * | 2019-07-30 | 2021-02-09 | 동국대학교 산학협력단 | 행동 인식 장치 및 방법 |
US11430150B2 (en) | 2020-01-03 | 2022-08-30 | Samsung Electronics Co., Ltd. | Method and apparatus for processing sparse points |
KR102494659B1 (ko) * | 2020-11-13 | 2023-02-06 | 주식회사 플라잎 | 6d 포즈 추정 장치 및 방법 |
KR102478980B1 (ko) * | 2020-12-07 | 2022-12-19 | 주식회사 플라잎 | 비지도 6d 포즈 추정을 위한 3d 대조학습 장치 및 방법 |
KR102464358B1 (ko) * | 2022-05-06 | 2022-11-09 | 주식회사 멀티플아이 | 머신러닝에 기반하여 이미지에 대응되는 공간 정보를 추정하기 위한 방법 및 이를 이용한 공간 추정 장치 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1588452A (zh) * | 2004-08-05 | 2005-03-02 | 上海交通大学 | 二维图像序列三维重建方法 |
KR20070020916A (ko) * | 2005-08-17 | 2007-02-22 | 삼성전자주식회사 | 얼굴 포즈 추정 장치와 추정 방법 그리고 상기 방법에 의한얼굴 인식 시스템 |
JP2008140290A (ja) * | 2006-12-05 | 2008-06-19 | Suzuki Motor Corp | 頭部の位置・姿勢検出装置 |
US20080298643A1 (en) * | 2007-05-30 | 2008-12-04 | Lawther Joel S | Composite person model from image collection |
CN103793680A (zh) * | 2012-10-29 | 2014-05-14 | 北京三星通信技术研究有限公司 | 用于估计头部姿势的设备和方法 |
CN104598873A (zh) * | 2014-12-24 | 2015-05-06 | 苏州福丰科技有限公司 | 一种门锁三维人脸识别方法 |
CN105335712A (zh) * | 2015-10-26 | 2016-02-17 | 小米科技有限责任公司 | 图像识别方法、装置及终端 |
US20170004355A1 (en) * | 2015-04-28 | 2017-01-05 | Beijing Kuangshi Technology Co., Ltd. | Apparatus, system, method and computer program product for recognizing face |
CN106445138A (zh) * | 2016-09-21 | 2017-02-22 | 中国农业大学 | 基于3d关节点坐标的一种人体姿态特征提取方法 |
CN106599830A (zh) * | 2016-12-09 | 2017-04-26 | 中国科学院自动化研究所 | 人脸关键点定位方法及装置 |
CN106951840A (zh) * | 2017-03-09 | 2017-07-14 | 北京工业大学 | 一种人脸特征点检测方法 |
CN107481279A (zh) * | 2017-05-18 | 2017-12-15 | 华中科技大学 | 一种单目视频深度图计算方法 |
-
2018
- 2018-01-15 CN CN201810036473.5A patent/CN110047101A/zh active Pending
- 2018-06-19 KR KR1020180070334A patent/KR102718665B1/ko active IP Right Grant
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1588452A (zh) * | 2004-08-05 | 2005-03-02 | 上海交通大学 | 二维图像序列三维重建方法 |
KR20070020916A (ko) * | 2005-08-17 | 2007-02-22 | 삼성전자주식회사 | 얼굴 포즈 추정 장치와 추정 방법 그리고 상기 방법에 의한얼굴 인식 시스템 |
JP2008140290A (ja) * | 2006-12-05 | 2008-06-19 | Suzuki Motor Corp | 頭部の位置・姿勢検出装置 |
US20080298643A1 (en) * | 2007-05-30 | 2008-12-04 | Lawther Joel S | Composite person model from image collection |
CN103793680A (zh) * | 2012-10-29 | 2014-05-14 | 北京三星通信技术研究有限公司 | 用于估计头部姿势的设备和方法 |
CN104598873A (zh) * | 2014-12-24 | 2015-05-06 | 苏州福丰科技有限公司 | 一种门锁三维人脸识别方法 |
US20170004355A1 (en) * | 2015-04-28 | 2017-01-05 | Beijing Kuangshi Technology Co., Ltd. | Apparatus, system, method and computer program product for recognizing face |
CN105335712A (zh) * | 2015-10-26 | 2016-02-17 | 小米科技有限责任公司 | 图像识别方法、装置及终端 |
CN106445138A (zh) * | 2016-09-21 | 2017-02-22 | 中国农业大学 | 基于3d关节点坐标的一种人体姿态特征提取方法 |
CN106599830A (zh) * | 2016-12-09 | 2017-04-26 | 中国科学院自动化研究所 | 人脸关键点定位方法及装置 |
CN106951840A (zh) * | 2017-03-09 | 2017-07-14 | 北京工业大学 | 一种人脸特征点检测方法 |
CN107481279A (zh) * | 2017-05-18 | 2017-12-15 | 华中科技大学 | 一种单目视频深度图计算方法 |
Non-Patent Citations (9)
Title |
---|
GEORGIOS PAVLAKOS 等: "Coarse-to-Fine Volumetric Prediction for Single-Image 3D Human Pose", 2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), pages 4 * |
HUI ZHANG 等: "Robust pose estimation for 3D face modeling from stereo sequences", PROCEEDINGS. INTERNATIONAL CONFERENCE ON IMAGE PROCESSING, pages 1 - 4 * |
JIALIN YU 等: "Coupled multiview autoencoders with locality sensitivity for three-dimensional human pose estimation", JOURNAL OF ELECTRONIC IMAGING, vol. 26, no. 5, pages 1 - 14 * |
JIHYE HWANG 等: "Athlete Pose Estimation by a Global-Local Network", 2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS (CVPRW), pages 114 - 121 * |
XIANG XU 等: "Joint Head Pose Estimation and Face Alignment Framework Using Global and Local CNN Features", 2017 12TH IEEE INTERNATIONAL CONFERENCE ON AUTOMATIC FACE & GESTURE RECOGNITION (FG 2017), pages 642 - 649 * |
XIAO CHU 等: "Multi-context Attention for Human Pose Estimation", 2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), pages 7 * |
曾慧 等: "基于三维模型的人脸姿态估计方法", 计算机工程, vol. 37, no. 09, pages 1 - 3 * |
李正炜;王建立;吴元昊;王国聪;刘帅;: "基于单站地基望远镜的空间目标姿态估计方法", 中国光学, vol. 9, no. 03, pages 371 - 378 * |
王松;刘复昌;黄骥;许威威;董洪伟;: "基于卷积神经网络的深度图姿态估计算法研究", 系统仿真学报, vol. 29, no. 11, pages 2618 - 2623 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110728222A (zh) * | 2019-09-30 | 2020-01-24 | 清华大学深圳国际研究生院 | 一种用于机械臂抓取系统中目标物体的位姿估计方法 |
CN110956656A (zh) * | 2019-12-17 | 2020-04-03 | 北京工业大学 | 一种基于深度目标检测的纺锤定位方法 |
CN111126269A (zh) * | 2019-12-24 | 2020-05-08 | 京东数字科技控股有限公司 | 三维目标检测方法、装置以及存储介质 |
CN111126269B (zh) * | 2019-12-24 | 2022-09-30 | 京东科技控股股份有限公司 | 三维目标检测方法、装置以及存储介质 |
CN111489394A (zh) * | 2020-03-16 | 2020-08-04 | 华南理工大学 | 物体姿态估计模型训练方法、系统、装置及介质 |
CN111489394B (zh) * | 2020-03-16 | 2023-04-21 | 华南理工大学 | 物体姿态估计模型训练方法、系统、装置及介质 |
CN111629194A (zh) * | 2020-06-10 | 2020-09-04 | 北京中科深智科技有限公司 | 一种基于神经网络的全景视频转6dof视频的方法及系统 |
CN111629194B (zh) * | 2020-06-10 | 2021-01-26 | 北京中科深智科技有限公司 | 一种基于神经网络的全景视频转6dof视频的方法及系统 |
CN112489205A (zh) * | 2020-12-16 | 2021-03-12 | 北京航星机器制造有限公司 | 一种仿真人脸制造方法 |
US12095973B2 (en) | 2020-12-22 | 2024-09-17 | Intel Corporation | Method and system of image processing with multi-object multi-view association |
CN112669335A (zh) * | 2021-01-27 | 2021-04-16 | 东软睿驰汽车技术(沈阳)有限公司 | 车辆感知方法、装置、电子设备以及机器可读存储介质 |
CN116071785A (zh) * | 2023-03-06 | 2023-05-05 | 合肥工业大学 | 一种基于多维空间交互的人体姿态估计方法 |
Also Published As
Publication number | Publication date |
---|---|
KR102718665B1 (ko) | 2024-10-18 |
KR20190087258A (ko) | 2019-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110047101A (zh) | 物体姿态估计方法、获得稠密深度图像的方法、相应装置 | |
Luiten et al. | Dynamic 3d gaussians: Tracking by persistent dynamic view synthesis | |
CN110458939B (zh) | 基于视角生成的室内场景建模方法 | |
Luo et al. | 3d-ssd: Learning hierarchical features from rgb-d images for amodal 3d object detection | |
CN110910447B (zh) | 一种基于动静态场景分离的视觉里程计方法 | |
CN114782691A (zh) | 基于深度学习的机器人目标识别与运动检测方法、存储介质及设备 | |
CN106981080A (zh) | 基于红外图像和雷达数据的夜间无人车场景深度估计方法 | |
CN103226708B (zh) | 一种基于Kinect的多模型融合视频人手分割方法 | |
CN109559332B (zh) | 一种结合双向LSTM和Itracker的视线跟踪方法 | |
Cui et al. | Dense depth-map estimation based on fusion of event camera and sparse LiDAR | |
CN118202391A (zh) | 从单二维视图进行对象类的神经辐射场生成式建模 | |
CN110033483A (zh) | 基于dcnn深度图生成方法及系统 | |
CN117274515A (zh) | 基于ORB和NeRF映射的视觉SLAM方法及系统 | |
CN110390327A (zh) | 前景提取方法、装置、计算机设备及存储介质 | |
You et al. | MISD‐SLAM: multimodal semantic SLAM for dynamic environments | |
Balakrishnan et al. | Multimedia concepts on object detection and recognition with F1 car simulation using convolutional layers | |
Vobecký et al. | Artificial dummies for urban dataset augmentation | |
Ren et al. | End-to-end weakly-supervised single-stage multiple 3D hand mesh reconstruction from a single RGB image | |
Wu et al. | Mapnerf: Incorporating map priors into neural radiance fields for driving view simulation | |
CN103839280B (zh) | 一种基于视觉信息的人体姿态跟踪方法 | |
CN113159158A (zh) | 一种基于生成对抗网络的车牌矫正与重构方法及系统 | |
Wang et al. | EvGGS: A Collaborative Learning Framework for Event-based Generalizable Gaussian Splatting | |
Zhang et al. | Depth map prediction from a single image with generative adversarial nets | |
Jongeneel et al. | Model-Based 6D Visual Object Tracking with Impact Collision Models | |
Chiciudean et al. | Data augmentation for environment perception with unmanned aerial vehicles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |