CN117315092B - 一种自动标注方法及数据处理设备 - Google Patents
一种自动标注方法及数据处理设备 Download PDFInfo
- Publication number
- CN117315092B CN117315092B CN202311292690.8A CN202311292690A CN117315092B CN 117315092 B CN117315092 B CN 117315092B CN 202311292690 A CN202311292690 A CN 202311292690A CN 117315092 B CN117315092 B CN 117315092B
- Authority
- CN
- China
- Prior art keywords
- pose
- target object
- depth
- parameterized model
- gray
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 53
- 238000012545 processing Methods 0.000 title claims description 7
- 210000000988 bone and bone Anatomy 0.000 claims description 30
- 238000004364 calculation method Methods 0.000 claims description 27
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000005457 optimization Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 7
- 210000005036 nerve Anatomy 0.000 claims description 3
- 238000009877 rendering Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 238000000034 method Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004611 spectroscopical analysis Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
- G06T7/344—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/75—Determining position or orientation of objects or cameras using feature-based methods involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
- Length Measuring Devices By Optical Means (AREA)
Abstract
本发明提供了一种自动标注方法,自动标注方法包括数据采集步骤、点云信息获取步骤、形状参数获取步骤以及骨骼位姿获取步骤。自动标注方法能够高效并准确地获取人体手部的各种标注信息。
Description
技术领域
本发明涉及计算机视觉领域,特别涉及一种自动标注方法。
背景技术
随着虚拟现实(Virtual Reality简称VR)技术的迅速发展,虚拟现实一体机(即VR眼镜)使用计算机视觉算法实现虚拟现实技术。传统的VR设备通过手柄来完成人与机器的交互,但随着深度学习的技术逐步成熟,基于深度学习的裸手交互将是未来的趋势,现有技术中的交互算法很难高效并准确地获取人体手部的各种标注信息。
现有的数据标注方法大部分使用手工标注,使用手工标注方法不仅效率低而且由于人体手部的遮挡问题导致标注错误多。现有的自动标注方法都是使用一个通用人体手部的模板,无法兼顾不同用户手部的个性化的差异,从而导致标注结果不准确。
现有技术中缺乏通用的深度相机结合多目灰度相机进行数据采集和标注的方法。在深度相机结合多目灰度相机进行数据采集和标注的方法中,由于完全硬件同步难度较大,不同传感器的GPIO频率不一致会导致同步帧率大幅下降。
发明内容
本发明提供了一种自动标注方法,以解决现有的交互算法很难高效并准确地获取人体手部的各种标注信息的技术问题。
进一步地,所述自动标注方法包括数据采集步骤、点云信息获取步骤以及形状参数获取步骤。所述数据采集步骤包括灰度图像获取步骤以及深度图像获取步骤;灰度图像获取步骤,通过多个灰度相机获取所述目标物的多目灰度图像;深度图像获取步骤,通过深度相机获取所述目标物的深度图像,并将所述目标物的深度图像与所述目标物的RGB图像进行深度数据对齐,获取所述目标物的RGBD图像。点云信息获取步骤,获取所述目标物的三维点云信息;所述形状参数获取步骤具体包括模型建立步骤、损失计算步骤以及优化步骤。模型建立步骤,将一个参数化模型与所述目标物的三维点云信息配准,使用神经渲染器对所述目标物的三维点云信息和参数化模型进行多个视角的相机投影,使用所述参数化模型中的参数来表达所述目标物的形状、尺寸以及位姿;损失计算步骤,计算所述参数化模型与所述目标物的三维点云信息配准时的误差;优化步骤,利用所述目标物的轮廓图以及深度图监督优化所述参数化模型中的参数。
进一步地,所述自动标注方法在所述损失计算步骤中,损失L的计算公式如下:
其中,Lsilh ouettes表示所述目标物的轮廓图与真值的欧氏距离,
silh ouettesi为所述参数化模型网络投影后的轮廓图,其中物体的轮廓为1,非物体轮廓为0,为所述目标物的三维点云渲染图;
Ldepth表示所述目标物的深度图与真值的欧氏距离,
depthi为所述参数化模型网络渲染的深度图,为所述目标物的三维点云投影后的深度图;
表示所述参数化模型形状大小的多维参数的正则化,
β为所述参数化模型网络的参数,用多个参数来表示所述参数化模型的形状大小;
表示所述参数化模型位姿的多维参数的正则化;
θ为所述参数化模型网络的参数,用多个参数来表示所述参数化模型的位姿;
w1、w2、w3以及w4为各项损失的权重。
进一步地,所述自动标注方法在所述灰度图像获取步骤中,使用一个飞线发射信号同步激发每一个灰度相机,使得所述多目灰度图彼此时间戳一致。
进一步地,所述自动标注方法在所述形状参数获取步骤后,还包括骨骼位姿获取步骤,以获取所述目标物的骨骼位姿,所述骨骼位姿获取步骤具体包括骨骼点数据获取步骤、初始位姿获取步骤、点云数据获取步骤、配准步骤、配准损失计算步骤以及配准优化步骤。骨骼点数据获取步骤,使用一个骨骼点预测模型获取所述目标物的RGB图像中的骨骼点数据;初始位姿获取步骤,使用所述骨骼点数据做监督,通过反向运动学,计算所述目标物的参数化模型的初始位姿;点云数据获取步骤,根据所述目标物的深度图像还原所述目标物的点云信息,并根据所述参数化模型的初始位姿来描绘出所述目标物的点云数据;
配准步骤,使用所述参数化模型和所述目标物的点云数据进行ICP配准;配准损失计算步骤,计算所述ICP配准中的误差;配准优化步骤,使用最优化算法减小误差。
进一步地,在所述配准损失计算步骤中,损失E的计算公式如下:
其中,
vi代表所述参数化模型上的顶点i,代表所述目标物的点云上离顶点i最近的点;
函数将所述参数化模型的位姿下的第i个3D骨骼点投影到第j号相机的图像,/>是第j号相机图像上的2D骨骼点的监督信息;
Etemporal=||θt-θt-1||2
θ为所述参数化模型网络的参数,用多个参数来表示所述参数化模型的位姿;
w1、w2、w3以及w4为各项损失的权重。
进一步地,所述自动标注方法在所述骨骼位姿获取步骤后,还包括数据对齐步骤,所述数据对齐步骤具体包括如下步骤:位姿轨迹获取步骤,使用一个标定板作为灰度相机以及深度相机的对象,旋转所述标定板,以获取所述标定板在所述灰度相机的位姿轨迹poseDi(i=1,2,3..N),以及在所述深度相机的位姿轨迹poseCj(j=1,2,3..M);以及
时间差计算步骤,假设所述灰度相机中的第m个位姿和所述深度相机中的第n个位姿对齐,那么时间差delay的计算公式如下:
delay=t(poseDm)-t(poseCn)
t()为当前位姿的时间戳。
进一步地,所述自动标注方法在所述数据对齐步骤后,还包括投影步骤,对于每一帧,将该帧前后N帧中的多个深度图像的插值结果投影至该帧中的每一目灰度图像中,从而获取标注数据;其中,N能够取多个值,对于每一个N,对应存在一个投影结果,在多个投影结果中选取最优结果,从而确立N的数值。
进一步地,在所述投影步骤中,插值的计算公式如下:
其中,n为最靠近当前灰度图的第n帧深度图,w为插值权重,插值权重w的计算公式如下:
w=distpq/max(distpq)
distpq为第p帧深度图距离第q帧灰度图的时间戳的差值,max(distpq)为最靠近灰度图的N帧深度图的最大差值。
本发明还提供一种数据处理设备,所述数据处理设备包括存储器以及处理器。存储器用以存储可执行程序代码;处理器用以读取所述可执行程序代码,以运行与所述可执行程序代码对应的计算机程序,以执行上述自动标注方法中的至少一步骤。
进一步地,所述数据处理设备包括多目灰度相机,电连接至所述处理器。所述数据处理设备还包括深度相机,电连接至所述处理器。
本发明的优点在于,提供一种自动标注方法,自动标注方法使用了参数化模型获取了人体手部的形状参数,使用多维参数表达人体手部的形状大小以及手部位姿。自动标注方法还将参数化模型与人体手部的点云数据进行ICP配准,以获取人体手部的骨骼位姿。本发明所述自动标注方法使用深度学习优化算法优化参数化模型,能够高效并准确地获取人体手部的各种标注信息。自动标注方法还通过位姿轨迹对齐,计算深度相机图像以及灰度相机图像的时间差,实现深度相机以及灰度相机之间的同步。本发明所述自动标注方法中的投影步骤使用了插值对齐方案,缓解了由于时间延迟以及未做硬件同步带来的标注误差。
附图说明
图1为本发明实施例中自动标注方法的流程图;
图2为本发明实施例中数据采集步骤的流程图;
图3为本发明实施例中数据采集系统的架构图;
图4为本发明实施例中形状参数获取步骤的流程图;
图5为本发明实施例中骨骼位姿获取步骤的流程图;
图6为本发明实施例中数据对齐步骤的流程图。
具体实施例
以下参考说明书附图介绍本发明的优选实施例,用以举例证明本发明可以实施,这些实施例可以向本领域中的技术人员完整介绍本发明的技术内容,使得本发明的技术内容更加清楚和便于理解。然而本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。
实施例1
如图1所示,本实施例提供一种自动标注方法,包括步骤S1~步骤S4。
步骤S1:数据采集步骤,利用探测设备采集人体手部的图像。
如图2所示,数据采集步骤具体包括步骤S11~步骤S12。
步骤S11:灰度图像获取步骤,通过多个灰度相机获取人体手部的多目灰度图像。灰度图像使用8bit来存储每一个像素的值,其范围在0~255之间。灰度图像共有256个灰度值。
为了使得多个灰度相机获取的多目灰度图彼此之间时间戳是一致的。本实施例使用一个飞线发射信号同步激发每一个灰度相机,使得多个灰度相机实现硬同步,使得多目灰度图彼此时间戳一致。
配置多个灰度相机的帧率时,需要使得多个灰度相机的帧率相同,且使用固定帧率,方便后续步骤中的对齐操作。
如图3所示,图3为本实施例图像采集步骤的具体流程图,虚线框内为灰度摄像头,采取硬同步的方式,通过飞线发射信号同步激发。
步骤S12:深度图像获取步骤,通过深度相机获取人体手部的深度图像,深度图像中的每一个像素值表示场景中某点与深度相机的距离。并将人体手部的深度图像与人体手部的RGB图像进行深度数据对齐,获取人体手部的RGBD图像。RGBD图像由RGB图像以及深度图像组合而成,包含色彩信息以及深度信息,方便后续步骤中深度信息的标注。
步骤S2:点云信息获取步骤,获取人体手部的三维点云信息。三维点云为表达实时环境图像的空间分布与表面光谱性的点集合。利用特定算法可以将各种物体在虚拟现实设备所处空间内的位置坐标化,每个物体都是三维点云的组合,每个三维点云包括大量的点。在三维点云采集步骤中,实时环境图像中的人体手部信息将被转化为三维点云的形式,使得实时环境图像中的人体手部信息转化为一种计算机可读的信息。
步骤S3:形状参数获取步骤,将人体手部的三维点云信息与一个模型相互匹配,以获取人体手部的形状参数,并使用pytorch来实现。本实施例具体使用参数化的3D手部模型MANO来配准手部点云信息,MANO在2D图片转化为3D手部位姿中间添加了一个过渡表示,从而能够使得神经网络可以直接预测遮挡、低分辨率以及噪声影响下的图像的手部姿态。
如图4所示,形状参数获取步骤具体包括步骤S31~步骤S33。
步骤S31:模型建立步骤,使用参数化模型来配准手部的三维点云信息,使用神经渲染器对人体手部的三维点云信息和参数化模型进行多个视角的相机投影,使用参数化模型中的参数来表达人体手部的形状大小以及位姿。参数化模型网络具体使用10维参数来表达人体手部的形状大小,使用51维参数来表达人体手部的位姿。本实施例中虚拟相机个数为8,投影后图片大小256x256,单位为像素点。
步骤S32:损失计算步骤,计算使用参数化模型来配准手部的三维点云信息时的误差,损失L的计算公式如下:
其中,Lsilh ouettes表示人体手部的轮廓图与真值的欧氏距离,
silh ouettesi为参数化模型网络投影后的轮廓图,其中物体的轮廓为1,非物体轮廓为0,为人体手部的三维点云渲染图;Ldepth表示人体手部的深度图与真值的欧氏距离,
depthi为参数化模型网络渲染的深度图,为人体手部的三维点云投影后的深度图;/>表示参数化模型形状大小的10维参数的正则化,
β为参数化模型网络的参数,用10个参数来表示参数化模型的形状大小;表示参数化模型位姿的51维参数的正则化;
θ为参数化模型网络的参数,用51个参数来表示参数化模型的位姿;w1、w2、w3以及w4为各项损失的权重,在本实施例中,w1=10、w2=1、w3=100、w4=100。
步骤S33:优化步骤,利用人体手部的轮廓图以及深度图监督来优化参数化模型中的参数,优化器使用Adam,学习率为1e-3,迭代次数为5000。
步骤S4:骨骼位姿获取步骤,将人体手部的参数化模型进行配准,具体使用了基于ICP算法的点云匹配技术,从而获取每一帧图像中人体手部的骨骼位姿。
如图5所示,骨骼位姿获取步骤具体包括步骤S41~步骤S46。
步骤S41:骨骼点数据获取步骤,使用成熟的2D骨骼点预测模型Mediapipe获取人体手部的RGB图像中的骨骼点数据,Mediapipe使用大量的手部图像数据进行训练,以构建一个手部位姿估计模型。然后加载训练好的模型,并将输入的图像传递给模型。模型会检测图像中的手部区域,并定位手部关键点的位置。一旦检测到手部关键点的位置,则利用计算机视觉技术对这些关键点进行跟踪。然后,根据手部关键点的位置和动作,可以将手势分为不同的类别。
步骤S42:初始位姿获取步骤,使用骨骼点数据做监督,通过反向运动学,计算人体手部的参数化模型的初始位姿。具体是由多个骨骼点数据中的位置信息以及位姿信息,去反推人体手部的初始位姿。获取人体手部的初始位姿时,推导出的初始位姿结果可能与人体真实的初始位姿存在误差,误差公式为:
∏j(pi(θ))函数将参数化模型的位姿下的第i个3D骨骼点投影到第j号相机的图像,是第j号相机图像上的2D骨骼点的监督信息。
步骤S43:点云数据获取步骤,根据人体手部的深度图像还原人体手部的点云信息,并根据参数化模型的初始位姿来描绘出人体手部的点云数据。
步骤S44:配准步骤,使用参数化模型和人体手部的点云数据进行ICP配准。ICP配准本质上是基于最小二乘法的最优配准方法。该算法重复进行选择对应关系点对,计算最优刚体变换,直到满足正确配准的收敛精度要求。ICP算法的目的是要找到待配准点云数据与参考云数据之间的旋转参数R和平移参数T,使得两点数据之间满足某种度量准则下的最优匹配。
步骤S45:配准损失计算步骤,计算ICP配准中的误差,损失E的计算公式如下:
其中,
vi代表参数化模型上的顶点i,代表人体手部的点云上离顶点i最近的点;
函数将参数化模型的位姿下的第i个3D骨骼点投影到第j号相机的图像,/>是第j号相机图像上的2D骨骼点的监督信息;
Etemporal=||θt-θt-1||2
θ为参数化模型网络的参数,用多个参数来表示参数化模型的位姿;w1、w2、w3以及w4为各项损失的权重,在本实施例中,w1=1、w2=10、w3=100、w4=100。
步骤S46:配准优化步骤,使用最优化算法减小误差,在本实施例中,具体使用了Levenberg-Marquardt方法进行优化。该算法关键是用模型函数对待估参数向量在其邻域内做线性近似,忽略掉二阶以上的导数项,从而转化为线性最小二乘问题,它具有收敛速度快等优点。在该算法,存在如果目标函数值增大,则调整某系数再继续求解,且如果目标函数值减小,则调整某系数再继续求解的迭代过程。
本实施例的优点在于,提供一种自动标注方法,自动标注方法使用了参数化模型获取了人体手部的形状参数,使用多维参数表达人体手部的形状大小以及手部位姿。自动标注方法还将参数化模型与人体手部的点云数据进行ICP配准,以获取人体手部的骨骼位姿。自动标注方法使用深度学习优化算法优化参数化模型,能够高效并准确地获取人体手部的各种标注信息。
实施例2
如图1所示,本实施例中的自动标注方法包括权利要求1中的全部方法,在骨骼位姿获取步骤S4之后,还包括步骤S5至步骤S6.
步骤S5:数据对齐步骤,由于多目灰度相机彼此之间通过硬件进行同步,获取的多目灰度图像时间戳是一致的,因此只需要对齐任意一目灰度图像和深度图像即可。灰度图像和深度图像并非同步开启,存在开启时间的差异delay,delay可通过位姿轨迹对齐来获取。
如图6所示,数据对齐步骤具体包括步骤S51~步骤S52。
步骤S51:位姿轨迹获取步骤,使用一个标定板作为灰度相机以及深度相机的对象。在本实施例中,灰度相机具体为深度相机,深度相机具体为灰度相机。本实施例的数据对齐步骤还可以适用于任意探测设备,不局限于相机。接着旋转标定板,以获取标定板在深度相机的位姿轨迹poseDi(i=1,2,3..N),以及在灰度相机的位姿轨迹poseCj(j=1,2,3..M)。
步骤S52:时间差计算步骤,假设深度相机中的第m个位姿和灰度相机中的第n个位姿对齐,那么时间差delay的计算公式如下:
delay=t(poseDm)-t(poseCn)
t()为当前位姿的时间戳。
得知时间差delay后,可以使深度相机每一帧图像减去时间差delay,使得任意一目灰度图像和深度图像实现同步。
步骤S6:投影步骤,对于每一帧,将该帧前后N帧中的多个深度图的插值结果投影至该帧中的每一目灰度图中,从而获取标注数据,缓解了由于时间延迟以及未做硬件同步带来的标注误差。其中,N能够取多个值,对于每一个N,对应存在一个投影结果,在多个投影结果中选取最优结果,从而确立N的数值。
在投影步骤中,插值的计算公式如下:
其中,n为最靠近当前灰度图的第n帧深度图,w为插值权重,插值权重w的计算公式如下:
w=distpq/max(distpq)
distpq为第p帧深度图距离第q帧灰度图的时间戳的差值,max(distpq)为最靠近灰度图的N帧深度图的最大差值。
本实施例优点在于,通过位姿轨迹对齐,计算深度相机图像以及灰度相机图像的时间差,实现深度相机以及灰度相机之间的同步。自动标注方法中的投影步骤使用了插值对齐方案,缓解了由于时间延迟以及未做硬件同步带来的标注误差。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (9)
1.一种自动标注方法,其特征在于,具体包括如下步骤:
数据采集步骤,所述数据采集步骤包括灰度图像获取步骤以及深度图像获取步骤;
灰度图像获取步骤,通过多个灰度相机获取目标物的多目灰度图像;
深度图像获取步骤,通过深度相机获取所述目标物的深度图像,并将所述目标物的深度图像与所述目标物的RGB图像进行深度数据对齐,获取所述目标物的RGBD图像;
点云信息获取步骤,获取所述目标物的三维点云信息;
形状参数获取步骤,所述形状参数获取步骤具体包括如下步骤:
模型建立步骤,将一个参数化模型与所述目标物的三维点云信息配准,使用神经渲染器对所述目标物的三维点云信息和参数化模型进行多个视角的相机投影,使用所述参数化模型中的参数来表达所述目标物的形状、尺寸以及位姿;
损失计算步骤,计算所述参数化模型与所述目标物的三维点云信息配准时的误差;以及
优化步骤,利用所述目标物的轮廓图以及深度图监督优化所述参数化模型中的参数;
在所述损失计算步骤中,损失L的计算公式如下:
其中,Lsilh ouettes表示所述目标物的轮廓图与真值的欧氏距离,
silh ouettesi为所述参数化模型网络投影后的轮廓图,其中物体的轮廓为1,非物体轮廓为0,为所述目标物的三维点云渲染图;
Ldepth表示所述目标物的深度图与真值的欧氏距离,
depthi为所述参数化模型网络渲染的深度图,为所述目标物的三维点云投影后的深度图;
表示所述参数化模型形状大小的多维参数的正则化,
β为所述参数化模型网络的参数,用多个参数来表示所述参数化模型的形状大小;
表示所述参数化模型位姿的多维参数的正则化;
θ为所述参数化模型网络的参数,用多个参数来表示所述参数化模型的位姿;
w1、w2、w3以及w4为各项损失的权重。
2.如权利要求1所述的自动标注方法,其特征在于,在所述灰度图像获取步骤中,使用一个飞线发射信号同步激发每一个灰度相机,使得所述多目灰度图彼此时间戳一致。
3.如权利要求1所述的自动标注方法,其特征在于,所述自动标注方法在所述形状参数获取步骤后,还包括骨骼位姿获取步骤,以获取所述目标物的骨骼位姿,所述骨骼位姿获取步骤具体包括如下步骤:
骨骼点数据获取步骤,使用一个骨骼点预测模型获取所述目标物的RGB图像中的骨骼点数据;
初始位姿获取步骤,使用所述骨骼点数据做监督,通过反向运动学,计算所述目标物的参数化模型的初始位姿;
点云数据获取步骤,根据所述目标物的深度图像还原所述目标物的点云信息,并根据所述参数化模型的初始位姿来描绘出所述目标物的点云数据;
配准步骤,使用所述参数化模型和所述目标物的点云数据进行ICP配准;
配准损失计算步骤,计算所述ICP配准中的误差;以及
配准优化步骤,使用最优化算法减小误差。
4.如权利要求3所述的自动标注方法,其特征在于,在所述配准损失计算步骤中,损失E的计算公式如下:
其中,
vi代表所述参数化模型上的顶点i,代表所述目标物的点云上离顶点i最近的点;
函数将所述参数化模型的位姿下的第i个3D骨骼点投影到第j号相机的图像,是第j号相机图像上的2D骨骼点的监督信息;
Etemporal=||θt-θt-1||2
θ为所述参数化模型网络的参数,用多个参数来表示所述参数化模型的位姿;
w1、w2、w3以及w4为各项损失的权重。
5.如权利要求3所述的自动标注方法,其特征在于,
在所述骨骼位姿获取步骤后,所述自动标注方法还包括
数据对齐步骤,所述数据对齐步骤具体包括如下步骤:
位姿轨迹获取步骤,使用一个标定板作为灰度相机以及深度相机的对象,旋转所述标定板,以获取所述标定板在所述灰度相机的位姿轨迹poseDi,i=1,2,3..N,以及在所述深度相机的位姿轨迹poseCj,j=1,2,3..M;以及
时间差计算步骤,假设所述灰度相机中的第m个位姿和所述深度相机中的第n个位姿对齐,那么时间差delay的计算公式如下:
delay=t(poseDm)-t(poseCn)
t()为当前位姿的时间戳。
6.如权利要求5所述的自动标注方法,其特征在于,在所述数据对齐步骤后,所述自动标注方法还包括
投影步骤,对于每一帧,将该帧前后N帧中的多个深度图像的插值结果投影至该帧中的每一目灰度图像中,从而获取标注数据;
其中,N能够取多个值,对于每一个N,对应存在一个投影结果,在多个投影结果中选取最优结果,从而确立N的数值。
7.如权利要求6所述的自动标注方法,其特征在于,在所述投影步骤中,插值的计算公式如下:
其中,n为最靠近当前灰度图的第n帧深度图,w为插值权重,插值权重w的计算公式如下:
w=distpq/max(distpq)
distpq为第p帧深度图距离第q帧灰度图的时间戳的差值,max(distpq)为最靠近灰度图的N帧深度图的最大差值。
8.一种数据处理设备,其特征在于,包括:
存储器,用以存储可执行程序代码;以及
处理器,用以读取所述可执行程序代码,以运行与所述可执行程序代码对应的计算机程序,以执行权利要求1-7中任一项所述的自动标注方法中的步骤。
9.如权利要求8所述的数据处理设备,其特征在于,还包括:
多目灰度相机,电连接至所述处理器;
深度相机,电连接至所述处理器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311292690.8A CN117315092B (zh) | 2023-10-08 | 2023-10-08 | 一种自动标注方法及数据处理设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311292690.8A CN117315092B (zh) | 2023-10-08 | 2023-10-08 | 一种自动标注方法及数据处理设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117315092A CN117315092A (zh) | 2023-12-29 |
CN117315092B true CN117315092B (zh) | 2024-05-14 |
Family
ID=89249551
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311292690.8A Active CN117315092B (zh) | 2023-10-08 | 2023-10-08 | 一种自动标注方法及数据处理设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117315092B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109523552A (zh) * | 2018-10-24 | 2019-03-26 | 青岛智能产业技术研究院 | 基于视锥点云的三维物体检测方法 |
CN110243370A (zh) * | 2019-05-16 | 2019-09-17 | 西安理工大学 | 一种基于深度学习的室内环境三维语义地图构建方法 |
CN113205605A (zh) * | 2021-05-29 | 2021-08-03 | 浙江大学 | 一种从深度图像中获取手部三维参数化模型的方法 |
CN115147490A (zh) * | 2022-07-22 | 2022-10-04 | 西安交通大学 | 一种6d位姿估计数据集制作方法、装置及系统 |
CN115641373A (zh) * | 2022-10-26 | 2023-01-24 | 江苏量为石科技股份有限公司 | 融合点云和图像的交互式三维测距算法 |
-
2023
- 2023-10-08 CN CN202311292690.8A patent/CN117315092B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109523552A (zh) * | 2018-10-24 | 2019-03-26 | 青岛智能产业技术研究院 | 基于视锥点云的三维物体检测方法 |
CN110243370A (zh) * | 2019-05-16 | 2019-09-17 | 西安理工大学 | 一种基于深度学习的室内环境三维语义地图构建方法 |
CN113205605A (zh) * | 2021-05-29 | 2021-08-03 | 浙江大学 | 一种从深度图像中获取手部三维参数化模型的方法 |
CN115147490A (zh) * | 2022-07-22 | 2022-10-04 | 西安交通大学 | 一种6d位姿估计数据集制作方法、装置及系统 |
CN115641373A (zh) * | 2022-10-26 | 2023-01-24 | 江苏量为石科技股份有限公司 | 融合点云和图像的交互式三维测距算法 |
Also Published As
Publication number | Publication date |
---|---|
CN117315092A (zh) | 2023-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107833270B (zh) | 基于深度相机的实时物体三维重建方法 | |
EP3644277B1 (en) | Image processing system, image processing method, and program | |
US11941831B2 (en) | Depth estimation | |
KR101791590B1 (ko) | 물체 자세 인식장치 및 이를 이용한 물체 자세 인식방법 | |
CN109903328B (zh) | 一种应用于智能手机的物体体积测量的装置及方法 | |
JPH07168943A (ja) | 局所異常の排除による動きベクトルフィールド生成装置およびその方法 | |
CN110060329B (zh) | 一种基于彩色深度视频流数据的移动端人体模型重建方法 | |
CN111523398A (zh) | 一种融合2d人脸检测和3d人脸识别的方法及装置 | |
CN104820996A (zh) | 一种基于视频的自适应分块的目标跟踪方法 | |
CN107038718B (zh) | 雾霾环境下的深度计算方法 | |
CN112330813A (zh) | 一种基于单目深度摄像头的着装下三维人体模型重建方法 | |
CN117671738B (zh) | 基于人工智能的人体姿态识别系统 | |
CN114422832A (zh) | 主播虚拟形象生成方法及装置 | |
CN112597847A (zh) | 人脸姿态估计方法、装置、电子设备和存储介质 | |
CN114399829B (zh) | 基于生成式对抗网络的姿态迁移方法、电子设备及介质 | |
CN113920254B (zh) | 一种基于单目rgb的室内三维重建方法及其系统 | |
CN117315092B (zh) | 一种自动标注方法及数据处理设备 | |
CN113065506A (zh) | 一种人体姿态识别方法及系统 | |
CN116912948B (zh) | 一种数字人的训练方法、系统及驱动系统 | |
CN115171030B (zh) | 基于多级特征融合的多模态图像分割方法、系统及器件 | |
CN118230352A (zh) | 人体姿态的估计方法、装置及系统 | |
CN115546876B (zh) | 一种瞳孔追踪方法及装置 | |
JP3980666B2 (ja) | 動きベクトル推定方法及び画像処理装置 | |
CN118015087B (zh) | 一种摄像头画面角度检测和校准方法及装置 | |
CN111539988B (zh) | 一种视觉里程计实现方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |