CN111260774A - 生成3d关节点回归模型的方法和装置 - Google Patents
生成3d关节点回归模型的方法和装置 Download PDFInfo
- Publication number
- CN111260774A CN111260774A CN202010064261.5A CN202010064261A CN111260774A CN 111260774 A CN111260774 A CN 111260774A CN 202010064261 A CN202010064261 A CN 202010064261A CN 111260774 A CN111260774 A CN 111260774A
- Authority
- CN
- China
- Prior art keywords
- joint point
- label
- regression model
- sample image
- joint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 238000010586 diagram Methods 0.000 claims abstract description 114
- 238000012549 training Methods 0.000 claims abstract description 98
- 210000000988 bone and bone Anatomy 0.000 claims description 66
- 230000009471 action Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 description 72
- 238000005516 engineering process Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/75—Determining position or orientation of objects or cameras using feature-based methods involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/20—Finite element generation, e.g. wire-frame surface description, tesselation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20036—Morphological image processing
- G06T2207/20044—Skeletonization; Medial axis transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/41—Medical
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本公开实施例公开了生成3D关节点回归模型的方法和装置。方法包括:获取附有2D标签的样本图像和附有3D标签的样本图像;将附有2D标签的样本图像作为第一输入,将与2D标签对应的关节点热力图集合作为第一期望输出,训练基础3D关节点回归模型的输出层中的部分通道;将附有3D标签的样本图像作为第二输入,将与3D标签对应的关节点热力图集合作为第二期望输出的第一部分输出、与3D标签对应的关节点深度信息图集合作为第二期望输出的第二部分输出,训练基础3D关节点回归模型的输出层中的所有通道。该方法可以在附有3D标签的样本图像有限的情况下训练出具有较高预测能力的关节点回归模型。
Description
技术领域
本公开涉及计算机技术领域,具体涉及三维(3D)肢体回归技术领域,尤其涉及生成三维(3D)关节点回归模型的方法和装置、生成3D关节点坐标的方法和装置。
背景技术
基于混合数据的3D肢体回归技术是指在利用深度学习技术进行三维3D肢体回归时使用二维(2D)标注数据与三维(3D)标注数据同时学习。如今随着深度学习技术的发展,其在各个领域的应用也越来越广,例如各种物体或任务的关键点的回归。深度学习技术依赖于精确标注的数据,而3D数据的标注则比2D数据的标注难度要高很多,所以目前学术界与工业界大多是对2D关键点的回归,而对3D肢体的学习的研究则相对较少。
发明内容
本公开实施例提供了生成3D关节点回归模型的方法和装置、生成3D关节点坐标的方法和装置。
第一方面,本公开实施例提供了一种生成3D关节点回归模型的方法,包括:获取附有2D标签的样本图像和附有3D标签的样本图像;将附有2D标签的样本图像作为第一输入,将与2D标签对应的关节点热力图集合作为第一期望输出,训练基础3D关节点回归模型的输出层中的部分通道;将附有3D标签的样本图像作为第二输入,将与3D标签对应的关节点热力图集合作为第二期望输出的第一部分输出、与3D标签对应的关节点深度信息图集合作为第二期望输出的第二部分输出,训练基础3D关节点回归模型的输出层中的所有通道。
在一些实施例中,将附有2D标签的样本图像作为第一输入,将与2D标签对应的关节点热力图集合作为第一期望输出,训练基础3D关节点回归模型的输出层中的部分通道包括:将附有2D标签的样本图像作为第一输入,将与2D标签对应的关节点热力图集合作为第一期望输出,将与附有2D标签的样本图像对应的几何约束损失函数作为对应第一期望输出的损失函数,训练基础3D关节点回归模型的输出层中的部分通道。
在一些实施例中,将附有3D标签的样本图像作为第二输入,将与3D标签对应的关节点热力图集合作为第二期望输出的第一部分输出、与3D标签对应的关节点深度信息图集合作为第二期望输出的第二部分输出,训练基础3D关节点回归模型的输出层中的所有通道包括:将附有3D标签的样本图像作为第二输入,将与3D标签对应的关节点热力图集合作为第二期望输出的第一部分输出、与3D标签对应的关节点深度信息图集合作为第二期望输出的第二部分输出,并将与附有3D标签的样本图像对应的几何约束损失函数的加权值作为对应第二期望输出的第一部分输出的损失函数,将与附有3D标签的样本图像对应的欧式距离损失函数的加权值作为对应第二期望输出的第二部分输出的损失函数,训练基础3D关节点回归模型的输出层中的所有通道。
在一些实施例中,几何约束损失函数包括:各个预测骨骼的长度比例与样本图像集骨骼的长度比例的平均值之间的欧式距离;其中,预测骨骼为基础3D关节点回归模型输出的关节点热力图集合中的骨骼;各个预测骨骼的长度比例为:单次训练所选取的样本图像集中的各张样本图像所对应的各个预测骨骼的长度与基准数据集中的骨骼的长度的比例;样本图像集骨骼的长度比例为:单次训练所选取的图像样本集中的所有样本图像所对应的所有的预测骨骼的长度与基准数据集中的骨骼的长度的比例。
在一些实施例中,与附有3D标签的样本图像对应的欧式距离损失函数包括:在将附有3D标签的样本图像作为第二输入时,基础3D关节点回归模型输出的关节点深度信息图集合中的深度信息与3D标签中标注的关节点深度信息的欧式距离。
在一些实施例中,基础3D关节点回归模型包括以下任意一项:初始3D关节点回归模型;或采用附有2D标签的样本图像训练初始3D关节点回归模型所得到的预训练的3D关节点回归模型。
在一些实施例中,预训练的3D关节点回归模型经由以下步骤确定:将附有2D标签的样本图像作为输入、将2D标签作为期望输出、将基于关节点回归模型输出的关节点热力图集合所确定的关节点坐标与2D标签中的2D关节点坐标之间的欧式距离作为损失函数,训练初始3D关节点回归模型得到。
第二方面,本公开实施例提供了一种生成3D关节点坐标的方法,包括:获取包含人物的图像;将图像输入已训练的3D关节点回归模型,得到已训练的3D关节点回归模型输出的关节点热力图集合和关节点深度信息图集合;其中,已训练的3D关节点回归模型采用如上述实施例中任意一项的生成3D关节点回归模型的方法训练基础3D关节点回归模型得到;基于关节点热力图集合和关节点深度信息图集合,确定人物的3D关节点坐标。
在一些实施例中,方法还包括:基于人物的3D关节点坐标,确定人体的动作参数;基于人体的动作参数,生成提示人物的动作的提示信息。
第三方面,本公开实施例提供了一种生成3D关节点回归模型的装置,其中,装置包括:样本图像获取单元,被配置成获取附有2D标签的样本图像和附有3D标签的样本图像;部分通道训练单元,被配置成将附有2D标签的样本图像作为第一输入,将与2D标签对应的关节点热力图集合作为第一期望输出,训练基础3D关节点回归模型的输出层中的部分通道;所有通道训练单元,被配置成将附有3D标签的样本图像作为第二输入,将与3D标签对应的关节点热力图集合作为第二期望输出的第一部分输出、与3D标签对应的关节点深度信息图集合作为第二期望输出的第二部分输出,训练基础3D关节点回归模型的输出层中的所有通道。
在一些实施例中,部分通道训练单元进一步被配置成:将附有2D标签的样本图像作为第一输入,将与2D标签对应的关节点热力图集合作为第一期望输出,将与附有2D标签的样本图像对应的几何约束损失函数作为对应第一期望输出的损失函数,训练基础3D关节点回归模型的输出层中的部分通道。
在一些实施例中,所有通道训练单元进一步被配置成:将附有3D标签的样本图像作为第二输入,将与3D标签对应的关节点热力图集合作为第二期望输出的第一部分输出、与3D标签对应的关节点深度信息图集合作为第二期望输出的第二部分输出,并将与附有3D标签的样本图像对应的几何约束损失函数的加权值作为对应第二期望输出的第一部分输出的损失函数,将与附有3D标签的样本图像对应的欧式距离损失函数的加权值作为对应第二期望输出的第二部分输出的损失函数,训练基础3D关节点回归模型的输出层中的所有通道。
在一些实施例中,部分通道训练单元或所有通道训练单元两者中的几何约束损失函数包括:各个预测骨骼的长度比例与样本图像集骨骼的长度比例的平均值之间的欧式距离;其中,预测骨骼为基础3D关节点回归模型输出的关节点热力图集合中的骨骼;各个预测骨骼的长度比例为:单次训练所选取的样本图像集中的各张样本图像所对应的各个预测骨骼的长度与基准数据集中的骨骼的长度的比例;样本图像集骨骼的长度比例为:单次训练所选取的图像样本集中的所有样本图像所对应的所有的预测骨骼的长度与基准数据集中的骨骼的长度的比例。
在一些实施例中,所有通道训练单元中与附有3D标签的样本图像对应的欧式距离损失函数包括:在将附有3D标签的样本图像作为第二输入时,基础3D关节点回归模型输出的关节点深度信息图集合中的深度信息与3D标签中标注的关节点深度信息的欧式距离。
在一些实施例中,部分通道训练单元或所有通道训练单元两者中的基础3D关节点回归模型包括以下任意一项:初始3D关节点回归模型;或采用附有2D标签的样本图像训练初始3D关节点回归模型所得到的预训练的3D关节点回归模型。
在一些实施例中,预训练的3D关节点回归模型经由以下步骤确定:将附有2D标签的样本图像作为输入、将2D标签作为期望输出、将基于关节点回归模型输出的关节点热力图集合所确定的关节点坐标与2D标签中的2D关节点坐标之间的欧式距离作为损失函数,训练初始3D关节点回归模型得到。
第四方面,本公开实施例提供了一种生成3D关节点坐标的装置,包括:图像获取单元,被配置成获取包含人物的图像;图像输入单元,被配置成将图像输入已训练的3D关节点回归模型,得到已训练的3D关节点回归模型输出的关节点热力图集合和关节点深度信息图集合;其中,已训练的3D关节点回归模型采用如上述实施例中任意一项的生成3D关节点回归模型的装置训练基础3D关节点回归模型得到;坐标确定单元,被配置成基于关节点热力图集合和关节点深度信息图集合,确定人物的3D关节点坐标。
在一些实施例中,装置还包括:动作参数确定单元,被配置成基于人物的3D关节点坐标,确定人体的动作参数;提示信息生成单元,被配置成基于人体的动作参数,生成提示人物的动作的提示信息。
第五方面,本公开实施例提供了一种电子设备/终端/服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上任一所述的生成3D关节点回归模型的方法和/或一种生成3D关节点坐标的方法。
第六方面,本公开实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上任一所述的生成3D关节点回归模型的方法和/或一种生成3D关节点坐标的方法。
本公开实施例提供的生成3D关节点回归模型的方法和装置,生成3D关节点回归模型的方法包括:首先,获取附有2D标签的样本图像和附有3D标签的样本图像;之后,将附有2D标签的样本图像作为第一输入,将与2D标签对应的关节点热力图集合作为第一期望输出,训练基础3D关节点回归模型的输出层中的部分通道;之后,将附有3D标签的样本图像作为第二输入,将与3D标签对应的关节点热力图集合作为第二期望输出的第一部分输出、与3D标签对应的关节点深度信息图集合作为第二期望输出的第二部分输出,训练基础3D关节点回归模型的输出层中的所有通道。在这一过程中,采用附有2D标签的样本图像和附有3D标签的样本图像分别训练关节点回归模型中的部分通道和所有通道,可以采用附有2D标签的样本图像和附有3D标签的样本图像同时调整3D关节点回归模型的参数,从而可以在附有3D标签的样本图像有限的情况下训练出具有较高预测能力的关节点回归模型,提高后续基于已训练完成的关节点回归模型生成输入图像的3D关节点的准确度。
在部分实施例中,采用附有2D标签的样本图像预先训练初始3D关节点回归模型,得到预训练的3D关节点回归模型,并且采用预训练的3D关节点回归模型作为基础3D关节点回归模型,进一步采用附有2D标签的样本图像和附有3D标签的样本图像训练基础3D关节点网络,可以得到已训练的3D关节点回归模型。这一过程提高了已训练的3D关节点回归模型的生成效率和基于已训练的3D关节点回归模型生成3D关节点的准确度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例详细描述,本公开的其它特征、目的和优点将会变得更明显:
图1是本公开可以应用于其中的示例性系统架构图;
图2是根据本公开实施例的生成3D关节点回归模型的方法的一个实施例的流程示意图;
图3a是根据本公开实施例的生成3D关节点回归模型的方法的一个示例性应用场景;
图3b是实现图3a中的应用场景的生成3D关节点回归模型的方法的示意图;
图4是根据本公开实施例的生成3D关节点坐标的方法的一个实施例的流程示意图;
图5是本公开的生成3D关节点回归模型的装置的一个实施例的示例性结构图;
图6是本公开的生成3D关节点坐标的装置的一个实施例的示例性结构图;
图7是适于用来实现本公开实施例的服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。本领域技术人员还将理解的是,虽然本文中可使用用语“第一”、“第二”等来描述各种输入、期望输出、部分输出等,但是这些输入、期望输出、部分输出不应被这些用语限制。这些用语仅用于将一个输入、期望输出、部分输出与其它输入、期望输出、部分输出区分开。
图1示出了可以应用本公开的生成3D关节点回归模型的方法或生成3D关节点回归模型的装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如翻译类应用、浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是支持浏览器应用的各种电子设备,包括但不限于平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上进行的浏览器应用提供支持的后台服务器。后台服务器可以对接收到的请求等数据进行分析等处理,并将处理结果反馈给终端设备。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
在实践中,本公开实施例所提供的生成3D关节点回归模型的方法、生成3D关节点坐标的方法可以由终端设备101、102、103和/或服务器105、106执行,生成3D关节点回归模型的装置、生成3D关节点坐标的装置也可以设置于终端设备101、102、103和/或服务器105、106中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,图2示出了根据本公开的生成3D关节点回归模型的方法的一个实施例的流程200。该生成3D关节点回归模型的方法包括以下步骤:
步骤201,获取附有2D标签的样本图像和附有3D标签的样本图像。
在本实施例中,生成3D关节点回归模型的方法的执行主体(例如图1所示的终端或服务器)可以从本地或云端获取附有2D标签的样本图像和附有3D标签的样本图像。
步骤202,将附有2D标签的样本图像作为第一输入,将与2D标签对应的关节点热力图集合作为第一期望输出,训练基础3D关节点回归模型的输出层中的部分通道。
在本实施例中,附有2D标签的样本图像,是指用于训练基础3D关节点回归模型的、附有2维坐标标签的训练样本图像。关节点热力图为标示了指示关节的关键点的热力图。部分通道是指输出层中的部分全连接输出通道。
上述基础3D关节点回归模型,可以包括以下任意一项:初始3D关节点回归模型;或采用附有2D标签的样本图像训练初始3D关节点回归模型所得到的预训练的3D关节点回归模型。
其中,初始关节点回归模型可以采用级联的沙漏模型(hourglass)来实现;还可以采用基于序列化的全卷积网络结构来学习空间信息和纹理信息、估计人体姿态的Convolutional Pose Machines(CPM)模型来实现;此外,还可以采用人体姿态识别项目模型(OpenPose)、人体姿态估计模型(AlphaPose)等来实现。
在这里,在采用附有2D标签的样本图像训练初始3D关节点回归模型,得到预训练的3D关节点回归模型之后,以预训练的3D关节点回归模型为基础3D关节点回归模型,相当于使用预训练的3D关节点回归模型的前几层,来提取浅层特征,最后再落入新训练的分类中。这样,可以无需完全重新训练初始3D关节点回归模型,从而可以提高生成3D关节点回归模型的效率。由于新训练初始3D关节点回归模型,准确率会从很低的值开始慢慢上升,采用预训练的3D关节点回归模型能够在比较少的迭代次数之后得到一个比较好的效果。
在将附有2D标签的样本图像作为第一输入,将与2D标签对应的关节点热力图集合作为第一期望输出,训练基础3D关节点回归模型的输出层中的部分通道时,可以采用现有技术或未来发展的技术中的损失函数来对训练效果进行约束,例如,可以采用均方误差损失函数、平均绝对误差损失函数、Huber损失函数、Log-Cosh损失函数、分位数损失函数中的一个或多个作为损失函数。
在一个具体的示例中,预训练的3D关节点回归模型可以经由以下步骤确定:将附有2D标签的样本图像作为输入、将2D标签作为期望输出、将基于关节点回归模型输出的关节点热力图集合所确定的关节点坐标与2D标签中的2D关节点坐标之间的欧式距离作为损失函数,训练初始3D关节点回归模型得到。
在本实施例的一些可选实现方式中,将附有2D标签的样本图像作为第一输入,将与2D标签对应的关节点热力图集合作为第一期望输出,训练基础3D关节点回归模型的输出层中的部分通道包括:将附有2D标签的样本图像作为第一输入,将与2D标签对应的关节点热力图集合作为第一期望输出,将与附有2D标签的样本图像对应的几何约束损失函数作为对应第一期望输出的损失函数,训练基础3D关节点回归模型的输出层中的部分通道。
本实现方式中,几何约束损失函数是指基于人体的骨骼的几何约束(例如骨骼的长度、骨骼之间的连接关系等)所确定的损失函数。
针对未标注深度信息的附有2D标签的样本图像,采用几何约束损失函数作为损失函数,可以减少未标注的深度信息对最终训练结果的准确习惯的影响,提高训练得到的3D关节点回归模型的输出层中的部分通道的准确性。
在本实施例的一些可选实现方式中,几何约束损失函数包括:各个预测骨骼的长度比例与样本图像集骨骼的长度比例的平均值之间的欧式距离;其中,预测骨骼为基础3D关节点回归模型输出的关节点热力图集合中的骨骼;各个预测骨骼的长度比例为:单次训练所选取的样本图像集中的各张样本图像所对应的各个预测骨骼的长度与基准数据集中的骨骼的长度的比例;样本图像集骨骼的长度比例为:单次训练所选取的图像样本集中的所有样本图像所对应的所有的预测骨骼的长度与基准数据集中的骨骼的长度的比例。
在本实现方式中,对于附有2D标签的样本图像(包括附有3D标签的样本图像中所包括的附有2D标签的样本图像),几何约束的loss函数,具体如公式(1):
其中,是指用于训练基础3D关节点回归模型的总体的loss函数,在输入为2D坐标数据和3D坐标数据时使用不同的loss函数进行距离计算;λreg和λg表示对于当前加载的样本图像所设置的2D Loss与3D Loss的权重,可由本领域技术人员根据经验、应用场景或加载的样本图像集中附有2D标签的样本图像和附有3D标签的样本图像的比例设定。表示当前3D关节点回归模型预测出的3D坐标数据,Ydep表示3D坐标数据的真值(ground truth);表示当前加载的样本图像为包含3D坐标的附有3D标签的样本图像,表示当前加载的样本图像为包含2D坐标的附有2D标签或3D标签的样本图像。
是指几何约束损失函数。其基于的主要是:对于一个确定的人的骨骼长度的比率都是相对固定的。例如一个人的上臂与下臂的长度比,大腿与小腿的长度比都是大约固定的,左臂与右臂的长度也应是相同的。此处,可以采用Ri表示需要计算的骨骼的集合(也即当前加载的样本图像集),使用lb来表示骨骼b的长度,并使用基准数据集Human 3.6M中的骨骼平均长度作为损失函数中的骨骼基准因此,比例对于每一个需要计算的骨骼(也即样本图像集中的各个预测骨骼)的集合Ri应是一个固定的数字。最终公式的定义如下公式(2):
其中,
步骤203,将附有3D标签的样本图像作为第二输入,将与3D标签对应的关节点热力图集合作为第二期望输出的第一部分输出、与3D标签对应的关节点深度信息图集合作为第二期望输出的第二部分输出,训练基础3D关节点回归模型的输出层中的所有通道。
本实施例中,附有3D标签的样本图像,是指用于训练基础3D关节点回归模型的、附有3维坐标标签的训练样本图像。关节点深度信息图为指示关节点的深度信息的图像。所有通道是指输出层中的所有全连接输出通道。
在将附有3D标签的样本图像作为第二输入,将与3D标签对应的关节点热力图集合作为第二期望输出的第一部分输出、将与3D标签对应的深度信息图集合作为第二期望输出的第二部分输出,训练基础3D关节点回归模型的输出层中的部分通道时,可以采用现有技术或未来发展的技术中的损失函数来对训练效果进行约束,例如,可以采用均方误差损失函数、平均绝对误差损失函数、Huber损失函数、Log-Cosh损失函数、分位数损失函数中的一个或多个作为损失函数。
在本实施例的一些可选实现方式中,将附有3D标签的样本图像作为第二输入,将与3D标签对应的关节点热力图集合作为第二期望输出的第一部分输出、与3D标签对应的关节点深度信息图集合作为第二期望输出的第二部分输出,训练基础3D关节点回归模型的输出层中的所有通道包括:将附有3D标签的样本图像作为第二输入,将与3D标签对应的关节点热力图集合作为第二期望输出的第一部分输出、与3D标签对应的关节点深度信息图集合作为第二期望输出的第二部分输出,并将与附有3D标签的样本图像对应的几何约束损失函数的加权值作为对应第二期望输出的第一部分输出的损失函数,将与附有3D标签的样本图像对应的欧式距离损失函数的加权值作为对应第二期望输出的第二部分输出的损失函数,训练基础3D关节点回归模型的输出层中的所有通道。
在本实现方式中,通过将与3D标签对应的关节点热力图集合作为第二期望输出的第一部分输出、与3D标签对应的关节点深度信息图集合作为第二期望输出的第二部分输出,并将与附有3D标签的样本图像对应的几何约束损失函数的加权值作为对应第二期望输出的第一部分输出的损失函数,将与附有3D标签的样本图像对应的欧式距离损失函数的加权值作为对应第二期望输出的第二部分输出的损失函数,训练基础3D关节点回归模型的输出层中的所有通道,可以在采用附有2D标签的数据训练基础3D关节点回归模型的输出层中的部分通道的基础上,采用附有3D标签的样本图像进一步训练基础3D关节点回归模型的输出层中的所有通道,可以在比较少的迭代次数之后,提高训练完成的基础3D关节点回归模型的输出层中的所有通道的输出的准确性。
在本实施例的一些可选实现方式中,与附有3D标签的样本图像对应的欧式距离损失函数包括:在将附有3D标签的样本图像作为第二输入时,基础3D关节点回归模型输出的关节点深度信息图集合中的深度信息与3D标签中标注的关节点深度信息的欧式距离。
在本实现方式中,对于完全标注3D坐标信息的样本图像,可以先计算与附有3D标签的样本图像对应的欧式距离作为欧式距离损失函数,再将欧式距离损失函数的加权值作为对应第二期望输出的第二部分输出的损失函数,从而提高计算损失函数的效率,进而提高生成3D关节点回归模型的效率。
本公开上述实施例的生成3D关节点回归模型的方法,可以采用附有2D标签的样本图像和附有3D标签的样本图像分别训练关节点回归模型中的部分通道和所有通道,从而可以采用附有2D标签的样本图像和附有3D标签的样本图像同时调整关节点回归模型的参数,在附有3D标签的样本图像的有限的情况下训练出具有较高预测能力的关节点回归模型,从而可以提高后续基于已训练完成的关节点回归模型生成输入图像的3D关节点的准确度。
以下结合图3a和图3b,描述本公开的生成3D关节点回归模型的方法的示例性应用场景。
如图3a所示,图3a示出了根据本公开的生成3D关节点回归模型的方法的一个示例性应用场景。
如图3a所示,生成3D关节点回归模型的方法300运行于电子设备320中,方法300包括:
首先,获取附有2D标签的样本图像301和附有3D标签的样本图像302;
之后,将附有2D标签的样本图像301作为第一输入303,将与2D标签对应的关节点热力图集合304作为第一期望输出305,训练基础3D关节点回归模型306的输出层中的部分通道307;
最后,将附有3D标签的样本图像302作为第二输入308,将与3D标签对应的关节点热力图集合309作为第二期望输出310的第一部分输出311、与3D标签对应的关节点深度信息图集合312作为第二期望输出310的第二部分输出313,训练基础3D关节点回归模型的输出层中的所有通道314。
应当理解,上述图3a中所示出的生成3D关节点回归模型的方法的应用场景,仅为对于生成3D关节点回归模型的方法的示例性描述,并不代表对该方法的限定。例如,上述图3a中示出的各个步骤,可以进一步采用更为细节的实现方法。也可以在上述图3a的基础上,进一步增加其它的步骤。
如图3b所示,在图3b中,当3D关节点回归模型加载附有2D标签的图像样本时,3D关节点回归网络输出与2D标签对应的关节点热力图集合,并采用2D标签形成有监督的关节点热力图回归训练3D关节点回归网络模型;当3D关节点回归模型加载附有3D标签的图像样本时,3D关节点回归网络输出与3D标签对应的关节点热力图集合和深度信息图集合,并采用3D标签形成有监督的关节点热力图回归和有监督的深度信息图回归训练3D关节点回归网络模型。经过采用附有2D标签的图像样本和附有3D标签的图像样本的交替训练,可以得到已训练的3D关节点回归网络模型。
进一步参考图4,图4示出了根据本公开的生成3D关节点坐标的方法的一个实施例的示意性流程图。
如图4所示,本实施例的生成3D关节点坐标的方法400,可以包括以下步骤:
在步骤401中,获取包含人物的图像。
在本实施例中,生成3D关节点坐标的方法的执行主体(例如图1所示的终端或服务器)可以从本地或云端获取包含任务的图像。
在步骤402中,将图像输入已训练的3D关节点回归模型,得到已训练的3D关节点回归模型输出的关节点热力图集合和关节点深度信息图集合。
在本实施例中,上述执行主体可以将图像输入已训练的3D关节点回归模型,得到已训练的3D关节点回归模型的输出层的部分通道输出的关节点热力图集合、以及已训练的3D关节点回归模型的输出层的所有通道中除上述部分通道之外的通道输出的关节点深度信息图集合。
其中,已训练的3D关节点回归模型采用如上述图2或图3所述的生成3D关节点回归模型的方法训练基础3D关节点回归模型得到。
在步骤403中,基于关节点热力图集合和关节点深度信息图集合,确定人物的3D关节点坐标。
在本实施例中,生成3D关节点坐标的方法(例如图1所示的终端或服务器)的执行主体可以基于关节点热力图集合,确定各个关节点的2D坐标;再基于关节点深度信息图集合,得到各个关节点的深度坐标。从而对于每一个关节点,结合2D坐标和深度坐标,得到3D关节点坐标。
在可选步骤404中,基于人物的3D关节点坐标,确定人体的动作参数。
在本实施例中,上述执行主体可以基于图像中的人物的3D关节点坐标,确定人体的动作参数,这些动作参数可以指示该人物所做的动作。
在步骤405中,基于人体的动作参数,生成提示人物的动作的提示信息。
本实施例中,上述执行主体可以基于人体的动作参数,确定这些动作参数是否符合提醒条件,若符合,则生成与提醒条件相对应的、提示人物的动作的提示信息。进一步地,还可以向用户呈现这些提示信息,以指导用户的下一步动作。
示例性地,在健身指导时,上述执行主体可以基于人体的动作参数是否符合健身提醒条件,在符合健身提醒条件时生成与健身提醒条件相对应的、提示人物的动作的提示信息,并向用户呈现这些提示信息,以指导用户的下一步健身动作。
在另一个示例中,在3D人机交互服务中,上述执行主体可以基于人体的动作参数是否符合人机交互提醒条件,在符合人机交互提醒条件时生成与人机交互提醒条件相对应的、提示人物的动作的提示信息,并向用户呈现这些提示信息,以指导用户的下一步人机交互动作。
本公开图4中的实施例中的生成3D关节点坐标的方法,在图2中所示的生成3D关节点回归模型的方法的基础上,进一步将包含人物的图像输入已训练的3D关节点回归模型,得到已训练的3D关节点回归模型输出的关节点热力图集合和关节点深度信息图集合,并基于关节点热力图集合和关节点深度信息图集合,确定人物的3D关节点坐标,提高了所确定的任务的3D关节点坐标的准确率和效率。
在部分实施例中,还可以基于人物的3D关节点坐标,确定人体的动作参数,再基于人体的动作参数,生成提示人物的动作的提示信息,从而提高人物的动作的准确性和针对性。
进一步参考图5,作为对上述各图所示方法的实现,本公开实施例提供了一种生成3D关节点回归模型的装置的一个实施例,该装置实施例与图2-图4中所示的方法实施例相对应,该装置具体可以应用于上述终端设备或服务器中。
如图5所示,本实施例的生成3D关节点回归模型的装置500可以包括:样本图像获取单元510,被配置成获取附有2D标签的样本图像和附有3D标签的样本图像;部分通道训练单元520,被配置成将附有2D标签的样本图像作为第一输入,将与2D标签对应的关节点热力图集合作为第一期望输出,训练基础3D关节点回归模型的输出层中的部分通道;所有通道训练单元530,被配置成将附有3D标签的样本图像作为第二输入,将与3D标签对应的关节点热力图集合作为第二期望输出的第一部分输出、与3D标签对应的关节点深度信息图集合作为第二期望输出的第二部分输出,训练基础3D关节点回归模型的输出层中的所有通道。
在一些实施例中,部分通道训练单元520进一步被配置成:将附有2D标签的样本图像作为第一输入,将与2D标签对应的关节点热力图集合作为第一期望输出,将与附有2D标签的样本图像对应的几何约束损失函数作为对应第一期望输出的损失函数,训练基础3D关节点回归模型的输出层中的部分通道。
在一些实施例中,所有通道训练单元530进一步被配置成:将附有3D标签的样本图像作为第二输入,将与3D标签对应的关节点热力图集合作为第二期望输出的第一部分输出、与3D标签对应的关节点深度信息图集合作为第二期望输出的第二部分输出,并将与附有3D标签的样本图像对应的几何约束损失函数的加权值作为对应第二期望输出的第一部分输出的损失函数,将与附有3D标签的样本图像对应的欧式距离损失函数的加权值作为对应第二期望输出的第二部分输出的损失函数,训练基础3D关节点回归模型的输出层中的所有通道。
在一些实施例中,部分通道训练单元或所有通道训练单元两者中的几何约束损失函数包括:各个预测骨骼的长度比例与样本图像集骨骼的长度比例的平均值之间的欧式距离;其中,预测骨骼为基础3D关节点回归模型输出的关节点热力图集合中的骨骼;各个预测骨骼的长度比例为:单次训练所选取的样本图像集中的各张样本图像所对应的各个预测骨骼的长度与基准数据集中的骨骼的长度的比例;样本图像集骨骼的长度比例为:单次训练所选取的图像样本集中的所有样本图像所对应的所有的预测骨骼的长度与基准数据集中的骨骼的长度的比例。
在一些实施例中,所有通道训练单元中与附有3D标签的样本图像对应的欧式距离损失函数包括:在将附有3D标签的样本图像作为第二输入时,基础3D关节点回归模型输出的关节点深度信息图集合中的深度信息与3D标签中标注的关节点深度信息的欧式距离。
在一些实施例中,部分通道训练单元或所有通道训练单元两者中的基础3D关节点回归模型包括以下任意一项:初始3D关节点回归模型;或采用附有2D标签的样本图像训练初始3D关节点回归模型所得到的预训练的3D关节点回归模型。
在一些实施例中,预训练的3D关节点回归模型经由以下步骤确定:将附有2D标签的样本图像作为输入、将2D标签作为期望输出、将基于关节点回归模型输出的关节点热力图集合所确定的关节点坐标与2D标签中的2D关节点坐标之间的欧式距离作为损失函数,训练初始3D关节点回归模型得到。
应当理解,装置500中记载的各个单元与参考图2-图3描述的方法中记载的各个步骤相对应。由此,上文针对方法描述的操作和特征同样适用于装置500及其中包含的各个单元,在此不再赘述。
进一步参考图6,作为对上述各图所示方法的实现,本公开实施例提供了一种生成3D关节点坐标的装置的一个实施例,该装置实施例与图4中所示的方法实施例相对应,该装置具体可以应用于上述终端设备或服务器中。
如图6所示,本实施例的生成3D关节点坐标的装置600可以包括:图像获取单元610,被配置成获取包含人物的图像;图像输入单元620,被配置成将图像输入已训练的3D关节点回归模型,得到已训练的3D关节点回归模型输出的关节点热力图集合和关节点深度信息图集合;其中,已训练的3D关节点回归模型采用如上述实施例中任意一项的生成3D关节点回归模型的装置训练基础3D关节点回归模型得到;坐标确定单元630,被配置成基于关节点热力图集合和关节点深度信息图集合,确定人物的3D关节点坐标。
在一些实施例中,装置还包括:动作参数确定单元,被配置成基于人物的3D关节点坐标,确定人体的动作参数;提示信息生成单元,被配置成基于人体的动作参数,生成提示人物的动作的提示信息。
应当理解,装置600中记载的各个单元与参考图4描述的方法中记载的各个步骤相对应。由此,上文针对方法描述的操作和特征同样适用于装置600及其中包含的各个单元,在此不再赘述。
下面参考图7,其示出了适于用来实现本公开的实施例的电子设备(例如图1中的服务器或终端设备)700的结构示意图。本公开的实施例中的终端设备可以包括但不限于诸如笔记本电脑、台式计算机等。图7示出的终端设备/服务器仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图7所示,电子设备700可以包括处理装置(例如中央处理器、图形处理器等)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储装置708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有电子设备700操作所需的各种程序和数据。处理装置701、ROM 702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
通常,以下装置可以连接至I/O接口705:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置706;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置707;包括例如磁带、硬盘等的存储装置708;以及通信装置709。通信装置709可以允许电子设备700与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备700,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图7中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置709从网络上被下载和安装,或者从存储装置708被安装,或者从ROM 702被安装。在该计算机程序被处理装置701执行时,执行本公开的实施例的方法中限定的上述功能。
需要说明的是,本公开的实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取附有2D标签的样本图像和附有3D标签的样本图像;将附有2D标签的样本图像作为第一输入,将与2D标签对应的关节点热力图集合作为第一期望输出,训练基础3D关节点回归模型的输出层中的部分通道;将附有3D标签的样本图像作为第二输入,将与3D标签对应的关节点热力图集合作为第二期望输出的第一部分输出、与3D标签对应的关节点深度信息图集合作为第二期望输出的第二部分输出,训练基础3D关节点回归模型的输出层中的所有通道。或者获取包含人物的图像;将图像输入已训练的3D关节点回归模型,得到已训练的3D关节点回归模型输出的关节点热力图集合和关节点深度信息图集合;基于关节点热力图集合和关节点深度信息图集合,确定人物的3D关节点坐标。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括样本图像获取单元、部分通道训练单元和所有通道训练单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,样本图像获取单元还可以被描述为“获取附有2D标签的样本图像和附有3D标签的样本图像的单元”。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (20)
1.一种生成3D关节点回归模型的方法,所述方法包括:
获取附有2D标签的样本图像和附有3D标签的样本图像;
将所述附有2D标签的样本图像作为第一输入,将与2D标签对应的关节点热力图集合作为第一期望输出,训练基础3D关节点回归模型的输出层中的部分通道;
将所述附有3D标签的样本图像作为第二输入,将与3D标签对应的关节点热力图集合作为第二期望输出的第一部分输出、与3D标签对应的关节点深度信息图集合作为第二期望输出的第二部分输出,训练所述基础3D关节点回归模型的输出层中的所有通道。
2.根据权利要求1所述的方法,其中,所述将所述附有2D标签的样本图像作为第一输入,将与2D标签对应的关节点热力图集合作为第一期望输出,训练基础3D关节点回归模型的输出层中的部分通道包括:
将所述附有2D标签的样本图像作为第一输入,将与2D标签对应的关节点热力图集合作为第一期望输出,将与附有2D标签的样本图像对应的几何约束损失函数作为对应所述第一期望输出的损失函数,训练基础3D关节点回归模型的输出层中的部分通道。
3.根据权利要求1所述的方法,其中,所述将所述附有3D标签的样本图像作为第二输入,将与3D标签对应的关节点热力图集合作为第二期望输出的第一部分输出、与3D标签对应的关节点深度信息图集合作为第二期望输出的第二部分输出,训练所述基础3D关节点回归模型的输出层中的所有通道包括:
将所述附有3D标签的样本图像作为第二输入,将与3D标签对应的关节点热力图集合作为第二期望输出的第一部分输出、与3D标签对应的关节点深度信息图集合作为第二期望输出的第二部分输出,并将与附有3D标签的样本图像对应的几何约束损失函数的加权值作为对应所述第二期望输出的第一部分输出的损失函数,将与附有3D标签的样本图像对应的欧式距离损失函数的加权值作为对应所述第二期望输出的第二部分输出的损失函数,训练所述基础3D关节点回归模型的输出层中的所有通道。
4.根据权利要求2或3所述的方法,其中,所述几何约束损失函数包括:各个预测骨骼的长度比例与样本图像集骨骼的长度比例的平均值之间的欧式距离;其中,预测骨骼为所述基础3D关节点回归模型输出的关节点热力图集合中的骨骼;
各个预测骨骼的长度比例为:单次训练所选取的样本图像集中的各张样本图像所对应的各个预测骨骼的长度与基准数据集中的骨骼的长度的比例;
样本图像集骨骼的长度比例为:单次训练所选取的图像样本集中的所有样本图像所对应的所有的预测骨骼的长度与基准数据集中的骨骼的长度的比例。
5.根据权利要求3所述的方法,其中,所述与附有3D标签的样本图像对应的欧式距离损失函数包括:
在将所述附有3D标签的样本图像作为第二输入时,所述基础3D关节点回归模型输出的关节点深度信息图集合中的深度信息与所述3D标签中标注的关节点深度信息的欧式距离。
6.根据权利要求1所述的方法,其中,所述基础3D关节点回归模型包括以下任意一项:初始3D关节点回归模型;或
采用附有2D标签的样本图像训练初始3D关节点回归模型所得到的预训练的3D关节点回归模型。
7.根据权利要求6所述的方法,其中,所述预训练的3D关节点回归模型经由以下步骤确定:
将附有2D标签的样本图像作为输入、将所述2D标签作为期望输出、将基于关节点回归模型输出的关节点热力图集合所确定的关节点坐标与2D标签中的2D关节点坐标之间的欧式距离作为损失函数,训练所述初始3D关节点回归模型得到。
8.一种生成3D关节点坐标的方法,包括:
获取包含人物的图像;
将所述图像输入已训练的3D关节点回归模型,得到所述已训练的3D关节点回归模型输出的关节点热力图集合和关节点深度信息图集合;其中,所述已训练的3D关节点回归模型采用如权利要求1-7中任意一项所述的生成3D关节点回归模型的方法训练基础3D关节点回归模型得到;
基于所述关节点热力图集合和关节点深度信息图集合,确定所述人物的3D关节点坐标。
9.根据权利要求8所述的方法,其中,所述方法还包括:
基于所述人物的3D关节点坐标,确定人体的动作参数;
基于所述人体的动作参数,生成提示所述人物的动作的提示信息。
10.一种生成3D关节点回归模型的装置,所述装置包括:
样本图像获取单元,被配置成获取附有2D标签的样本图像和附有3D标签的样本图像;
部分通道训练单元,被配置成将所述附有2D标签的样本图像作为第一输入,将与2D标签对应的关节点热力图集合作为第一期望输出,训练基础3D关节点回归模型的输出层中的部分通道;
所有通道训练单元,被配置成将所述附有3D标签的样本图像作为第二输入,将与3D标签对应的关节点热力图集合作为第二期望输出的第一部分输出、与3D标签对应的关节点深度信息图集合作为第二期望输出的第二部分输出,训练所述基础3D关节点回归模型的输出层中的所有通道。
11.根据权利要求10所述的装置,其中,所述部分通道训练单元进一步被配置成:
将所述附有2D标签的样本图像作为第一输入,将与2D标签对应的关节点热力图集合作为第一期望输出,将与附有2D标签的样本图像对应的几何约束损失函数作为对应所述第一期望输出的损失函数,训练基础3D关节点回归模型的输出层中的部分通道。
12.根据权利要求10所述的装置,其中,所述所有通道训练单元进一步被配置成:
将所述附有3D标签的样本图像作为第二输入,将与3D标签对应的关节点热力图集合作为第二期望输出的第一部分输出、与3D标签对应的关节点深度信息图集合作为第二期望输出的第二部分输出,并将与附有3D标签的样本图像对应的几何约束损失函数的加权值作为对应所述第二期望输出的第一部分输出的损失函数,将与附有3D标签的样本图像对应的欧式距离损失函数的加权值作为对应所述第二期望输出的第二部分输出的损失函数,训练所述基础3D关节点回归模型的输出层中的所有通道。
13.根据权利要求11或12所述的装置,其中,所述部分通道训练单元或所述所有通道训练单元两者中的几何约束损失函数包括:各个预测骨骼的长度比例与样本图像集骨骼的长度比例的平均值之间的欧式距离;
其中,预测骨骼为所述基础3D关节点回归模型输出的关节点热力图集合中的骨骼;
各个预测骨骼的长度比例为:单次训练所选取的样本图像集中的各张样本图像所对应的各个预测骨骼的长度与基准数据集中的骨骼的长度的比例;
样本图像集骨骼的长度比例为:单次训练所选取的图像样本集中的所有样本图像所对应的所有的预测骨骼的长度与基准数据集中的骨骼的长度的比例。
14.根据权利要求12所述的装置,其中,所述所有通道训练单元中与附有3D标签的样本图像对应的欧式距离损失函数包括:
在将所述附有3D标签的样本图像作为第二输入时,所述基础3D关节点回归模型输出的关节点深度信息图集合中的深度信息与所述3D标签中标注的关节点深度信息的欧式距离。
15.根据权利要求10所述的装置,其中,所述部分通道训练单元或所述所有通道训练单元两者中的所述基础3D关节点回归模型包括以下任意一项:初始3D关节点回归模型;或
采用附有2D标签的样本图像训练初始3D关节点回归模型所得到的预训练的3D关节点回归模型。
16.根据权利要求15所述的装置,其中,所述预训练的3D关节点回归模型经由以下步骤确定:
将附有2D标签的样本图像作为输入、将所述2D标签作为期望输出、将基于关节点回归模型输出的关节点热力图集合所确定的关节点坐标与2D标签中的2D关节点坐标之间的欧式距离作为损失函数,训练所述初始3D关节点回归模型得到。
17.一种生成3D关节点坐标的装置,包括:
图像获取单元,被配置成获取包含人物的图像;
图像输入单元,被配置成将所述图像输入已训练的3D关节点回归模型,得到所述已训练的3D关节点回归模型输出的关节点热力图集合和关节点深度信息图集合;其中,所述已训练的3D关节点回归模型采用如权利要求10-16中任意一项所述的生成3D关节点回归模型的装置训练基础3D关节点回归模型得到;
坐标确定单元,被配置成基于所述关节点热力图集合和关节点深度信息图集合,确定所述人物的3D关节点坐标。
18.根据权利要求17所述的装置,其中,所述装置还包括:
动作参数确定单元,被配置成基于所述人物的3D关节点坐标,确定人体的动作参数;
提示信息生成单元,被配置成基于所述人体的动作参数,生成提示所述人物的动作的提示信息。
19.一种电子设备/终端/服务器,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。
20.一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-9中任一所述的方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010064261.5A CN111260774B (zh) | 2020-01-20 | 2020-01-20 | 生成3d关节点回归模型的方法和装置 |
US17/021,218 US11341718B2 (en) | 2020-01-20 | 2020-09-15 | Method and apparatus for generating 3D joint point regression model |
JP2021006367A JP7361060B2 (ja) | 2020-01-20 | 2021-01-19 | 3d関節点回帰モデル生成方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム |
KR1020210008115A KR102382419B1 (ko) | 2020-01-20 | 2021-01-20 | 3d 관절 점 회귀 모델의 생성 방법 및 장치 |
EP21152567.0A EP3859678A1 (en) | 2020-01-20 | 2021-01-20 | Method and apparatus for generating 3d joint point regression model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010064261.5A CN111260774B (zh) | 2020-01-20 | 2020-01-20 | 生成3d关节点回归模型的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111260774A true CN111260774A (zh) | 2020-06-09 |
CN111260774B CN111260774B (zh) | 2023-06-23 |
Family
ID=70950782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010064261.5A Active CN111260774B (zh) | 2020-01-20 | 2020-01-20 | 生成3d关节点回归模型的方法和装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11341718B2 (zh) |
EP (1) | EP3859678A1 (zh) |
JP (1) | JP7361060B2 (zh) |
KR (1) | KR102382419B1 (zh) |
CN (1) | CN111260774B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113449637A (zh) * | 2021-06-28 | 2021-09-28 | 桂林电子科技大学 | 毫米波雷达人体骨骼姿势估计方法和装置 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505768A (zh) * | 2021-09-10 | 2021-10-15 | 北京的卢深视科技有限公司 | 模型训练、人脸识别方法、电子设备及存储介质 |
KR102421776B1 (ko) * | 2021-09-27 | 2022-07-19 | 주식회사 넥스트도어 | 3차원 객체모델 생성 장치 및 그 방법 |
CN114550203B (zh) * | 2022-01-11 | 2024-10-01 | 南昌虚拟现实研究院股份有限公司 | 关节关键点的三维坐标的确定方法及其相关设备 |
CN115171149B (zh) * | 2022-06-09 | 2023-12-05 | 广州紫为云科技有限公司 | 基于单目rgb图像回归的实时人体2d/3d骨骼关键点识别方法 |
WO2024073698A1 (en) * | 2022-09-30 | 2024-04-04 | Hinge Health, Inc. | Two-dimensional pose estimation based on bipartite matching of joint type heatmaps and joint person heatmaps |
KR102619701B1 (ko) * | 2022-12-30 | 2024-01-02 | 주식회사 쓰리아이 | 동적 객체에 대한 3차원 자세 추정 데이터 생성 방법 및 그를 위한 컴퓨팅 장치 |
CN116958584B (zh) * | 2023-09-21 | 2024-01-05 | 腾讯科技(深圳)有限公司 | 关键点检测方法、回归模型的训练方法、装置及电子设备 |
CN118644808A (zh) * | 2024-08-13 | 2024-09-13 | 杭州倚澜科技有限公司 | 基于骨骼约束的人体形状和姿态估计的自监督学习方法 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04270372A (ja) * | 1990-12-25 | 1992-09-25 | Kongouzen Souhonzan Shiyourinji | 技能開発方法 |
US5625577A (en) * | 1990-12-25 | 1997-04-29 | Shukyohojin, Kongo Zen Sohonzan Shorinji | Computer-implemented motion analysis method using dynamics |
JP2002259474A (ja) * | 2001-03-05 | 2002-09-13 | Oojisu Soken:Kk | 人体モデル生成方法、人体モデル生成装置、コンピュータプログラム及び記録媒体 |
WO2016207311A1 (en) * | 2015-06-24 | 2016-12-29 | MAX-PLANCK-Gesellschaft zur Förderung der Wissenschaften e.V. | Skinned multi-person linear model |
CN107392097A (zh) * | 2017-06-15 | 2017-11-24 | 中山大学 | 一种单目彩色视频的三维人体关节点定位方法 |
WO2018154331A1 (en) * | 2017-02-27 | 2018-08-30 | Metail Limited | Method of generating an image file of a 3d body model of a user wearing a garment |
CN109299685A (zh) * | 2018-09-14 | 2019-02-01 | 北京航空航天大学青岛研究院 | 用于人体关节3d坐标估计的推断网络及其方法 |
CN109508681A (zh) * | 2018-11-20 | 2019-03-22 | 北京京东尚科信息技术有限公司 | 生成人体关键点检测模型的方法和装置 |
GB201902459D0 (en) * | 2019-02-22 | 2019-04-10 | Facesoft Ltd | Facial shape representation and generation system and method |
CN110009059A (zh) * | 2019-04-16 | 2019-07-12 | 北京字节跳动网络技术有限公司 | 用于生成模型的方法和装置 |
CN110188700A (zh) * | 2019-05-31 | 2019-08-30 | 安徽大学 | 基于分组回归模型的人体三维关节点预测方法 |
WO2019207176A1 (es) * | 2018-04-25 | 2019-10-31 | Seddi, Inc. | Modelado de dinámica de tejido blando no lineal para avatares interactivos |
WO2020113886A1 (zh) * | 2018-12-07 | 2020-06-11 | 中国科学院自动化研究所 | 基于时空频域混合学习的行为特征提取方法、系统、装置 |
WO2021221657A1 (en) * | 2020-04-30 | 2021-11-04 | Google Llc | Generative nonlinear human shape models |
WO2021237875A1 (zh) * | 2020-05-29 | 2021-12-02 | 广州幻境科技有限公司 | 基于图卷积网络的手部数据识别方法、系统和存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4270372B2 (ja) | 2003-05-20 | 2009-05-27 | 東洋ゴム工業株式会社 | ランフラットタイヤ |
GB2554633B (en) * | 2016-06-24 | 2020-01-22 | Imperial College Sci Tech & Medicine | Detecting objects in video data |
US10380413B2 (en) * | 2017-07-13 | 2019-08-13 | Robert Bosch Gmbh | System and method for pose-invariant face alignment |
US20200311574A1 (en) * | 2017-09-29 | 2020-10-01 | Nec Corporation | Regression apparatus, regression method, and computer-readable storage medium |
CN110622213B (zh) * | 2018-02-09 | 2022-11-15 | 百度时代网络技术(北京)有限公司 | 利用3d语义地图进行深度定位和分段的系统和方法 |
US11475630B2 (en) * | 2018-10-17 | 2022-10-18 | Midea Group Co., Ltd. | System and method for generating acupuncture points on reconstructed 3D human body model for physical therapy |
CN109858524B (zh) * | 2019-01-04 | 2020-10-16 | 北京达佳互联信息技术有限公司 | 手势识别方法、装置、电子设备及存储介质 |
US10853970B1 (en) * | 2019-03-22 | 2020-12-01 | Bartec Corporation | System for estimating a three dimensional pose of one or more persons in a scene |
EP3731185A1 (en) * | 2019-04-26 | 2020-10-28 | Tata Consultancy Services Limited | Weakly supervised learning of 3d human poses from 2d poses |
US11417011B2 (en) * | 2020-02-11 | 2022-08-16 | Nvidia Corporation | 3D human body pose estimation using a model trained from unlabeled multi-view data |
-
2020
- 2020-01-20 CN CN202010064261.5A patent/CN111260774B/zh active Active
- 2020-09-15 US US17/021,218 patent/US11341718B2/en active Active
-
2021
- 2021-01-19 JP JP2021006367A patent/JP7361060B2/ja active Active
- 2021-01-20 EP EP21152567.0A patent/EP3859678A1/en active Pending
- 2021-01-20 KR KR1020210008115A patent/KR102382419B1/ko active IP Right Grant
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5625577A (en) * | 1990-12-25 | 1997-04-29 | Shukyohojin, Kongo Zen Sohonzan Shorinji | Computer-implemented motion analysis method using dynamics |
JPH04270372A (ja) * | 1990-12-25 | 1992-09-25 | Kongouzen Souhonzan Shiyourinji | 技能開発方法 |
JP2002259474A (ja) * | 2001-03-05 | 2002-09-13 | Oojisu Soken:Kk | 人体モデル生成方法、人体モデル生成装置、コンピュータプログラム及び記録媒体 |
WO2016207311A1 (en) * | 2015-06-24 | 2016-12-29 | MAX-PLANCK-Gesellschaft zur Förderung der Wissenschaften e.V. | Skinned multi-person linear model |
US20200066029A1 (en) * | 2017-02-27 | 2020-02-27 | Metail Limited | Method of generating an image file of a 3d body model of a user wearing a garment |
WO2018154331A1 (en) * | 2017-02-27 | 2018-08-30 | Metail Limited | Method of generating an image file of a 3d body model of a user wearing a garment |
CN107392097A (zh) * | 2017-06-15 | 2017-11-24 | 中山大学 | 一种单目彩色视频的三维人体关节点定位方法 |
WO2019207176A1 (es) * | 2018-04-25 | 2019-10-31 | Seddi, Inc. | Modelado de dinámica de tejido blando no lineal para avatares interactivos |
CN109299685A (zh) * | 2018-09-14 | 2019-02-01 | 北京航空航天大学青岛研究院 | 用于人体关节3d坐标估计的推断网络及其方法 |
CN109508681A (zh) * | 2018-11-20 | 2019-03-22 | 北京京东尚科信息技术有限公司 | 生成人体关键点检测模型的方法和装置 |
WO2020113886A1 (zh) * | 2018-12-07 | 2020-06-11 | 中国科学院自动化研究所 | 基于时空频域混合学习的行为特征提取方法、系统、装置 |
GB201902459D0 (en) * | 2019-02-22 | 2019-04-10 | Facesoft Ltd | Facial shape representation and generation system and method |
CN110009059A (zh) * | 2019-04-16 | 2019-07-12 | 北京字节跳动网络技术有限公司 | 用于生成模型的方法和装置 |
CN110188700A (zh) * | 2019-05-31 | 2019-08-30 | 安徽大学 | 基于分组回归模型的人体三维关节点预测方法 |
WO2021221657A1 (en) * | 2020-04-30 | 2021-11-04 | Google Llc | Generative nonlinear human shape models |
WO2021237875A1 (zh) * | 2020-05-29 | 2021-12-02 | 广州幻境科技有限公司 | 基于图卷积网络的手部数据识别方法、系统和存储介质 |
Non-Patent Citations (10)
Title |
---|
ALEXANDROS ANDR CHAARAOUI 等: "《A review on vision techniques applied to human behavior analysis for ambient-assisted living》", 《EXPERT SYSTEMS WITH APPLICATIONS》 * |
ALEXANDROS ANDR CHAARAOUI 等: "《A review on vision techniques applied to human behavior analysis for ambient-assisted living》", 《EXPERT SYSTEMS WITH APPLICATIONS》, 15 September 2012 (2012-09-15), pages 1 - 50 * |
PENGFEI REN 等: "《SRN: Stacked regression network for real-time 3d hand pose estimation》", 《STACKED REGRESSION》 * |
PENGFEI REN 等: "《SRN: Stacked regression network for real-time 3d hand pose estimation》", 《STACKED REGRESSION》, 31 December 2019 (2019-12-31), pages 1 - 14 * |
XINGYI ZHOU 等: "《Towards 3D Human Pose Estimation in the Wild: A Weakly-Supervised Approach》", 《PROCEEDINGS OF THE IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION》 * |
XINGYI ZHOU 等: "《Towards 3D Human Pose Estimation in the Wild: A Weakly-Supervised Approach》", 《PROCEEDINGS OF THE IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION》, 31 December 2017 (2017-12-31), pages 398 - 407 * |
张宏源等: "基于伪三维卷积神经网络的手势姿态估计", 《计算机应用研究》 * |
张宏源等: "基于伪三维卷积神经网络的手势姿态估计", 《计算机应用研究》, no. 04, 28 January 2019 (2019-01-28), pages 276 - 279 * |
杨永刚: "《基于单张彩色图片的手势估计方法研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
杨永刚: "《基于单张彩色图片的手势估计方法研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 January 2020 (2020-01-15), pages 138 - 1491 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113449637A (zh) * | 2021-06-28 | 2021-09-28 | 桂林电子科技大学 | 毫米波雷达人体骨骼姿势估计方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
US20210225069A1 (en) | 2021-07-22 |
KR20210093795A (ko) | 2021-07-28 |
JP2021114295A (ja) | 2021-08-05 |
KR102382419B1 (ko) | 2022-04-08 |
EP3859678A1 (en) | 2021-08-04 |
CN111260774B (zh) | 2023-06-23 |
JP7361060B2 (ja) | 2023-10-13 |
US11341718B2 (en) | 2022-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111260774B (zh) | 生成3d关节点回归模型的方法和装置 | |
CN109800732B (zh) | 用于生成漫画头像生成模型的方法和装置 | |
EP3872764B1 (en) | Method and apparatus for constructing map | |
CN109754464B (zh) | 用于生成信息的方法和装置 | |
CN110009059B (zh) | 用于生成模型的方法和装置 | |
CN111524216B (zh) | 生成三维人脸数据的方法和装置 | |
CN108427941B (zh) | 用于生成人脸检测模型的方法、人脸检测方法和装置 | |
CN109800730B (zh) | 用于生成头像生成模型的方法和装置 | |
CN110288705B (zh) | 生成三维模型的方法和装置 | |
CN111967339B (zh) | 用于规划无人机路径的方法和装置 | |
CN109272543B (zh) | 用于生成模型的方法和装置 | |
CN111652675A (zh) | 展示方法、装置和电子设备 | |
CN112734910A (zh) | 基于rgb单图实时人脸三维图像重建方法、装置及电子设备 | |
CN116453221B (zh) | 目标对象姿态确定方法、训练方法、装置以及存储介质 | |
CN111026849B (zh) | 数据处理方法和装置 | |
CN112818898A (zh) | 模型训练方法、装置和电子设备 | |
CN111340015A (zh) | 定位方法和装置 | |
CN112270242B (zh) | 轨迹的显示方法、装置、可读介质和电子设备 | |
CN113822097B (zh) | 单视角人体姿态识别方法、装置、电子设备和存储介质 | |
CN109816791B (zh) | 用于生成信息的方法和装置 | |
WO2024060708A1 (zh) | 目标检测方法和装置 | |
CN110991661A (zh) | 用于生成模型的方法和装置 | |
CN112880675B (zh) | 用于视觉定位的位姿平滑方法、装置、终端和移动机器人 | |
CN111369624B (zh) | 定位方法和装置 | |
CN111311712B (zh) | 视频帧处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |