CN110020633B - 姿态识别模型的训练方法、图像识别方法及装置 - Google Patents
姿态识别模型的训练方法、图像识别方法及装置 Download PDFInfo
- Publication number
- CN110020633B CN110020633B CN201910294734.8A CN201910294734A CN110020633B CN 110020633 B CN110020633 B CN 110020633B CN 201910294734 A CN201910294734 A CN 201910294734A CN 110020633 B CN110020633 B CN 110020633B
- Authority
- CN
- China
- Prior art keywords
- dimensional
- model
- human body
- parameters
- gesture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/75—Determining position or orientation of objects or cameras using feature-based methods involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
- G06V20/647—Three-dimensional objects by matching two-dimensional images to three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Psychiatry (AREA)
- Medical Informatics (AREA)
- Social Psychology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明提供了一种姿态识别模型的训练方法、图像识别方法及装置;姿态识别模型的训练方法包括:将标注有人体关键点的样本图像,输入所述姿态识别模型包括的特征图模型,输出对应所述样本图像的特征图;将所述特征图输入所述姿态识别模型包括的二维模型,输出用于表征二维人体姿态的二维关键点参数;将从所述特征图中剪裁出的目标人体特征图及所述二维关键点信息,输入所述姿态识别模型包括的三维模型,输出用于表征三维人体姿态的三维姿态参数;结合所述二维关键点参数及所述三维姿态参数,构建目标损失函数;基于所述目标损失函数,更新所述姿态识别模型的模型参数。
Description
技术领域
本发明涉及机器学习技术领域,尤其涉及一种姿态识别模型的训练方法、图像识别方法及装置。
背景技术
机器学习(ML,machine Learning)是人工智能的一个分支,其目的是让机器根据先验的知识进行学习,从而具有分类和判断的逻辑能力。以神经网络为代表的机器学习模型不断发展,被逐渐应用到人体姿态识别中,从而实现基于人体姿态的各种智能化应用。
相关技术中,用于识别人体二维姿态信息以及三维姿态信息的神经网络模型互不兼容,需要单独进行训练,训练所需计算资源量大、训练效率低。
发明内容
本发明实施例提供一种姿态识别模型的训练方法、基于姿态识别模型的图像识别方法、装置及存储介质,能够实现兼容识别人体二维姿态信息及三维姿态信息的模型。
本发明实施例提供一种姿态识别模型的训练方法,包括:
通过姿态识别模型包括的特征图模型,对标注有人体关键点的样本图像进行处理,获得对应所述样本图像的特征图;
通过所述姿态识别模型包括的二维模型,对所述特征图进行处理,获得用于表征二维人体姿态的二维关键点参数;
通过所述姿态识别模型包括的三维模型,对从所述特征图中剪裁出的目标人体特征图及所述二维关键点参数进行处理,获得用于表征三维人体姿态的三维姿态参数;
结合所述二维关键点参数及所述三维姿态参数,构建目标损失函数;
基于所述目标损失函数,更新所述姿态识别模型的模型参数。
本发明实施例还提供了一种基于姿态识别模型的图像识别方法,所述方法包括:
通过所述姿态识别模型包括的特征图模型,对包含人体的待识别图像进行处理,获得对应所述待识别图像的特征图;
通过所述姿态识别模型包括的二维模型,对所述特征图进行处理,获得用于表征二维人体姿态的二维关键点参数,所述二维关键点参数用于识别得到所述人体的二维姿态;
通过所述姿态识别模型包括的三维模型,对从所述特征图中剪裁出的目标人体特征图及所述二维关键点参数进行处理,获得用于表征三维人体姿态的三维姿态参数,所述三维姿态参数用于识别得到所述人体的三维姿态。
本发明实施例还提供了一种姿态识别模型的训练装置,包括:
第一处理单元,用于通过姿态识别模型包括的特征图模型,对标注有人体关键点的样本图像进行处理,获得对应所述样本图像的特征图;
第二处理单元,用于通过所述姿态识别模型包括的二维模型,对所述特征图进行处理,获得用于表征二维人体姿态的二维关键点参数;
第三处理单元,用于通过所述姿态识别模型包括的三维模型,对从所述特征图中剪裁出的目标人体特征图及所述二维关键点参数进行处理,获得用于表征三维人体姿态的三维姿态参数;
构建单元,用于结合所述二维关键点参数及所述三维姿态参数,构建目标损失函数;
更新单元,用于基于所述目标损失函数,更新所述姿态识别模型的模型参数。
上述方案中,所述装置还包括:
标注单元,用于确定对应当前配置场景的人体关键点,不同的所述配置场景对应关键点集中不同的人体关键点;
基于所确定的人体关键点,参照所述关键点集对所述样本图像进行标注。
上述方案中,所述关键点集包括:
用于定位人体部位的基准关键点、与所述基准关键点协同表征所属部位的不同三维姿态的扩展关键点。
上述方案中,所述目标损失函数包括对应所述三维模型的第一损失函数;
所述构建单元,还用于基于所述三维姿态参数,确定相应的二维关键点信息;
结合所述二维模型输出的二维关键点参数、以及采用所述三维姿态参数表征的二维关键点信息,构造对应所述三维模型的第一损失函数。
上述方案中,所述目标损失函数还包括对应所述二维模型的损失函数及对应所述三维模型的第二损失函数;
所述二维关键点参数包括:人体关键点的部分亲和字段参数及人体关键点的热力图,所述三维姿态参数包括:人体的形状参数及形态参数;
所述构建单元,还用于结合所述二维模型输出的部分亲和字段参数与相应人体关键点在样本图像中的部分亲和字段参数的差异、所述二维模型输出的热力图与相应人体关键点在样本图像中的热力图的差异,构建对应所述二维模型的损失函数;
结合所述三维模型输出的形状参数与相应人体在样本图像中的形状参数的差异、所述三维模型输出的形态参数与相应人体在样本图像中的形态参数的差异,构建对应所述三维模型的第二损失函数。
上述方案中,所述装置还包括:
剪裁单元,用于基于所述二维模型输出的所述二维关键点参数,确定所述特征图中的目标人体;
根据确定的目标人体对所述特征图进行剪裁,得到所述目标人体的特征图。
上述方案中,所述更新单元,还用于基于所述二维模型输出的所述二维关键点参数及所述三维模型输出的所述三维姿态参数,确定所述目标损失函数的值;
当所述目标损失函数的值超出预设阈值时,基于所述目标损失函数确定所述姿态识别模型的误差信号;
将所述误差信号在所述姿态识别模型中反向传播,并在传播的过程中更新各个层的模型参数。
本发明实施例还提供了一种基于姿态识别模型的图像识别装置,所述装置包括:
第一获取单元,用于将包含人体的待识别图像,输入所述姿态识别模型包括的特征图模型,输出对应所述待识别图像的特征图;
第二获取单元,用于将所述特征图输入所述姿态识别模型包括的二维模型,输出用于表征二维人体姿态的二维关键点参数,所述二维关键点参数用于识别得到所述人体的二维姿态;
第三获取单元,用于将从所述特征图中剪裁出的目标人体特征图及所述二维关键点参数,输入所述姿态识别模型包括的三维模型,输出用于表征三维人体姿态的三维姿态参数,所述三维姿态参数用于识别得到所述人体的三维姿态。
上述方案中,所述装置还包括:
匹配单元,用于响应于所述待识别图像为基于输出特定人物姿态的图像后采集得到,基于所述二维模型输出的所述二维关键点参数,识别得到所述待识别图像中人体的二维姿态;
将识别得到的所述二维姿态与所述特定人物姿态进行相似度匹配,得到匹配结果;
提示单元,用于输出用于表征所述匹配结果的提示信息。
上述方案中,所述装置还包括:
人体模型单元,用于基于所述三维模型输出的所述三维姿态参数,构建对应所述目标人体的三维人体模型;
控制单元,用于控制所述三维人体模型执行目标动作,所述目标动作与所述目标人体所执行的动作相匹配。
本发明实施例还提供了一种姿态识别模型的训练装置,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的姿态识别模型的训练方法。
本发明实施例还提供了一种基于姿态识别模型的图像识别装置,所述装置包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的基于姿态识别模型的图像识别方法。
本发明实施例还提供了一种存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的姿态识别模型的训练方法。
本发明实施例还提供了一种存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的基于姿态识别模型的图像识别方法。
应用本发明实施例具有以下有益效果:
1)训练得到的姿态识别模型既能够输出人体二维姿态信息,又能够输出人体的三维姿态信息,实现了人体二维姿态信息及三维姿态信息的兼容;
2)对输出人体二维姿态信息及三维姿态信息的姿态识别模型的训练,采用一套训练样本,模型简单,训练效率高;
3)对姿态识别模型中三维模型的训练,采用二维模型输出的二维信息进行约束,使得三维模型输出的人体三维姿态信息的准确度更高。
附图说明
图1为相关技术提供的二维关键点识别模型的训练方法示意图;
图2为相关技术提供的人体三维模型的训练方法示意图;
图3为本发明实施例提供的姿态识别模型的实施场景的示意图;
图4为本发明实施例提供的姿态识别模型的训练装置的组成结构示意图;
图5是本发明实施例提供的姿态识别模型的结构示意图;
图6是本发明实施例提供的姿态识别模型的训练方法的流程示意图;
图7为本发明实施例提供的获取手部扩展关键点的流程示意图;
图8A为本发明实施例提供的对应第一配置场景的人体关键点的示意图;
图8B为本发明实施例提供的对应第二配置场景的人体关键点的示意图;
图8C为本发明实施例提供的对应第三配置场景的人体关键点的示意图;
图8D为本发明实施例提供的对应第四配置场景的人体关键点的示意图;
图9为本发明实施例提供的进行特征图提取的示意图;
图10为本发明实施例提供的人体关键点热力图的示意图;
图11是本发明实施例提供的基于姿态识别模型的图像识别方法的流程示意图;
图12为本发明实施例提供的采用姿态识别模型进行图像识别的流程示意图;
图13为本发明实施例提供的姿态识别模型的应用场景示意图;
图14为本发明实施例提供的姿态识别模型的应用场景示意图;
图15为本发明实施例提供的姿态识别模型的训练装置的组成结构示意图;
图16为本发明实施例提供的基于姿态识别模型的图像识别装置的组成结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)人体关键点,对人体姿态具有代表性的关键点,在实际应用中,该人体关键点可以是人体的骨骼关键点,骨骼便为人体关键点之间的连线,如头部关键点、脖颈关键点、肩部关键点、手肘关键点、手腕关键点、脚腕关键点、膝盖关键点、胯部关键点及脚踝关键点等。
2)响应于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
图1为相关技术提供的二维关键点识别模型的训练方法示意图,参见图1,二维关键点识别模型的训练所采用的训练样本取自COCO数据库(图像数据集),采用COCO数据库公开的17个人体关键点的方案进行训练,使用标注了17个人体关键点的图像数据作为训练样本,样本数据通过Darknet提取特征图,然后经部分亲和字段(PAF,Part Affinity Fields)处理以及Heatmap处理,使用L2的Loss训练,通过非极大值抑制(NMS,Non-MaximumSuppression)以及Grouping操作获得人体二维(2D)关键点以及人体关键点的归属人。
这里对PAF进行说明,PAF处理用于多人体关键点检测,通过二维方向向量的集合,表示肢体的位置和方向(也代表了两个关键点的关联程度),进而解决人体关键点归属哪个人的问题。基于PAF得到的人体关键点的二维方向向量,进行Grouping操作,使得关键点分属于图像中第几个人得以确认,经Grouping操作,人体关键点可连成骨架。
在一些实施方式中,还可以采用Openpose的18个人体关键点的方案以及基础8个人体关键点的方案进行人体二维姿态的识别。
图2为相关技术提供的人体三维模型的训练方法示意图,参见图2,采用蒙皮多人模型(SMPL,A Skinned Multi-Person Linear Model)的标准构建样本数据集,通过输入样本图像(携带shape和pose),输出SMPL 3D模型的参数(shape和pose)进行3D模型的训练,并使用L2Loss来回归参数。
通过上述对相关技术中人体的二维姿态信息的模型及人体三维模型的说明,可知:
对于二维关键点识别模型来说,无论是采用COCO数据库的17关键点方案,还是采用Openpose的18关键点方案,训练所采用的人体关键点总是一套,在应对不同业务时存在关键点信息的冗余以及缺陷,例如,只需要2D的上半身简单姿态信息的场景,只需要上半身8个关键点即可,此时采用17关键点或18关键点进行模型训练显然是关键点冗余,造成计算资源浪费。
对于人体三维模型来说,上述SMPL模型的训练所采用的模型参数为人体的形状(shape)参数及人体的形态(pose)参数,没有考虑二维信息的约束,如此训练得到的模型识别得到的人体的姿态动作会存在角度误差,动作不够准确,即识别准确度低,且该模型同样存在不同业务场景下存在关键点信息冗余以及缺陷的问题,例如,单纯需求上半身3D进行人机交互的场景,训练对应整个人体的三维模型显然造成计算资源浪费。
上述两种模型(对应二维信息识别的模型及人体三维模型)所采用的训练数据完全不同,互不兼容,且训练流程不同,若既想得到人体的二维姿态信息又想得到人体的三维姿态信息,需要分开训练两个不同的模型,处理不同的数据,耗费时间的同时也造成了计算资源的浪费,中央处理器(CPU,Central Processing Unit)及图形处理器(GPU,GraphicsProcessing Unit)等资源占用大。
基于此提出本发明实施例的姿态识别模型,训练得到的姿态识别模型既能够输出人体二维姿态信息,又能够输出人体的三维姿态信息,实现了人体二维姿态信息及三维姿态信息的兼容,且对输出人体二维姿态信息及三维姿态信息的姿态识别模型的训练,采用一套训练样本,模型简单,训练效率高;姿态识别模型中包括三维模型,对三维模型的训练,采用二维模型输出的二维信息进行约束,使得三维模型输出的人体三维姿态信息的准确度更高。
首先对本发明实施例的姿态识别模型的实施场景进行说明,图3为本发明实施例提供的姿态识别模型的实施场景的示意图,参见图3,为实现支撑一个示例性应用,终端(包括终端40-1和终端40-2),终端上设置有用于图像识别的客户端,终端通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输。
服务器200,用于将标注有人体关键点的样本图像,输入姿态识别模型包括的特征图模型,输出对应样本图像的特征图;将特征图输入姿态识别模型包括的二维模型,输出用于表征二维人体姿态的二维关键点参数;将从特征图中剪裁出的目标人体特征图及二维关键点信息,输入姿态识别模型包括的三维模型,输出用于表征三维人体姿态的三维姿态参数;结合二维关键点参数及三维姿态参数,构建目标损失函数;基于目标损失函数,更新姿态识别模型的模型参数;如此,实现对姿态识别模型的训练。
终端(终端40-1和/或终端40-2),用于发送携带待识别图像的识别请求给服务器200,该待识别图像中包括一个或多个人体。
服务器200,还用于接收终端发送的识别请求,采用得到的姿态识别模型对待识别图像进行识别,将识别结果(二维关键点参数和/或三维姿态参数)返回给终端。
终端(终端40-1和/或终端40-2),还用于基于服务器200返回的识别结果执行相应的应用,如驱动人体三维模型,基于识别结果确定相应的二维人体姿态并进行相应的评估。
接下来对本发明实施例提供的姿态识别模型的训练装置及基于姿态识别模型的图像识别装置进行说明。本发明实施例的姿态识别模型的训练装置及基于姿态识别模型的图像识别装置,均可以以各种形式来实施,如:由智能手机、平板电脑和台式机等终端单独实施,或者由终端、服务器协同实施。本发明实施例提供的姿态识别模型的训练装置及基于姿态识别模型的图像识别装置,均可以实施为硬件或者软硬件结合的方式,以本发明实施例的姿态识别模型的训练装置为例,下面说明本发明实施例提供的装置的各种示例性实施。
下面对本发明实施例的姿态识别模型的训练装置的硬件结构做详细说明,图4为本发明实施例提供的姿态识别模型的训练装置的组成结构示意图,可以理解,图4仅仅示出了姿态识别模型的训练装置的示例性结构而非全部结构,根据需要可以实施图4示出的部分结构或全部结构。
本发明实施例提供的姿态识别模型的训练装置包括:至少一个处理器401、存储器402、用户接口403和至少一个网络接口404。姿态识别模型的训练装置40中的各个组件通过总线系统405耦合在一起。可以理解,总线系统405用于实现这些组件之间的连接通信。总线系统405除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图4中将各种总线都标为总线系统405。
其中,用户接口403可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
可以理解,存储器402可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、闪存(Flash Memory)等。易失性存储器可以是随机存取存储器(RAM,Random Access Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,StaticRandom Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static RandomAccess Memory)。本发明实施例描述的存储器402旨在包括这些和任意其它适合类型的存储器。
本发明实施例中的存储器402能够存储数据以支持终端(如40-1)的操作。这些数据的示例包括:用于在终端(如40-1)上操作的任何计算机程序,如操作系统和应用程序。其中,操作系统包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。
作为本发明实施例提供的姿态识别模型的训练装置采用软硬件结合实施的示例,本发明实施例所提供的姿态识别模型的训练装置可以直接体现为由处理器401执行的软件模块组合,软件模块可以位于存储介质中,存储介质位于存储器402,处理器401读取存储器402中软件模块包括的可执行指令,结合必要的硬件(例如,包括处理器401以及连接到总线405的其他组件)完成本发明实施例提供的姿态识别模型的训练方法。
作为示例,处理器401可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
作为本发明实施例提供的姿态识别模型的训练装置采用硬件实施的示例,本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器401来执行完成,例如,被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的姿态识别模型的训练方法。
本发明实施例中的存储器402用于存储各种类型的数据以支持姿态识别模型的训练装置40的操作。这些数据的示例包括:用于在姿态识别模型的训练装置40上操作的任何可执行指令,如可执行指令,实现本发明实施例的姿态识别模型的训练方法的程序可以包含在可执行指令中。
基于上述对本发明实施例的姿态识别模型的实施场景、姿态识别模型的训练装置及基于姿态识别模型的图像识别装置的说明,接下来对本发明实施例的姿态识别模型的所应用的场景或领域进行说明,需要说明的是,本发明实施例的姿态识别模型并不限于以下所提到的场景或领域:
1、人机交互;
以用户与终端进行交互为例,终端中设置有客户端,在实际应用中,该客户端可以为游戏客户端、人体三维建模客户端等,终端上还设置有图形界面、图像采集装置及处理芯片,通过图像采集装置采集包含人体的图像,基于姿态识别模型识别图像中人体的二维人体姿态及三维人体姿态。
以客户端为游戏客户端为例,终端通过图形界面展示游戏人物的动作,以使用户基于终端所展示的人物动作进行模仿,通过图像采集装置采集用户所做的动作的图像,基于姿态识别模型识别图像中人体的二维人体姿态,并基于识别结果与游戏中人物所做的动作的相似度进行游戏的评估,如打分等。
以客户端为体感游戏客户端为例,终端通过图像采集装置采集包含用户的图像,基于姿态识别模型识别图像中人体的三维人体姿态,以构建对应用户的人体三维模型,并驱动所构建的人体三维模型执行与用户执行相同的动作,实现用户在游戏中的体感互动。
以用户与智能机器人交互为例,该智能机器人中设置有图像采集装置及处理芯片,图像采集装置能够采集智能机器人的前方区域的图像,处理芯片能够基于姿态识别模型识别区域图像中的人体姿态,并在识别出的人体姿态是预设姿态时,控制智能机器人做出预设响应。比如,当识别出的人体姿态是挥手姿态时,控制智能机器人做出欢迎动作。
2、无人驾驶;
无人驾驶车上设置有图像采集装置及处理芯片,图像采集装置能够采集无人驾驶车在行驶过程中前方的图像,处理芯片基于姿态识别模型识别图像中的人体姿态(二维和/或三维),以判别前方是否有人,以及人所处前方的位置等信息,以控制无人驾驶车减速或刹车等。
3、医疗领域;
医疗设备上设置有图像采集装置及处理芯片,图像采集装置能够采集用户的图像,处理芯片基于姿态识别模型识别图像中的三维人体姿态,以构建对应用户的人体三维模型,并基于构建的人体三维模型进行医学分析。
4、监控领域;
监控系统包括前端的图像采集设备及后端的图像处理设备,图像采集设备采集包含用户的图像后发送给图像处理设备,图像处理设备基于姿态识别模型识别图像中的人体姿态(二维和/或三维),并基于识别结果进行目标跟踪、姿态分析预警等。
在对本发明实施例提供的姿态识别模型的训练方法说明之前,先对本发明实施例提供的姿态识别模型的结构进行说明,图5是本发明实施例提供的姿态识别模型的结构示意图,参见图5,本发明实施例提供的姿态识别模型包括:特征图模型51、特征图剪裁单元52、二维模型53及三维模型54;其中,特征图模型51,用于对输入的图像进行特征提取,得到相应的特征图;特征图剪裁单元52,用于特征图模型输出的特征图进行剪裁,得到目标人体的特征图;二维模型53,用于对特征图模型输出的特征图进行识别,输出用于表征二维人体姿态的二维关键点参数;三维模型54,用于对特征图剪裁单元剪裁得到的目标人体的特征图、以及二维模型输出的二维关键点参数进行处理,输出用于表征三维人体姿态的三维姿态参数。
基于上述对姿态识别模型的结构的说明,接下来对本发明实施例提供的姿态识别模型的训练方法进行说明。图6是本发明实施例提供的姿态识别模型的训练方法的流程示意图,在一些实施例中,该训练方法可由服务器或终端实施,或由服务器及终端协同实施,以服务器实施为例,如通过图3中的服务器200实施,结合图5及图6,本发明实施例提供的姿态识别模型的训练方法包括:
步骤601:将标注有人体关键点的样本图像,输入姿态识别模型包括的特征图模型,输出对应样本图像的特征图。
在实际实施时,在进行姿态识别模型的训练之前,需要构建用于模型训练的样本图像,样本图像中包含人体,服务器对包含人体的样本图像进行人体关键点标注。在一些实施例中,包含多个配置场景,不同的配置场景对应关键点集中不同数量的人体关键点,服务器在确定对应当前配置场景的人体关键点后,基于所确定的人体关键点,参照关键点集对包含人体的样本图像进行人体关键点标注。
这里,对关键点集进行说明,在一些实施例中,关键点集包括:用于定位人体部位的基准关键点、与基准关键点协同表征所属部位的不同三维姿态的扩展关键点。
在实际应用中,基准关键点可以为COCO数据集中提供的17个人体关键点,而扩展关键点则与这17个人体关键点中的一个或多个协同表征所属部位的不同三维姿态。例如,为了表征人体头部的三维姿态,扩展关键点可以为头顶关键点和/或下巴关键点,与鼻尖关键点(基准关键点)协同表征头部的抬头、点头、转头等动作;再如,为了表征人体手部的三维姿态,扩展关键点可以为大拇指关键点、手心关键点及中指关键点中的至少一个,与手腕关键点(基准关键点)协同表征手部的三维姿态,如手腕的旋转;再如,为了表征人体腰部的三维姿态,扩展关键点可以为胯中点关键点,与左胯关键点和/或右胯关键点(基准关键点)协同表征腰部的三维姿态,如腰部扭转。在一些实施例中,扩展关键点的数量为16个,与COCO数据集提供的17个人体关键点共同组成33关键点集。
接下来对关键点集中扩展关键点的获取进行说明。在实际实施时,可以通过均值增点、单独识别等方式获取扩展关键点,例如,采用均值增点的方式,取左胯关键点及右胯关键点的中点作为胯中点关键点,采用均值增点的方式,取左肩关键点及右肩关键点的中点作为脖子(华盖穴)关键点;可通过单独识别的方式获取人体手部及脚部的关键点,具体地,可构建或采用相关技术中的手部和/脚部的识别模型,输入包含手部或脚部的图像,输出相应的扩展关键点信息。
示例性地,以获取手部扩展关键点为例进行说明,图7为本发明实施例提供的获取手部扩展关键点的流程示意图,参见图7,首先对包含人体的图像进行剪裁,得到手部的图像,然后将剪裁得到的图像输入至手部关键点模型,得到包含大拇指关键点、手心关键点及中指关键点等的手部关键点集。
这里,对人体手部或脚部的图像的获取进行说明,继续参见图7,在一些实施例中,可通过如下方式剪裁得到手部的图像:以手腕关键点为中心,以手腕关键点与相应肩关键点之间的长度为边长,或者以手腕关键点与相应手肘关键点之间的长度为边长,剪裁得到包含手部的正方形图像,作为手部关键点模型的输入。在一些实施例中,可通过如下方式剪裁得到脚部的图像:以脚踝关键点为中心,以脚踝关键点与相应膝盖关键点的长度为边长,或者以脚踝关键点与相应胯关键点的长度为边长,剪裁得到包含脚部的正方形图像,作为脚部关键点模型的输入。
示例性地,继续参见图7,图7中编号2对应人体右肩关键点,编号3对应右手肘关键点,编号4对应右手腕关键点,以右手腕关键点为中心,以右手腕关键点与人体右肩关键点之间的连线4-2为边长,对图像进行剪裁得到包含右手的正方形图像。
基于上述对关键点集的说明,接下来对配置场景进行介绍,图8A至图8D为本发明实施例提供的对应不同类型的配置场景的人体关键点的示意图,在一些实施例中,配置场景的类型可以有四个,分别对应关键点集中不同数量的人体关键点,以关键点集为上述33关键点集为例,图8A为本发明实施例提供的对应第一配置场景的人体关键点的示意图,第一配置场景对应关键点集中的全量关键点(即33个人体关键点),图8B为本发明实施例提供的对应第二配置场景的人体关键点的示意图,第二配置场景对应关键点集中人体上半身的20个人体关键点,图8C为本发明实施例提供的对应第三配置场景的人体关键点的示意图,第三配置场景对应关键点集中人体上半身的8个人体关键点,图8D为本发明实施例提供的对应第四配置场景的人体关键点的示意图,第四配置场景对应关键点集中人体全身的15个人体关键点。
在一些实施例中,姿态识别模型所包括的特征图模型可以为基于Darknet框架的神经网络模型,通过特征图模型对输入的图像(如样本图像)进行特征提取,得到相应的特征图。图9为本发明实施例提供的进行特征图提取的示意图,参见图9,特征图模型在进行特征提取时,采用Darknet框架,可基于Bounding box(bbox)采用滑窗的方式得到对应输入图像的特征图,Bounding box指的是能恰好环绕物体的一个最小面积矩形框,用于标定物体的位置与相对大小,定义一个物体在图像中所占据的范围。
步骤602:将特征图输入姿态识别模型包括的二维模型,输出用于表征二维人体姿态的二维关键点参数。
在一些实施例中,二维模型可以为卷积神经网络模型,输出的二维关键点参数可包括人体关键点的部分亲和字段(PAF,Part Affinity Fields)参数及人体关键点的热力图(Heatmap)。
这里,人体关键点的PAF参数可以为对应人体关键点的二维方向向量,表示人体骨骼关节(肢体)的位置和方向,也表征了两个人体关键点的关联程度,进而可基于人体关键点的PAF参数确定人体关键点的归属人,在实际应用中,人体关键点的PAF参数可以包括人体关键点的坐标参数。
人体关键点的热力图指的是对人体关键点在原图像大小的灰度图中,在相同位置用圆形高斯表示,也即表征输入的特征图中的像素属于人体关键点的概率,图10为本发明实施例提供的人体关键点热力图的示意图,参见图10,对于人体左手肘关键点来说,热力图表征了像素点为左手肘关键点的概率,即用概率表达的形式反映左手肘关键点在该像素点处出现的可能性,像素点距离左手肘关键点越近概率越高,距离左手肘关键点越远概率越低,也即像素点(如图10中编号2)为左手肘关键点的概率和像素点距离中心点(如图10中编号1)的相对位置关系服从高斯分布。
步骤603:将从特征图中剪裁出的目标人体特征图及二维关键点信息,输入姿态识别模型包括的三维模型,输出用于表征三维人体姿态的三维姿态参数。
在实际实施时,三维模型输出的人体三维姿态参数所对应的是单个人体,因此,在将特征图输入三维模型之前,需要对特征图模型输出的特征图进行目标人体剪裁,在一些实施例中,服务器可采用如下方式实现对特征图的剪裁:
服务器基于二维模型输出的二维关键点参数,确定特征图中的目标人体,根据确定的目标人体对特征图进行剪裁,得到目标人体的特征图。也就是说,输入特征图模型的样本图像可以包含多个人体,基于二维模型识别得到的二维关键点参数,确定人体关键点所属的人体,进而对单个人体进行剪裁,得到对应单个人体的特征图。
在一些实施例中,三维模型可为卷积神经网络模型,服务器将剪裁得到的目标人体的特征图与二维模型输出的人体关键点的热力图进行拼接,并将拼接结果输入三维模型,例如,对目标人体的特征图及人体关键点的热力图进行Concat拼接,即将热力图及特征图以两个矩阵拼接,以将拼接结果输入三维模型。
在一些实施例中,三维模型输出的三维姿态参数包括人体的形状参数(shape)及形态参数(pose);其中,形状参数可以表征人体的高矮肥瘦等,而形态参数可以表征人体的位姿等,基于人体的三维姿态参数可构建人体的三维蒙皮模型。
步骤604:结合二维关键点参数及三维姿态参数,构建目标损失函数。
在一些实施例中,姿态识别模型的目标损失函数包括对应三维模型的第一损失函数;服务器可通过如下方式实现第一损失函数的构建:服务器基于三维模型输出的三维姿态参数,确定相应的二维关键点信息,结合二维模型输出的二维关键点参数、以及采用所述三维姿态参数表征的二维关键点信息,构造对应三维模型的第一损失函数。可见,对应三维模型的第一损失函数的构建采用了二维关键点信息作为约束,使得三维模型的输出准确度更高。
示例性地,服务器基于三维姿态参数包括的形状参数及形态参数,通过投影矩阵函数计算二维人体关键点的位置,然后基于关键点集中人体关键点的位置与基于三维姿态参数计算得到的二维人体关键点的位置的差异、以及二维模型输出的二维人体关键点的位置与基于三维姿态参数计算得到的二维人体关键点的位置的差异,构造对应三维模型的第一损失函数。
例如,在实际应用中,所构造的第一损失函数Loss1可以为:
Loss1=av(Xgt-r(Xp))2+b(X2dp-r(Xp))2; (1)
相应的,第一损失函数的约束为:
minLoss(Xgt,r,a,b)=av|(Xgt)-r(Xp)|+b|X2dp-r(Xp)|; (2)
其中,a和b均为第一损失函数中的权重系数;v表示人体关键点X在二维图像中是否可见;Xp为三维模型输出的三维姿态参数,即形状参数和形态参数;r(Xp)表示基于三维姿态参数,通过投影矩阵函数r()反算出来的二维人体关键点的位置;Xgt表示人体关键点X在关键点集中的位置;X2dp为二维模型预测得到的人体关键点X的位置。
基于上述函数(1)及(2)可知,所构建的对应三维模型的第一损失函数中采用了二维人体姿态信息作为约束,如此,可提升三维模型输出的三维姿态参数的准确度。
在一些实施例中,姿态识别模型的目标损失函数还包括对应二维模型的损失函数及对应三维模型的第二损失函数;相应的,服务器可通过如下方式构建对应二维模型的损失函数及对应三维模型的第二损失函数:
结合二维模型输出的部分亲和字段参数与相应人体关键点在样本图像中的部分亲和字段参数的差异、二维模型输出的热力图与相应人体关键点在样本图像中的热力图的差异,构建对应二维模型的损失函数;
结合三维模型输出的形状参数与相应人体在样本图像中的形状参数的差异、三维模型输出的形态参数与相应人体在样本图像中的形态参数的差异,构建对应三维模型的第二损失函数。
例如,在实际应用中,所构造的对应二维模型的损失函数Loss2可以为:
Loss2=(PAF-PAF')2+(heatmap-heatmap')2; (3)
其中,(PAF-PAF')2表示二维模型输出的PAF参数与相应人体关键点在样本图像中的PAF参数的差异,(heatmap-heatmap')2表示三维模型输出的形态参数与相应人体在样本图像中的形态参数的差异。
例如,在实际应用中,所构造的三维模型的第二损失函数Loss3可以为:
Loss3=(β-β')2+(θ-θ')2; (4)
其中,β为人体形状参数,θ为人体形态参数,(β-β')2表示三维模型输出的形状参数与相应人体在样本图像中的形状参数的差异,(θ-θ')2表示三维模型输出的形态参数与相应人体在样本图像中的形态参数的差异。
基于上述对姿态识别模型所包括的二维模型的损失函数及三维模型的损失函数的说明,可知,在一些实施例中,姿态识别模型的目标损失函数可以为:
Loss=(PAF-PAF')2+(heatmap-heatmap')2+(β-β')2+(θ-θ')2+av(Xgt-r(Xp))2+b(X2dp-r(Xp))2; (5)
步骤605:基于目标损失函数,更新姿态识别模型的模型参数。
在一些实施例中,服务器可采用如下方式实现姿态识别模型的模型参数的更新:
服务器基于二维模型输出的二维关键点参数及三维模型输出的三维姿态参数,确定目标损失函数的值,并判断目标损失函数的值是否超出预设阈值,当目标损失函数的值超出预设阈值时,基于目标损失函数确定姿态识别模型的误差信号,将误差信号在姿态识别模型中反向传播,并在传播的过程中更新各个层的模型参数。
这里对反向传播进行说明,将训练样本数据输入到神经网络模型的输入层,经过隐藏层,最后达到输出层并输出结果,这是神经网络模型的前向传播过程,由于神经网络模型的输出结果与实际结果有误差,则计算输出结果与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层,在反向传播的过程中,根据误差调整模型参数的值;不断迭代上述过程,直至收敛。
以姿态识别模型的目标损失函数为(5)为例,服务器基于目标损失函数确定误差信号,分别从二维模型及三维模型的输出层反向传播,逐层反向传播误差信号,在误差信号到达每一层时,结合传导的误差信号来求解梯度(也就是Loss函数对该层参数的偏导数),将该层的参数更新对应的梯度值。
在一些实施例中,图11是本发明实施例提供的基于姿态识别模型的图像识别方法的流程示意图,如图11所示,本发明实施例提供的基于姿态识别模型的图像识别方法主要包括三个阶段,分别为数据准备阶段、模型训练阶段及模型应用阶段,接下来分别进行说明。
1、数据准备阶段;
数据准备阶段主要实现了包含33个人体关键点的关键点集的构建,以及不同配置场景(setting)对应的不同人体关键点数量的选择。
其中,关键点集在COCO数据集的17个人体关键点(亦可为Openpose的18个人体关键点)的基础上,增加头顶,下巴的关键点,以方便表征点头抬头的旋转;在手腕部分增加了中指与大拇指的关键点,与手心关键点一并表征手腕的旋转;为了兼容三维模型中常见的位于跨中的root点,以及相关骨骼信息,增加了跨中点;脚上同样通过脚跟,左脚尖,右脚尖来表征其三维信息。关键点集一共包含个人体关键点33点,通过新增的扩展关键点,让二维姿态识别过程中包含了更多肢体三维旋转的信息。
这里,在实际实施中,所构建的关键点集包括COCO数据集提供的17个人体关键点,剩余的16个人体关键点为扩展关键点,基于上述17个人体关键点,可通过均值增点,以及单独识别获取手脚部位的扩展关键点,然后经融合数据的办法获得33点的数据。其中如胯中点可以由左跨关键点及右跨关键点计算得到,脖子(华盖穴)则可由左肩关键点及右肩关键点计算得到。
在实际实施中,对于扩展关键的获取既可采用相关技术中提供的手脚部分的关键点检测模型识别得到,或者单独训练用于识别对应手脚部位的扩展关键点的检测模型,使得该检测模型具备依据输入的包含手或脚的图像,输出相应的扩展关键点信息的性能。而对输入检测模型之前的图像的剪裁可参照前述实施例的描述,此处不做赘述。
在实际应用中,对于不同的setting,进行姿态识别模型训练时所采用的样本图像中标注不同数量的人体关键点,例如,对于人体上半身的20个人体关键点的setting来说,进行模型训练时,便可只对样本图像中该20个人体关键点进行标注,避免了标注33个人体关键点所造成的计算资源的浪费。
2、模型训练阶段;
在一些实施例中,训练得到的模型为全卷积神经网络模型,包括三部分,分别为DarknetX、二维模型(FCN,Fully Convolutional Networks)及三维模型,实现二维模型及三维模型的联合训练。在进行模型训练时,根据业务需求选取相应的setting,即选取相应的人体关键点配置,经DarknetX输出的特征图,输入至二维模型,通过PAF以及heatmap使用L2的loss训练,通过NMS以及PAF的Grouping操作获得人体二维关键点的位置及方向信息,并确定人体关键点的归属人;在联合训练三维模型时,需要对DarknetX输出的特征图进行剪裁,得到单个人体的特征图,然后将剪裁的特征图与二维模型输出的热力图进行Concat拼接作为三维模型的输入,这主要是利用二维人体关键点,减少三维模型所需的计算量,只需回归目标单人的情况,并且共享和复用了DarknetX输出的特征图。
3、模型应用阶段;
对于模型输出的人体三维信息可用于人体的三维姿态识别及三维蒙皮模型驱动,例如根据得到的用户的三维姿态参数(shape、pose)驱动一个三维人物模型同步用户的动作。
对于模型输出的人体二维信息可用于人体的二维姿态识别,在实际应用中,可用于静态动作识别和时序动作识别,例如,终端屏幕显示动画人物的动作,终端采集用户模仿该动画人物的动作,终端进行二维姿态识别,根据动作契合程度进行评分等。
接下来对本发明实施例训练得到的姿态识别模型的应用进行说明,在一些实施例中,姿态识别模型可用于图像识别,以终端中设置有图像识别客户端为例,图12为本发明实施例提供的采用姿态识别模型进行图像识别的流程示意图,参见图12,终端将包含人体的待识别图像,输入姿态识别模型包括的特征图模型,输出对应待识别图像的特征图;将特征图输入姿态识别模型包括的二维模型,输出用于表征二维人体姿态的二维关键点参数,二维关键点参数用于识别得到人体的二维姿态;将从特征图中剪裁出的目标人体特征图及二维关键点参数,输入姿态识别模型包括的三维模型,输出用于表征三维人体姿态的三维姿态参数,三维姿态参数用于识别得到人体的三维姿态。
在一些实施例中,终端输出特定人物姿态的图像后,采集得到待识别图像,终端基于二维模型输出的二维关键点参数,识别得到待识别图像中人体的二维姿态,将识别得到的二维姿态与特定人物姿态进行相似度匹配,得到匹配结果,输出用于表征匹配结果的提示信息。
示例性地,以终端中设置有舞蹈游戏客户端为例,图13为本发明实施例提供的姿态识别模型的应用场景示意图,参见图13,终端通过舞蹈游戏客户端展示动画人物的动作,用户根据终端屏幕上的动作提示做出相应的动作,终端采集用户的动作图像,并将图像输入至姿态识别模型,进行二维人体姿态识别,将识别结果与动画人物的姿态进行相似度匹配,并根据得到的相似度输出相应的提示信息,如输出相应的评分、“great、”“good”、“miss”等提示。
在一些实施例中,终端基于三维模型输出的三维姿态参数,构建对应目标人体的三维人体模型;控制三维人体模型执行目标动作,目标动作与目标人体所执行的动作相匹配。
示例性地,以终端中设置有人体三维模型客户端,图14为本发明实施例提供的姿态识别模型的应用场景示意图,参见图14,终端进行用户图像采集,将图像输入至姿态识别模型,进行三维人体姿态识别,根据输出的三维姿态参数进行三维蒙皮模型构建,并控制三维蒙皮模型同步用户的动作。
接下来对本发明实施例提供的装置采用软件单元实施进行说明。图15为本发明实施例提供的姿态识别模型的训练装置的组成结构示意图,参见图15,本发明实施例的姿态识别模型的训练装置包括:
第一处理单元151,用于将标注有人体关键点的样本图像,输入所述姿态识别模型包括的特征图模型,输出对应所述样本图像的特征图;
第二处理单元152,用于将所述特征图输入所述姿态识别模型包括的二维模型,输出用于表征二维人体姿态的二维关键点参数;
第三处理单元153,用于将从所述特征图中剪裁出的目标人体特征图及所述二维关键点参数,输入所述姿态识别模型包括的三维模型,输出用于表征三维人体姿态的三维姿态参数;
构建单元154,用于结合所述二维关键点参数及所述三维姿态参数,构建目标损失函数;
更新单元155,用于基于所述目标损失函数,更新所述姿态识别模型的模型参数。
在一些实施例中,所述装置还包括:
标注单元,用于确定对应当前配置场景的人体关键点,不同的所述配置场景对应关键点集中不同的人体关键点;
基于所确定的人体关键点,参照所述关键点集对所述样本图像进行标注。
在一些实施例中,所述关键点集包括:
用于定位人体部位的基准关键点、与所述基准关键点协同表征所属部位的不同三维姿态的扩展关键点。
在一些实施例中,所述目标损失函数包括对应所述三维模型的第一损失函数;
所述构建单元,还用于基于所述三维姿态参数,确定相应的二维关键点信息;
结合所述二维模型输出的二维关键点参数、以及采用所述三维姿态参数表征的二维关键点信息,构造对应所述三维模型的第一损失函数。
在一些实施例中,所述目标损失函数还包括对应所述二维模型的损失函数及对应所述三维模型的第二损失函数;
所述二维关键点参数包括:人体关键点的部分亲和字段参数及人体关键点的热力图,所述三维姿态参数包括:人体的形状参数及形态参数;
所述构建单元,还用于结合所述二维模型输出的部分亲和字段参数与相应人体关键点在样本图像中的部分亲和字段参数的差异、所述二维模型输出的热力图与相应人体关键点在样本图像中的热力图的差异,构建对应所述二维模型的损失函数;
结合所述三维模型输出的形状参数与相应人体在样本图像中的形状参数的差异、所述三维模型输出的形态参数与相应人体在样本图像中的形态参数的差异,构建对应所述三维模型的第二损失函数。
在一些实施例中,所述装置还包括:
剪裁单元,用于基于所述二维模型输出的所述二维关键点参数,确定所述特征图中的目标人体;
根据确定的目标人体对所述特征图进行剪裁,得到所述目标人体的特征图。
在一些实施例中,所述更新单元,还用于基于所述二维模型输出的所述二维关键点参数及所述三维模型输出的所述三维姿态参数,确定所述目标损失函数的值;
当所述目标损失函数的值超出预设阈值时,基于所述目标损失函数确定所述姿态识别模型的误差信号;
将所述误差信号在所述姿态识别模型中反向传播,并在传播的过程中更新各个层的模型参数。
图15为本发明实施例提供的基于姿态识别模型的图像识别装置的组成结构示意图,参见图16,本发明实施例的基于姿态识别模型的图像识别装置160包括:
第一获取单元161,用于将包含人体的待识别图像,输入所述姿态识别模型包括的特征图模型,输出对应所述待识别图像的特征图;
第二获取单元162,用于将所述特征图输入所述姿态识别模型包括的二维模型,输出用于表征二维人体姿态的二维关键点参数,所述二维关键点参数用于识别得到所述人体的二维姿态;
第三获取单元163,用于将从所述特征图中剪裁出的目标人体特征图及所述二维关键点参数,输入所述姿态识别模型包括的三维模型,输出用于表征三维人体姿态的三维姿态参数,所述三维姿态参数用于识别得到所述人体的三维姿态。
在一些实施例中,所述装置还包括:
匹配单元,用于响应于所述待识别图像为基于输出特定人物姿态的图像后采集得到,基于所述二维模型输出的所述二维关键点参数,识别得到所述待识别图像中人体的二维姿态;
将识别得到的所述二维姿态与所述特定人物姿态进行相似度匹配,得到匹配结果;
提示单元,用于输出用于表征所述匹配结果的提示信息。
在一些实施例中,所述装置还包括:
人体模型单元,用于基于所述三维模型输出的所述三维姿态参数,构建对应所述目标人体的三维人体模型;
控制单元,用于控制所述三维人体模型执行目标动作,所述目标动作与所述目标人体所执行的动作相匹配。
这里需要指出的是:以上涉及装置的描述,与上述方法描述是类似的,同方法的有益效果描述,不做赘述,对于本发明实施例所述装置中未披露的技术细节,请参照本发明方法实施例的描述。
本发明实施例还提供一种存储有可执行指令的存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本发明实施例提供的姿态识别模型的训练方法。
本发明实施例还提供一种存储有可执行指令的存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本发明实施例提供的基于姿态识别模型的图像识别方法。
在一些实施例中,存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。
Claims (15)
1.一种姿态识别模型的训练方法,其特征在于,所述方法包括:
通过姿态识别模型包括的特征图模型,对标注有人体关键点的样本图像进行处理,获得对应所述样本图像的特征图;
通过所述姿态识别模型包括的二维模型,对所述特征图进行处理,获得用于表征二维人体姿态的二维关键点参数;
通过所述姿态识别模型包括的三维模型,对从所述特征图中剪裁出的目标人体特征图及所述二维关键点参数进行处理,获得用于表征三维人体姿态的三维姿态参数;
结合所述二维关键点参数及所述三维姿态参数,构建目标损失函数;
基于所述目标损失函数,更新所述姿态识别模型的模型参数。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
根据当前配置场景的类型获取相应类型的关键点集,并确定所述关键点集中的人体关键点;
基于所确定的人体关键点,参照所述关键点集对所述样本图像进行标注。
3.如权利要求2所述的方法,其特征在于,所述关键点集包括:
用于定位人体部位的基准关键点、与所述基准关键点协同表征所属部位的多种三维姿态的扩展关键点。
4.如权利要求1所述的方法,其特征在于,所述目标损失函数包括对应所述三维模型的第一损失函数;所述结合所述二维关键点参数及所述三维姿态参数,构建损失函数,包括:
基于所述三维姿态参数,确定相应的二维关键点信息;
结合所述二维模型输出的二维关键点参数、以及基于所述三维姿态参数确定的二维关键点信息,构造对应所述三维模型的第一损失函数。
5.如权利要求4所述的方法,其特征在于,所述目标损失函数还包括对应所述二维模型的损失函数及对应所述三维模型的第二损失函数;
所述二维关键点参数包括:人体关键点的部分亲和字段参数及人体关键点的热力图,所述三维姿态参数包括:人体的形状参数及形态参数;
所述结合所述二维关键点参数及所述三维姿态参数,构建损失函数,包括:
结合所述二维模型输出的部分亲和字段参数与相应人体关键点在样本图像中的部分亲和字段参数的差异、所述二维模型输出的热力图与相应人体关键点在样本图像中的热力图的差异,构建对应所述二维模型的损失函数;
结合所述三维模型输出的形状参数与相应人体在样本图像中的形状参数的差异、所述三维模型输出的形态参数与相应人体在样本图像中的形态参数的差异,构建对应所述三维模型的第二损失函数。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述二维模型输出的所述二维关键点参数,确定所述特征图中的目标人体;
根据确定的目标人体对所述特征图进行剪裁,得到所述目标人体的特征图。
7.如权利要求1所述的方法,其特征在于,所述基于所述目标损失函数,更新所述姿态识别模型的模型参数,包括:
基于所述二维模型输出的所述二维关键点参数及所述三维模型输出的所述三维姿态参数,确定所述目标损失函数的值;
当所述目标损失函数的值超出预设阈值时,基于所述目标损失函数确定所述姿态识别模型的误差信号;
将所述误差信号在所述姿态识别模型中反向传播,并在传播的过程中更新各个层的模型参数。
8.一种基于姿态识别模型的图像识别方法,其特征在于,所述方法包括:
通过所述姿态识别模型包括的特征图模型,对包含人体的待识别图像进行处理,获得对应所述待识别图像的特征图;
通过所述姿态识别模型包括的二维模型,对所述特征图进行处理,获得用于表征二维人体姿态的二维关键点参数,所述二维关键点参数用于识别得到所述人体的二维姿态;
通过所述姿态识别模型包括的三维模型,对从所述特征图中剪裁出的目标人体特征图及所述二维关键点参数进行处理,获得用于表征三维人体姿态的三维姿态参数,所述三维姿态参数用于识别得到所述人体的三维姿态。
9.如权利要求8所述的方法,其特征在于,所述方法还包括:
响应于所述待识别图像为基于输出特定人物姿态的图像后采集得到,基于所述二维模型输出的所述二维关键点参数,识别得到所述待识别图像中人体的二维姿态;
将识别得到的所述二维姿态与所述特定人物姿态进行相似度匹配,得到匹配结果;
输出用于表征所述匹配结果的提示信息。
10.如权利要求8所述的方法,其特征在于,所述方法还包括:
基于所述三维模型输出的所述三维姿态参数,构建对应所述目标人体的三维人体模型;
控制所述三维人体模型执行目标动作,所述目标动作与所述目标人体所执行的动作相匹配。
11.一种姿态识别模型的训练装置,其特征在于,所述装置包括:
第一处理单元,用于通过姿态识别模型包括的特征图模型,对标注有人体关键点的样本图像进行处理,获得对应所述样本图像的特征图;
第二处理单元,用于通过所述姿态识别模型包括的二维模型,对所述特征图进行处理,获得用于表征二维人体姿态的二维关键点参数;
第三处理单元,用于通过所述姿态识别模型包括的三维模型,对从所述特征图中剪裁出的目标人体特征图及所述二维关键点参数进行处理,获得用于表征三维人体姿态的三维姿态参数;
构建单元,用于结合所述二维关键点参数及所述三维姿态参数,构建目标损失函数;
更新单元,用于基于所述目标损失函数,更新所述姿态识别模型的模型参数。
12.一种基于姿态识别模型的图像识别装置,其特征在于,所述装置包括:
第一获取单元,用于通过所述姿态识别模型包括的特征图模型,对包含人体的待识别图像进行处理,获得对应所述待识别图像的特征图;
第二获取单元,用于通过所述姿态识别模型包括的二维模型,对所述特征图进行处理,获得用于表征二维人体姿态的二维关键点参数,所述二维关键点参数用于识别得到所述人体的二维姿态;
第三获取单元,用于通过所述姿态识别模型包括的三维模型,对从所述特征图中剪裁出的目标人体特征图及所述二维关键点参数进行处理,获得用于表征三维人体姿态的三维姿态参数,所述三维姿态参数用于识别得到所述人体的三维姿态。
13.如权利要求12所述的装置,其特征在于,所述装置还包括:
匹配单元,用于响应于所述待识别图像为基于输出特定人物姿态的图像后采集得到,基于所述二维模型输出的所述二维关键点参数,识别得到所述待识别图像中人体的二维姿态;
将识别得到的所述二维姿态与所述特定人物姿态进行相似度匹配,得到匹配结果;
提示单元,用于输出用于表征所述匹配结果的提示信息。
14.一种基于姿态识别模型的图像识别装置,其特征在于,所述装置包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求8至10中任一项所述的基于姿态识别模型的图像识别方法。
15.一种存储介质,其特征在于,所述存储介质存储有可执行指令,用于引起处理器执行时,实现权利要求8至10中任一项所述的基于姿态识别模型的图像识别方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910294734.8A CN110020633B (zh) | 2019-04-12 | 2019-04-12 | 姿态识别模型的训练方法、图像识别方法及装置 |
PCT/CN2020/082039 WO2020207281A1 (zh) | 2019-04-12 | 2020-03-30 | 姿态识别模型的训练方法、图像识别方法及装置 |
US17/330,261 US11907848B2 (en) | 2019-04-12 | 2021-05-25 | Method and apparatus for training pose recognition model, and method and apparatus for image recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910294734.8A CN110020633B (zh) | 2019-04-12 | 2019-04-12 | 姿态识别模型的训练方法、图像识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110020633A CN110020633A (zh) | 2019-07-16 |
CN110020633B true CN110020633B (zh) | 2022-11-04 |
Family
ID=67191240
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910294734.8A Active CN110020633B (zh) | 2019-04-12 | 2019-04-12 | 姿态识别模型的训练方法、图像识别方法及装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11907848B2 (zh) |
CN (1) | CN110020633B (zh) |
WO (1) | WO2020207281A1 (zh) |
Families Citing this family (69)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111435432B (zh) * | 2019-01-15 | 2023-05-26 | 北京市商汤科技开发有限公司 | 网络优化方法及装置、图像处理方法及装置、存储介质 |
CN110020633B (zh) | 2019-04-12 | 2022-11-04 | 腾讯科技(深圳)有限公司 | 姿态识别模型的训练方法、图像识别方法及装置 |
CN110102050B (zh) * | 2019-04-30 | 2022-02-18 | 腾讯科技(深圳)有限公司 | 虚拟对象显示方法、装置、电子设备及存储介质 |
CN110570455B (zh) * | 2019-07-22 | 2021-12-07 | 浙江工业大学 | 一种面向房间vr的全身三维姿态跟踪方法 |
CN112287730A (zh) * | 2019-07-24 | 2021-01-29 | 鲁班嫡系机器人(深圳)有限公司 | 姿态识别方法、装置、系统、存储介质及设备 |
CN112307801A (zh) * | 2019-07-24 | 2021-02-02 | 鲁班嫡系机器人(深圳)有限公司 | 一种姿态识别方法、装置及系统 |
CN110634160B (zh) * | 2019-08-12 | 2022-11-18 | 西北大学 | 二维图形中目标三维关键点提取模型构建及姿态识别方法 |
CN110544301A (zh) * | 2019-09-06 | 2019-12-06 | 广东工业大学 | 一种三维人体动作重建系统、方法和动作训练系统 |
CN112700510B (zh) * | 2019-10-23 | 2024-03-15 | 北京地平线机器人技术研发有限公司 | 一种热力图构建方法及装置 |
EP4053734A4 (en) * | 2019-11-20 | 2023-01-04 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | MANUAL GESTURE ESTIMATION METHOD AND APPARATUS, DEVICE AND COMPUTER STORAGE MEDIA |
CN111160088A (zh) * | 2019-11-22 | 2020-05-15 | 深圳壹账通智能科技有限公司 | Vr体感数据检测方法、装置、计算机设备及存储介质 |
CN110827383B (zh) * | 2019-11-25 | 2020-11-10 | 腾讯科技(深圳)有限公司 | 三维模型的姿态模拟方法、装置、存储介质和电子设备 |
CN110991319B (zh) * | 2019-11-29 | 2021-10-19 | 广州市百果园信息技术有限公司 | 手部关键点检测方法、手势识别方法及相关装置 |
CN111103981B (zh) * | 2019-12-20 | 2024-06-11 | 北京奇艺世纪科技有限公司 | 控制指令生成方法及装置 |
CN111178280A (zh) * | 2019-12-31 | 2020-05-19 | 北京儒博科技有限公司 | 一种人体坐姿识别方法、装置、设备及存储介质 |
CN111402228B (zh) * | 2020-03-13 | 2021-05-07 | 腾讯科技(深圳)有限公司 | 图像检测方法、装置和计算机可读存储介质 |
CN111414839B (zh) * | 2020-03-16 | 2023-05-23 | 清华大学 | 基于姿态的情感识别方法及装置 |
CN111462169B (zh) * | 2020-03-27 | 2022-07-15 | 杭州视在科技有限公司 | 一种基于背景建模的老鼠轨迹追踪方法 |
CN113449570A (zh) * | 2020-03-27 | 2021-09-28 | 虹软科技股份有限公司 | 图像处理方法和装置 |
CN113456058A (zh) * | 2020-03-30 | 2021-10-01 | Oppo广东移动通信有限公司 | 头部姿态的检测方法、装置、电子设备和可读存储介质 |
CN111488824B (zh) * | 2020-04-09 | 2023-08-08 | 北京百度网讯科技有限公司 | 运动提示方法、装置、电子设备和存储介质 |
CN111539377A (zh) * | 2020-05-11 | 2020-08-14 | 浙江大学 | 基于视频的人体运动障碍检测方法、装置及设备 |
CN111611903B (zh) * | 2020-05-15 | 2021-10-26 | 北京百度网讯科技有限公司 | 动作识别模型的训练方法、使用方法、装置、设备和介质 |
CN111679737B (zh) * | 2020-05-27 | 2022-06-21 | 维沃移动通信有限公司 | 手部分割方法和电子设备 |
CN111723687A (zh) * | 2020-06-02 | 2020-09-29 | 北京的卢深视科技有限公司 | 基于神经网路的人体动作识别方法和装置 |
CN113822097B (zh) * | 2020-06-18 | 2024-01-26 | 北京达佳互联信息技术有限公司 | 单视角人体姿态识别方法、装置、电子设备和存储介质 |
CN111783609A (zh) * | 2020-06-28 | 2020-10-16 | 北京百度网讯科技有限公司 | 行人再识别的方法、装置、设备和计算机可读存储介质 |
CN111898642B (zh) * | 2020-06-30 | 2021-08-13 | 北京市商汤科技开发有限公司 | 关键点检测方法、装置、电子设备及存储介质 |
CN111964606B (zh) * | 2020-08-18 | 2021-12-07 | 广州小鹏汽车科技有限公司 | 一种三维信息的处理方法和装置 |
CN114078181B (zh) * | 2020-08-19 | 2024-10-29 | 北京达佳互联信息技术有限公司 | 人体三维模型的建立方法、装置、电子设备及存储介质 |
CN111985556A (zh) * | 2020-08-19 | 2020-11-24 | 南京地平线机器人技术有限公司 | 关键点识别模型的生成方法和关键点识别方法 |
CN111967406A (zh) * | 2020-08-20 | 2020-11-20 | 高新兴科技集团股份有限公司 | 人体关键点检测模型生成方法、系统、设备和存储介质 |
CN112163480B (zh) * | 2020-09-16 | 2022-09-13 | 北京邮电大学 | 一种行为识别方法及装置 |
CN112307940A (zh) * | 2020-10-28 | 2021-02-02 | 有半岛(北京)信息科技有限公司 | 模型训练方法、人体姿态检测方法、装置、设备及介质 |
CN112270669B (zh) * | 2020-11-09 | 2024-03-01 | 北京百度网讯科技有限公司 | 人体3d关键点检测方法、模型训练方法及相关装置 |
CN112287865B (zh) * | 2020-11-10 | 2024-03-26 | 上海依图网络科技有限公司 | 一种人体姿态识别的方法及装置 |
CN112464791B (zh) * | 2020-11-25 | 2023-10-27 | 平安科技(深圳)有限公司 | 基于二维相机的姿态识别方法、装置、设备和存储介质 |
CN112465695B (zh) * | 2020-12-01 | 2024-01-02 | 北京达佳互联信息技术有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN112488005B (zh) * | 2020-12-04 | 2022-10-14 | 临沂市新商网络技术有限公司 | 基于人体骨骼识别和多角度转换的在岗监测方法及系统 |
CN112509123A (zh) * | 2020-12-09 | 2021-03-16 | 北京达佳互联信息技术有限公司 | 三维重建方法、装置、电子设备及存储介质 |
CN112528858A (zh) * | 2020-12-10 | 2021-03-19 | 北京百度网讯科技有限公司 | 人体姿态估计模型的训练方法、装置、设备、介质及产品 |
CN112464895B (zh) * | 2020-12-14 | 2023-09-01 | 深圳市优必选科技股份有限公司 | 姿态识别模型训练方法、装置、姿态识别方法和终端设备 |
CN112580488B (zh) * | 2020-12-15 | 2023-12-22 | 深圳大学 | 一种基于自启发的人体姿态估计模型训练方法及装置 |
CN112560962B (zh) * | 2020-12-17 | 2024-03-22 | 咪咕文化科技有限公司 | 骨骼动画的姿态匹配方法、装置、电子设备及存储介质 |
CN112801138B (zh) * | 2021-01-05 | 2024-04-09 | 北京交通大学 | 基于人体拓扑结构对齐的多人姿态估计方法 |
CN113100755B (zh) * | 2021-03-26 | 2023-01-24 | 河北工业大学 | 一种基于视觉追踪控制的肢体康复训练与评估系统 |
CN113065458B (zh) * | 2021-03-29 | 2024-05-28 | 芯算一体(深圳)科技有限公司 | 基于手势识别的投票方法与系统、电子设备 |
EP4315282A1 (en) * | 2021-03-30 | 2024-02-07 | Fisch, Martin | Systems and methods for computer recognition of 3d gesture movements |
CN113158920B (zh) * | 2021-04-26 | 2023-12-22 | 平安科技(深圳)有限公司 | 特定动作识别模型的训练方法、装置以及计算机设备 |
CN113298922B (zh) * | 2021-06-11 | 2023-08-29 | 深圳市优必选科技股份有限公司 | 人体姿态估计方法、装置及终端设备 |
CN113469134A (zh) * | 2021-07-27 | 2021-10-01 | 浙江大华技术股份有限公司 | 动作识别方法、装置、电子设备及存储介质 |
CN113627083A (zh) * | 2021-08-05 | 2021-11-09 | 广州帕克西软件开发有限公司 | 一种基于虚拟试穿实现div衣服的方法 |
CN113724393B (zh) * | 2021-08-12 | 2024-03-19 | 北京达佳互联信息技术有限公司 | 三维重建方法、装置、设备及存储介质 |
CN113887319A (zh) * | 2021-09-08 | 2022-01-04 | 北京达佳互联信息技术有限公司 | 三维姿态的确定方法、装置、电子设备及存储介质 |
CN113850865A (zh) * | 2021-09-26 | 2021-12-28 | 北京欧比邻科技有限公司 | 一种基于双目视觉的人体姿态定位方法、系统和存储介质 |
CN113947635A (zh) * | 2021-10-15 | 2022-01-18 | 北京百度网讯科技有限公司 | 图像定位方法、装置、电子设备以及存储介质 |
CN114220162A (zh) * | 2021-11-17 | 2022-03-22 | 深圳职业技术学院 | 一种猪只姿态识别方法及装置 |
CN114359550A (zh) * | 2022-01-07 | 2022-04-15 | 中国工商银行股份有限公司 | 姿态识别方法、装置、处理器及电子设备 |
CN114299152A (zh) * | 2022-01-21 | 2022-04-08 | 奥比中光科技集团股份有限公司 | 一种获取姿态数据的方法及神经网络构建方法 |
CN114675657B (zh) * | 2022-05-25 | 2022-09-23 | 天津卡雷尔机器人技术有限公司 | 一种基于红外摄像头模糊控制算法回巢充电的方法 |
CN114881893B (zh) * | 2022-07-05 | 2022-10-21 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及计算机可读存储介质 |
CN116018949A (zh) * | 2022-12-05 | 2023-04-28 | 四川依贝智能装备有限公司 | 一种感应待机的绿篱机 |
CN115830640B (zh) * | 2022-12-26 | 2024-03-05 | 北京百度网讯科技有限公司 | 一种人体姿态识别和模型训练方法、装置、设备和介质 |
CN115984972B (zh) * | 2023-03-20 | 2023-08-11 | 乐歌人体工学科技股份有限公司 | 基于运动视频驱动的人体姿态识别方法 |
CN118692136A (zh) * | 2023-03-24 | 2024-09-24 | 北京字跳网络技术有限公司 | 图像识别方法、设备、存储介质及程序产品 |
CN116129016B (zh) * | 2023-04-17 | 2023-07-14 | 广州趣丸网络科技有限公司 | 一种姿态运动的数字同步方法、装置、设备及存储介质 |
CN116310012B (zh) * | 2023-05-25 | 2023-07-25 | 成都索贝数码科技股份有限公司 | 一种基于视频的三维数字人姿态驱动方法、设备及系统 |
CN117102856B (zh) * | 2023-10-23 | 2024-02-13 | 浙江大学 | 一种大型舱体双平台五自由度位姿识别与调整方法 |
CN117854156B (zh) * | 2024-03-07 | 2024-05-07 | 腾讯科技(深圳)有限公司 | 一种特征提取模型的训练方法和相关装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3418943A1 (en) * | 2017-06-22 | 2018-12-26 | Kabushiki Kaisha Toshiba | Object detecting apparatus, object detecting method, and computer-readable medium |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8577154B2 (en) * | 2008-06-16 | 2013-11-05 | University Of Southern California | Automated single viewpoint human action recognition by matching linked sequences of key poses |
AU2009281762A1 (en) * | 2008-08-15 | 2010-02-18 | Brown University | Method and apparatus for estimating body shape |
US8861800B2 (en) * | 2010-07-19 | 2014-10-14 | Carnegie Mellon University | Rapid 3D face reconstruction from a 2D image and methods using such rapid 3D face reconstruction |
US9646384B2 (en) * | 2013-09-11 | 2017-05-09 | Google Technology Holdings LLC | 3D feature descriptors with camera pose information |
WO2018226621A1 (en) * | 2017-06-05 | 2018-12-13 | Umajin Inc. | Methods and systems for an application system |
JP6939111B2 (ja) * | 2017-06-13 | 2021-09-22 | コニカミノルタ株式会社 | 画像認識装置および画像認識方法 |
US10733755B2 (en) * | 2017-07-18 | 2020-08-04 | Qualcomm Incorporated | Learning geometric differentials for matching 3D models to objects in a 2D image |
CN107622250A (zh) * | 2017-09-27 | 2018-01-23 | 深圳市得色科技有限公司 | 基于机器学习的3d图像识别方法及其系统 |
CN110020633B (zh) * | 2019-04-12 | 2022-11-04 | 腾讯科技(深圳)有限公司 | 姿态识别模型的训练方法、图像识别方法及装置 |
-
2019
- 2019-04-12 CN CN201910294734.8A patent/CN110020633B/zh active Active
-
2020
- 2020-03-30 WO PCT/CN2020/082039 patent/WO2020207281A1/zh active Application Filing
-
2021
- 2021-05-25 US US17/330,261 patent/US11907848B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3418943A1 (en) * | 2017-06-22 | 2018-12-26 | Kabushiki Kaisha Toshiba | Object detecting apparatus, object detecting method, and computer-readable medium |
Non-Patent Citations (5)
Title |
---|
2D/3D Pose Estimation and Action Recognition Using Multitask Deep Learning;Diogo C. Luvizon 等;《2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;20181216;5137-5146 * |
A Joint Model for 2D and 3D Pose Estimation from a Single Image;E. Simo-Serra 等;《2013 IEEE Conference on Computer Vision and Pattern Recognition》;20131003;3634-3641 * |
Disentangling 3D Pose in a Dendritic CNN for Unconstrained 2D Face Alignment;Amit Kumar 等;《2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;20181216;430-439 * |
基于卷积神经网络的人脸检测与特征点标定算法研究;王维;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180415;摘要 * |
基于深度学习的行人检测问题研究;常玲玲;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180215;摘要 * |
Also Published As
Publication number | Publication date |
---|---|
US11907848B2 (en) | 2024-02-20 |
CN110020633A (zh) | 2019-07-16 |
US20210279456A1 (en) | 2021-09-09 |
WO2020207281A1 (zh) | 2020-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110020633B (zh) | 姿态识别模型的训练方法、图像识别方法及装置 | |
CN110781765B (zh) | 一种人体姿态识别方法、装置、设备及存储介质 | |
CN113496507B (zh) | 一种人体三维模型重建方法 | |
JP5695758B2 (ja) | 手のジェスチャによるヒューマンマシンインターフェースのための方法、回路、及び、システム | |
CN112258504A (zh) | 一种图像检测方法、设备及计算机可读存储介质 | |
CN111222486B (zh) | 手部姿态识别模型的训练方法、装置、设备及存储介质 | |
CN114241100B (zh) | 虚拟对象的蒙皮处理方法、装置、设备、介质及程序产品 | |
CN111095170B (zh) | 虚拟现实场景及其交互方法、终端设备 | |
JP2014501011A5 (zh) | ||
CN105051755A (zh) | 用于姿势识别的部位和状态检测 | |
CN113240778B (zh) | 虚拟形象的生成方法、装置、电子设备和存储介质 | |
CN107450714A (zh) | 基于增强现实和图像识别的人机交互支撑测试系统 | |
CN103988150A (zh) | 用于初始化基于视觉的手跟踪器的快速指尖检测 | |
CN114419205B (zh) | 虚拟数字人的驱动方法及位姿获取模型的训练方法 | |
CN112819971A (zh) | 虚拟形象的生成方法、装置、设备和介质 | |
CN114332374A (zh) | 一种虚拟显示方法、设备以及存储介质 | |
CN114677572B (zh) | 对象描述参数的生成方法、深度学习模型的训练方法 | |
CN115933868A (zh) | 翻转讲台的立体综合教学场系统及其工作方法 | |
CN113506377A (zh) | 一种基于虚拟漫游技术的教学培训方法 | |
CN114998490B (zh) | 一种虚拟对象生成方法、装置、设备及存储介质 | |
CN115761076A (zh) | 骨骼姿态数据、骨骼姿态确定方法、装置、介质和设备 | |
CN109858402B (zh) | 一种图像检测方法、装置、终端以及存储介质 | |
CN115994944A (zh) | 三维关键点预测方法、训练方法及相关设备 | |
WO2024183454A1 (zh) | 虚拟对象动画生成方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
Mousas et al. | Performance-driven hybrid full-body character control for navigation and interaction in virtual environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |