CN110007754B - 手与物体交互过程的实时重建方法及装置 - Google Patents
手与物体交互过程的实时重建方法及装置 Download PDFInfo
- Publication number
- CN110007754B CN110007754B CN201910169262.3A CN201910169262A CN110007754B CN 110007754 B CN110007754 B CN 110007754B CN 201910169262 A CN201910169262 A CN 201910169262A CN 110007754 B CN110007754 B CN 110007754B
- Authority
- CN
- China
- Prior art keywords
- hand
- data
- motion
- representing
- segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 230000003993 interaction Effects 0.000 title claims abstract description 61
- 230000008569 process Effects 0.000 title claims abstract description 45
- 230000011218 segmentation Effects 0.000 claims abstract description 74
- 230000003068 static effect Effects 0.000 claims abstract description 25
- 230000006870 function Effects 0.000 claims description 14
- 238000005457 optimization Methods 0.000 claims description 11
- 230000001360 synchronised effect Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000012423 maintenance Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 4
- 230000015654 memory Effects 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims description 2
- 230000002452 interceptive effect Effects 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种手与物体交互过程的实时重建方法及装置,其中,方法包括以下步骤:对待处理深度图像数据进行数据分割得到手与物体分割结果,且获得手势姿态预测数据,其中,手与物体分割结果包括物体数据和手部数据;将预测数据和手与物体分割作为约束项对统一能量函数进行优化,以得到手部运动序列和物体非刚性运动序列;将物体数据融合到物体模型得到物体静态模型,并根据手部运动序列、物体非刚性运动序列和物体静态模型得到手与物体交互过程的实时重建结果。该方法可以有效解决手与物体交互运动的实时重建问题,实时获得手的运动、物体的运动和物体的几何模型。
Description
技术领域
本发明涉及计算机视觉、计算机图形学技术领域,特别涉及一种手与物体交互过程的实时重建方法及装置。
背景技术
手与物体的交互运动是人们日常生活中非常常见的活动,对手与物体的交互运动进行重建是人类活动全三维重建所必须解决的问题。而且,手与物体的交互过程中既包含了人的意图,又能反映一个人的健康状况。
因此,对手与物体的交互过程进行重建具有重要的科研意义。手势跟踪以及物体运动和模型重建是与手与物体交互运动重建直接相关的两个问题,也是计算机视觉与计算机图像学领域中两个重要且基础的问题,它们在人机交互,虚拟/增强现实等领域有着非常广泛的应用,学术界和工业界分别对这两个问题都进行了大量研究。
然而,目前对手与物体交互运动重建的研究非常不足。因此本发明针对这一现状,对手与物体的交互运动提出了一种实时重建方法。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种手与物体交互过程的实时重建方法,该方法可以有效解决手与物体交互运动的实时重建问题,实时获得手的运动、物体的运动和物体的几何模型。
本发明的另一个目的在于提出一种手与物体交互过程的实时重建装置。
为达到上述目的,本发明一方面实施例提出了一种手与物体交互过程的实时重建方法,包括以下步骤:对待处理深度图像数据进行数据分割得到手与物体分割结果,且获得手势姿态预测数据,其中,所述手与物体分割结果包括物体数据和手部数据;将预测数据和手与物体分割作为约束项对统一能量函数进行优化,以得到手部运动序列和物体非刚性运动序列;将所述物体数据融合到物体模型得到物体静态模型,并根据手部运动序列、物体非刚性运动序列和所述物体静态模型得到手与物体交互过程的实时重建结果。
本发明实施例的手与物体交互过程的实时重建方法,基于手与物体数据分割和手势姿态预测数据的统一能量优化,输入为两段采集的手与物体交互的时空对准的深度视频帧序列,输出为手的运动序列,物体的非刚性运动序列和一个物体的静态模型,从而有效解决手与物体交互运动的实时重建问题,实时获得手的运动、物体的运动和物体的几何模型。
另外,根据本发明上述实施例的手与物体交互过程的实时重建方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述对待处理深度图像数据进行数据分割得到手与物体分割结果,进一步包括:通过手与物体分割数据库对DNN(Deep NeuralNetwork,深度神经网络算法)进行训练,并根据训练后的所述DNN对待处理深度图像数据进行数据分割,以得到手与物体分割结果。
进一步地,在本发明的一个实施例中,所述待处理深度图像数据包括第一路深度图像数据和第二路深度图像数据,其中,所述第一路深度图像数据和所述第二路深度图像数据在时间上同步、且在空间上对齐。
进一步地,在本发明的一个实施例中,所述获得手势姿态预测数据,进一步包括:采集手部运动数据,并根据所述手部运动数据训练LSTM(Long Short-Term Memory,长短期记忆网络),以根据所述LSTM预测得到所述手势姿态预测数据。
进一步地,在本发明的一个实施例中,其中,所述统一能量函数为:
所述Ed2m(θt)是度量手的运动与手的深度数据匹配程度的能量项:
其中,Dhand表示属于手的深度数据,H(θt)表示姿态为θt的手的模型,Dist(×)表示点到手模型表面之间的有符号距离,其中正数表示点在模型外部,负数表示点在模型内部,Em2d(θt)表示将手的运动约束到数据轮廓中的能量,Epose(θt)、Elim(θt)和Ecolli(θt)分别表示手姿态运动的先验信息,Epre(θt)表示LSTM网络给出的手的姿态约束项,可表示为:
M是物体模型的表面点。
为达到上述目的,本发明另一方面实施例提出了一种手与物体交互过程的实时重建装置,包括:分割模块,用于对待处理深度图像数据进行数据分割得到手与物体分割结果,且获得手势姿态预测数据,其中,所述手与物体分割结果包括物体数据和手部数据;优化模块,将预测数据和手与物体分割作为约束项对统一能量函数进行优化,以得到手部运动序列和物体非刚性运动序列;融合模块,用于将所述物体数据融合到物体模型得到物体静态模型,并根据手部运动序列、物体非刚性运动序列和所述物体静态模型得到手与物体交互过程的实时重建结果。
本发明实施例的手与物体交互过程的实时重建装置,基于手与物体数据分割和手势姿态预测数据的统一能量优化,输入为两段采集的手与物体交互的时空对准的深度视频帧序列,输出为手的运动序列,物体的非刚性运动序列和一个物体的静态模型,从而有效解决手与物体交互运动的实时重建问题,实时获得手的运动、物体的运动和物体的几何模型。
另外,根据本发明上述实施例的手与物体交互过程的实时重建装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述分割模块进一步用于通过手与物体分割数据库对深度神经网络算法DNN进行训练,并根据训练后的所述DNN对待处理深度图像数据进行数据分割,以得到手与物体分割结果。
进一步地,在本发明的一个实施例中,所述待处理深度图像数据包括第一路深度图像数据和第二路深度图像数据,其中,所述第一路深度图像数据和所述第二路深度图像数据在时间上同步、且在空间上对齐。
进一步地,在本发明的一个实施例中,所述分割模块进一步用于采集手部运动数据,并根据所述手部运动数据训练长短期记忆网络LSTM,以根据所述LSTM预测得到所述手势姿态预测数据。
进一步地,在本发明的一个实施例中,其中,所述统一能量函数为:
所述Ed2m(θt)是度量手的运动与手的深度数据匹配程度的能量项:
其中,Dhand表示属于手的深度数据,H(θt)表示姿态为θt的手的模型,Dist(×)表示点到手模型表面之间的有符号距离,其中正数表示点在模型外部,负数表示点在模型内部,Em2d(θt)表示将手的运动约束到数据轮廓中的能量,Epose(θt)、Elim(θt)和Ecolli(θt)分别表示手姿态运动的先验信息,Epre(θt)表示LSTM网络给出的手的姿态约束项,可表示为:
M是物体模型的表面点。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的手与物体交互过程的实时重建方法的流程图;
图2为根据本发明实施例的使用的两路深度数据示意图;
图3为根据本发明实施例的使用DNN获得的手与物体分割结果示意图;
图4为根据本发明实施例的手与物体交互重建结果示意图;
图5为根据本发明实施例的手与物体交互过程的实时重建装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的手与物体交互过程的实时重建方法及装置,首先将参照附图描述根据本发明实施例提出的手与物体交互过程的实时重建方法。
图1是本发明一个实施例的手与物体交互过程的实时重建方法的流程图。
如图1所示,该手与物体交互过程的实时重建方法包括以下步骤:
在步骤S101中,对待处理深度图像数据进行数据分割得到手与物体分割结果,且获得手势姿态预测数据,其中,手与物体分割结果包括物体数据和手部数据。
可以理解的是,本发明实施例可以通过一定的方法对深度数据进行手-物体分割且获得手势的预测姿态。其中,一定的方法可以为预设方法,比如,预设方法可以为DNN,当然,本领域技术人员也可以根据实际情况选择其他方法,在此仅作为示例不做具体限定。
进一步地,在本发明的一个实施例中,待处理深度图像数据包括第一路深度图像数据和第二路深度图像数据,其中,第一路深度图像数据和第二路深度图像数据在时间上同步、且在空间上对齐。
其中,如图2所示,本实施实例使用两路分辨率为320×240的深度图像数据为例进行说明,这两路深度数据在时间上是同步的,并通过校准进行空间对齐。
进一步地,在本发明的一个实施例中,对待处理深度图像数据进行数据分割得到手与物体分割结果,进一步包括:通过手与物体分割数据库对深度神经网络算法DNN进行训练,并根据训练后的DNN对待处理深度图像数据进行数据分割,以得到手与物体分割结果。
其中,在本发明的一个实施例中,获得手势姿态预测数据,进一步包括:采集手部运动数据,并根据手部运动数据训练长短期记忆网络LSTM,以根据LSTM预测得到手势姿态预测数据。
具体而言,首先对两路深度数据进行数据分割,分别得到属于手的数据和属于物体的部分。数据分割可以采用颜色信息,也可以采用其他方法。本实施实例使用基于DNN的方法进行手与物体分割。通过使用手与物体分割数据库对DNN进行训练,使得DNN具有手部数据识别的能力。使用时,分别将两路深度数据输入到DNN,得到手与物体的分割结果,如图3所示。同时,本实例通过采集手的运动数据,训练了一个LSTM。该LSTM通过历史的手姿态给出一个手姿态的预测值。
在步骤S102中,将预测数据和手与物体分割作为约束项对统一能量函数进行优化,以得到手部运动序列和物体非刚性运动序列。
可以理解的是,本发明实施例可以将手-物体分割结果和预测的手势姿态送入统一能量函数中进行优化,从而解得手的姿态和物体的运动。
需要说明的是,本发明实施例方法能实时地获得手的运动,物体的运动以及物体的几何表面。其核心在于构建了一个统一的能量函数,并通过优化获得了手的运动和物体的非刚性运动。此技术可以在普通PC或工作站等硬件上实现。
具体而言,本发明实施例将深度数据,手与物体分割信息,LSTM给出的手势预测姿态数据作为数据项,构造一个统一的手与物体运动能量:
Ehand(θt)是只与手的运动相关的能量,可表示为:
其中,Ed2m(θt)是度量手的运动与手的深度数据匹配程度的能量项,可表示为:
其中,Dhand表示属于手的深度数据,H(θt)表示姿态为θt的手的模型,Dist(×)表示点到手模型表面之间的有符号距离,其中正数表示点在模型外部,负数表示点在模型内部。Em2d(θt)表示将手的运动约束到数据轮廓中的能量。Epose(θt)、Elim(θt)和Ecolli(θt)分别表示手姿态运动的先验信息。Epre(θt)表示LSTM网络给出的手的姿态约束项,可表示为:
Eitc表示手与物体之间的相互作用,可表示为:
M是物体模型的表面点。
在步骤S103中,将物体数据融合到物体模型得到物体静态模型,并根据手部运动序列、物体非刚性运动序列和物体静态模型得到手与物体交互过程的实时重建结果。
可以理解的是,将深度数据中物体的数据融合到物体模型中,得到完整的物体模型。
具体而言,如图4所示,本发明实施例进一步利用姿态更新的手的模型排除属于手的深度数据,提取属于物体的深度数据,最后将物体的深度数据信息根据物体的运动融合到物体静态模型中,得到完整的物体几何模型。
综上,手与物体的交互过程是人们日常生活中极为常见的场景。同时,手与物体交互的过程体现了人的意图且能反映人的健康状况。手与物体的交互过程在虚拟/增强现实,机器认知以及疾病诊断中都具有非常广泛的潜在应用。因此,对手与物体交互过程进行重建具有非常重要的意义。本发明实施例针对手与物体的交互过程,提出了一种基于手与物体数据分割,手势姿态预测数据的统一能量优化方法对手与物体交互过程进行实时重建。
根据本发明实施例提出的手与物体交互过程的实时重建方法,基于手与物体数据分割和手势姿态预测数据的统一能量优化,输入为两段采集的手与物体交互的时空对准的深度视频帧序列,输出为手的运动序列,物体的非刚性运动序列和一个物体的静态模型,从而有效解决手与物体交互运动的实时重建问题,实时获得手的运动、物体的运动和物体的几何模型。
其次参照附图描述根据本发明实施例提出的手与物体交互过程的实时重建装置。
图5是本发明一个实施例的手与物体交互过程的实时重建装置的结构示意图。
如图5所示,该手与物体交互过程的实时重建装置10包括:分割模块100、优化模块200和融合模块300。
其中,分割模块100用于对待处理深度图像数据进行数据分割得到手与物体分割结果,且获得手势姿态预测数据,其中,手与物体分割结果包括物体数据和手部数据。优化模块200用于将预测数据和手与物体分割作为约束项对统一能量函数进行优化,以得到手部运动序列和物体非刚性运动序列。融合模块300用于将物体数据融合到物体模型得到物体静态模型,并根据手部运动序列、物体非刚性运动序列和物体静态模型得到手与物体交互过程的实时重建结果。本发明实施例的装置10可以有效解决手与物体交互运动的实时重建问题,实时获得手的运动、物体的运动和物体的几何模型。
进一步地,在本发明的一个实施例中,分割模块100进一步用于通过手与物体分割数据库对深度神经网络算法DNN进行训练,并根据训练后的DNN对待处理深度图像数据进行数据分割,以得到手与物体分割结果。
进一步地,在本发明的一个实施例中,待处理深度图像数据包括第一路深度图像数据和第二路深度图像数据,其中,第一路深度图像数据和第二路深度图像数据在时间上同步、且在空间上对齐。
进一步地,在本发明的一个实施例中,分割模块100进一步用于采集手部运动数据,并根据手部运动数据训练长短期记忆网络LSTM,以根据LSTM预测得到手势姿态预测数据。
进一步地,在本发明的一个实施例中,其中,统一能量函数为:
Ed2m(θt)是度量手的运动与手的深度数据匹配程度的能量项:
其中,Dhand表示属于手的深度数据,H(θt)表示姿态为θt的手的模型,Dist(×)表示点到手模型表面之间的有符号距离,其中正数表示点在模型外部,负数表示点在模型内部,Em2d(θt)表示将手的运动约束到数据轮廓中的能量,Epose(θt)、Elim(θt)和Ecolli(θt)分别表示手姿态运动的先验信息,Epre(θt)表示LSTM网络给出的手的姿态约束项,可表示为:
M是物体模型的表面点。
需要说明的是,前述对手与物体交互过程的实时重建方法实施例的解释说明也适用于该实施例的手与物体交互过程的实时重建装置,此处不再赘述。
根据本发明实施例提出的手与物体交互过程的实时重建装置,基于手与物体数据分割和手势姿态预测数据的统一能量优化,输入为两段采集的手与物体交互的时空对准的深度视频帧序列,输出为手的运动序列,物体的非刚性运动序列和一个物体的静态模型,从而有效解决手与物体交互运动的实时重建问题,实时获得手的运动、物体的运动和物体的几何模型。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (8)
1.一种手与物体交互过程的实时重建方法,其特征在于,包括以下步骤:
对待处理深度图像数据进行数据分割得到手与物体分割结果,且获得手势姿态预测数据,其中,所述手与物体分割结果包括物体数据和手部数据;
将预测数据和手与物体分割作为约束项对统一能量函数进行优化,以得到手部运动序列和物体非刚性运动序列,其中,所述统一能量函数为:其中,表示物体的非刚性运动,θt表示手势的姿态,是与物体运动相关能量,所述为:其中,是度量物体运动与物体的深度数据匹配程度的能量项,所述为:其中,Dobj表示属于物体的深度数据,u和n分别表示物体的三维点和法向,表示物体的静态模型上的点经运动后获得的实时动态点;和分别表示将物体运动约束到数据轮廓中和物体运动时要保持局部刚性的能量项,其中,所述Ehand(θt)是与手的运动相关的能量:所述Ed2m(θt)是度量手的运动与手的深度数据匹配程度的能量项:其中,Dhand表示属于手的深度数据,H(θt)表示姿态为θt的手的模型,Dist(×)表示点到手模型表面之间的有符号距离,其中正数表示点在模型外部,负数表示点在模型内部,Em2d(θt)表示将手的运动约束到数据轮廓中的能量,Epose(θt)、Elim(θt)和Ecolli(θt)分别表示手姿态运动的先验信息,Epre(θt)表示LSTM网络给出的手的姿态约束项,可表示为:其中,表示LSTM给出的t时刻的手势,Eitc表示手与物体之间的相互作用,可表示为:当M是物体模型的表面点;以及
将所述物体数据融合到物体模型得到物体静态模型,并根据手部运动序列、物体非刚性运动序列和所述物体静态模型得到手与物体交互过程的实时重建结果。
2.根据权利要求1所述的手与物体交互过程的实时重建方法,其特征在于,所述对待处理深度图像数据进行数据分割得到手与物体分割结果,进一步包括:
通过手与物体分割数据库对深度神经网络算法DNN进行训练,并根据训练后的所述DNN对待处理深度图像数据进行数据分割,以得到手与物体分割结果。
3.根据权利要求2所述的手与物体交互过程的实时重建方法,其特征在于,所述待处理深度图像数据包括第一路深度图像数据和第二路深度图像数据,其中,所述第一路深度图像数据和所述第二路深度图像数据在时间上同步、且在空间上对齐。
4.根据权利要求1所述的手与物体交互过程的实时重建方法,其特征在于,所述获得手势姿态预测数据,进一步包括:
采集手部运动数据,并根据所述手部运动数据训练长短期记忆网络LSTM,以根据所述LSTM预测得到所述手势姿态预测数据。
5.一种手与物体交互过程的实时重建装置,其特征在于,包括:
分割模块,用于对待处理深度图像数据进行数据分割得到手与物体分割结果,且获得手势姿态预测数据,其中,所述手与物体分割结果包括物体数据和手部数据;
优化模块,将预测数据和手与物体分割作为约束项对统一能量函数进行优化,以得到手部运动序列和物体非刚性运动序列,其中,所述统一能量函数为:其中,表示物体的非刚性运动,θt表示手势的姿态,是与物体运动相关能量,所述为:其中,是度量物体运动与物体的深度数据匹配程度的能量项,所述为:其中,Dobj表示属于物体的深度数据,u和n分别表示物体的三维点和法向,表示物体的静态模型上的点经运动后获得的实时动态点;和分别表示将物体运动约束到数据轮廓中和物体运动时要保持局部刚性的能量项,其中,所述Ehand(θt)是与手的运动相关的能量:所述Ed2m(θt)是度量手的运动与手的深度数据匹配程度的能量项:其中,Dhand表示属于手的深度数据,H(θt)表示姿态为θt的手的模型,Dist(×)表示点到手模型表面之间的有符号距离,其中正数表示点在模型外部,负数表示点在模型内部,Em2d(θt)表示将手的运动约束到数据轮廓中的能量,Epose(θt)、Elim(θt)和Ecolli(θt)分别表示手姿态运动的先验信息,Epre(θt)表示LSTM网络给出的手的姿态约束项,可表示为:其中,表示LSTM给出的t时刻的手势,Eitc表示手与物体之间的相互作用,可表示为:当M是物体模型的表面点;以及
融合模块,用于将所述物体数据融合到物体模型得到物体静态模型,并根据手部运动序列、物体非刚性运动序列和所述物体静态模型得到手与物体交互过程的实时重建结果。
6.根据权利要求5所述的手与物体交互过程的实时重建装置,其特征在于,所述分割模块进一步用于通过手与物体分割数据库对深度神经网络算法DNN进行训练,并根据训练后的所述DNN对待处理深度图像数据进行数据分割,以得到手与物体分割结果。
7.根据权利要求6所述的手与物体交互过程的实时重建装置,其特征在于,所述待处理深度图像数据包括第一路深度图像数据和第二路深度图像数据,其中,所述第一路深度图像数据和所述第二路深度图像数据在时间上同步、且在空间上对齐。
8.根据权利要求5所述的手与物体交互过程的实时重建装置,其特征在于,所述分割模块进一步用于采集手部运动数据,并根据所述手部运动数据训练长短期记忆网络LSTM,以根据所述LSTM预测得到所述手势姿态预测数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910169262.3A CN110007754B (zh) | 2019-03-06 | 2019-03-06 | 手与物体交互过程的实时重建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910169262.3A CN110007754B (zh) | 2019-03-06 | 2019-03-06 | 手与物体交互过程的实时重建方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110007754A CN110007754A (zh) | 2019-07-12 |
CN110007754B true CN110007754B (zh) | 2020-08-28 |
Family
ID=67166554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910169262.3A Active CN110007754B (zh) | 2019-03-06 | 2019-03-06 | 手与物体交互过程的实时重建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110007754B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111124107A (zh) * | 2019-11-14 | 2020-05-08 | 清华大学 | 手与物体复杂交互场景重建方法及装置 |
CN111311648A (zh) * | 2020-02-06 | 2020-06-19 | 青岛理工大学 | 基于协作差分进化滤波的人手-物体交互过程跟踪方法 |
CN111583134B (zh) * | 2020-04-20 | 2022-08-12 | 清华大学 | 带标注的手与物体复杂交互真实彩色数据生成方法及装置 |
US11335007B2 (en) * | 2020-05-29 | 2022-05-17 | Zebra Technologies Corporation | Method to generate neural network training image annotations |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341811A (zh) * | 2017-06-20 | 2017-11-10 | 上海数迹智能科技有限公司 | 基于深度图像的利用MeanShift算法进行手部区域分割的方法 |
JP2017220157A (ja) * | 2016-06-10 | 2017-12-14 | 三菱電機株式会社 | 物体認識処理装置、物体認識処理方法および自動運転システム |
CN108122281A (zh) * | 2017-12-22 | 2018-06-05 | 洛阳中科众创空间科技有限公司 | 一种大范围实时人体三维重建方法 |
CN108256421A (zh) * | 2017-12-05 | 2018-07-06 | 盈盛资讯科技有限公司 | 一种动态手势序列实时识别方法、系统及装置 |
CN108776990A (zh) * | 2018-04-10 | 2018-11-09 | 清华大学 | 基于三阶球面谐波的动态场景高精度实时三维重建方法及系统 |
CN108805974A (zh) * | 2018-05-28 | 2018-11-13 | 深圳市唯特视科技有限公司 | 一种基于格拉斯曼流形的密集非刚性运动结构算法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103679154A (zh) * | 2013-12-26 | 2014-03-26 | 中国科学院自动化研究所 | 基于深度图像的三维手势动作的识别方法 |
CN106910242B (zh) * | 2017-01-23 | 2020-02-28 | 中国科学院自动化研究所 | 基于深度相机进行室内完整场景三维重建的方法及系统 |
CN106980386A (zh) * | 2017-04-24 | 2017-07-25 | 清华大学 | 手型跟踪方法、装置和计算机可读介质 |
US10431000B2 (en) * | 2017-07-18 | 2019-10-01 | Sony Corporation | Robust mesh tracking and fusion by using part-based key frames and priori model |
-
2019
- 2019-03-06 CN CN201910169262.3A patent/CN110007754B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017220157A (ja) * | 2016-06-10 | 2017-12-14 | 三菱電機株式会社 | 物体認識処理装置、物体認識処理方法および自動運転システム |
CN107341811A (zh) * | 2017-06-20 | 2017-11-10 | 上海数迹智能科技有限公司 | 基于深度图像的利用MeanShift算法进行手部区域分割的方法 |
CN108256421A (zh) * | 2017-12-05 | 2018-07-06 | 盈盛资讯科技有限公司 | 一种动态手势序列实时识别方法、系统及装置 |
CN108122281A (zh) * | 2017-12-22 | 2018-06-05 | 洛阳中科众创空间科技有限公司 | 一种大范围实时人体三维重建方法 |
CN108776990A (zh) * | 2018-04-10 | 2018-11-09 | 清华大学 | 基于三阶球面谐波的动态场景高精度实时三维重建方法及系统 |
CN108805974A (zh) * | 2018-05-28 | 2018-11-13 | 深圳市唯特视科技有限公司 | 一种基于格拉斯曼流形的密集非刚性运动结构算法 |
Non-Patent Citations (1)
Title |
---|
非刚性人体运动动作图像姿态轮廓提取算法;冷新科,等.;《吉林大学学报(理学版)》;20181130;第56卷(第6期);第1453-1460页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110007754A (zh) | 2019-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Trajectorycnn: a new spatio-temporal feature learning network for human motion prediction | |
Zhang et al. | Empowering things with intelligence: a survey of the progress, challenges, and opportunities in artificial intelligence of things | |
CN110007754B (zh) | 手与物体交互过程的实时重建方法及装置 | |
JP2021144679A (ja) | 視覚ベースの関節動作と姿勢運動の予想のためのシステム、コンピュータ実施方法、及びプログラム | |
CN111062326B (zh) | 一种基于几何驱动的自监督人体3d姿态估计网络训练方法 | |
Tu et al. | Consistent 3d hand reconstruction in video via self-supervised learning | |
CN112101262B (zh) | 一种多特征融合手语识别方法及网络模型 | |
Lee et al. | 3-D human behavior understanding using generalized TS-LSTM networks | |
CN112199994B (zh) | 一种实时检测rgb视频中的3d手与未知物体交互的方法和装置 | |
CN112258555A (zh) | 实时姿态估计运动分析方法、系统、计算机设备及存储介质 | |
CN110427831B (zh) | 一种基于融合特征的人体动作分类方法 | |
CN115131849A (zh) | 图像生成方法以及相关设备 | |
CN113989928A (zh) | 一种动作捕捉和重定向方法 | |
WO2024198747A1 (zh) | 动作捕捉数据的处理方法、装置、设备及存储介质 | |
CN113255514B (zh) | 基于局部场景感知图卷积网络的行为识别方法 | |
Parelli et al. | Spatio-temporal graph convolutional networks for continuous sign language recognition | |
Xu et al. | Motion recognition algorithm based on deep edge-aware pyramid pooling network in human–computer interaction | |
Zhu et al. | Tri-HGNN: Learning triple policies fused hierarchical graph neural networks for pedestrian trajectory prediction | |
CN113763518A (zh) | 基于虚拟数字人的多模态无限表情合成方法及装置 | |
CN114170353B (zh) | 一种基于神经网络的多条件控制的舞蹈生成方法及系统 | |
CN111738092A (zh) | 一种基于深度学习的恢复被遮挡人体姿态序列方法 | |
Ding et al. | Integrating Human Parsing and Pose Network for Human Action Recognition | |
CN103699214A (zh) | 一种基于三维自然手势的三维跟踪和交互方法 | |
Shao et al. | A hierarchical model for action recognition based on body parts | |
Liu et al. | Multi-Granularity Interaction for Multi-Person 3D Motion Prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |