[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN107169117B - 一种基于自动编码器和dtw的手绘图人体运动检索方法 - Google Patents

一种基于自动编码器和dtw的手绘图人体运动检索方法 Download PDF

Info

Publication number
CN107169117B
CN107169117B CN201710377338.2A CN201710377338A CN107169117B CN 107169117 B CN107169117 B CN 107169117B CN 201710377338 A CN201710377338 A CN 201710377338A CN 107169117 B CN107169117 B CN 107169117B
Authority
CN
China
Prior art keywords
motion
dtw
hand
human
skeleton
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710377338.2A
Other languages
English (en)
Other versions
CN107169117A (zh
Inventor
肖秦琨
楚超勤
高嵩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Technological University
Original Assignee
Xian Technological University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Technological University filed Critical Xian Technological University
Priority to CN201710377338.2A priority Critical patent/CN107169117B/zh
Publication of CN107169117A publication Critical patent/CN107169117A/zh
Application granted granted Critical
Publication of CN107169117B publication Critical patent/CN107169117B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开的一种基于自动编码器和DTW的手绘图人体运动检索方法,包括:使用相应设备拍摄单目视频,构建N个类别的动态人体运动序列数据库及M个类别人体运动骨架手绘图序列数据库;提取视频V(1)的每帧图像,通过背景差分和肤色模型获取出fij中运动轮廓,通过人体骨架提取法获得运动骨架;通过系统学习获取基于聚类的代表性帧图像数据库DRF;代表性的帧图像数据库DRF通过使用自动编码器提取人体骨胳运动图像特征;代表帧提取和相似性距离匹配,根据相似距离顺序获得最优路径检索结果,本发明提出将基于DTW的匹配与统计运动匹配相结合以提高运动匹配的性能和效率,基于优化的代表性识别特征通常比原始无序描述符具有更好的性能。

Description

一种基于自动编码器和DTW的手绘图人体运动检索方法
技术领域
本发明属于运动捕捉动画技术领域,具体涉及一种基于自动编码器和DTW的手绘图人体运动检索方法。
背景技术
近年来,计算机动画在各种应用中日益普及。计算机动画对人体运动的应用尤为重要。这已经导致了一个高的需求对于制作非常逼真的人类运动表征。已经形成了多种方法来产生人体运动数据。运动捕获(MoCap)是一种众所周知的方法。运动捕获设备的可用性越来越多,驱动了大规模的人体和物体运动数据库的发展。然而,随着各种运动数据的增长,搜索满足特定要求的合适的运动是一件困难的事情。因此,运动检索最近成为在运动捕捉动画领域的主要研究重点。
在文献中已经提出了一些运动检索方法,其中许多是由现有的音频检索方法修改,如动态时间规整(DTW)方法。为了支持索引和提高DTW的检索性能,基于均匀缩放(US)的算法已被提出。一种基于DTW和典型相关分析(CCA)扩展的方法,被称为广义的典型时间规整(GCTW),已被提出用于调整多模态序列。除了基于DTW的方法,其它方法寻求逻辑上类似的运动匹配。例如,已经开发了用于呈现运动的模板,以及提出使用模板匹配的运动搜索。此外,几何特征已被用来构建索引树,使用聚类和分割,然后提出根据峰值点进行动作匹配。但上述运动检索方法有以下不足:
(1)动态时间规整(DTW)方法,由于这种类型的数据的属性和参数数量大,通常证明了DTW对运动捕获数据的应用有效率低的表现。
(2)均匀缩放(US)的算法,基于均匀缩放的方法通常具有较高的计算成本。
(3)使用模板匹配的运动搜索和聚类和分割等方法来根据峰值点进行动作匹配,但是不能区分紧密匹配的运动。
发明内容
本发明的目的是提供一种基于自动编码器和DTW的手绘图人体运动检索方法,克服了现有方法较高的计算成本,运动捕获数据较低的应用效率和对紧密匹配的运动的检索不能区分到位的问题。
本发明采用的技术方案是,一种基于自动编码器和DTW的手绘图人体运动检索方法,具体按照以下步骤实施:
步骤1:使用相应设备拍摄单目视频,拍摄速度为30帧每秒,构建有N个类别的动态人体运动序列数据库V(1)=(V1 (1),...,VN (1))及M个类别人体运动骨架手绘图序列数据库V(2)=(V1 (2),...,VM (2));
步骤2:提取视频V(1)的每帧图像,得到帧图像Fi=(fi1,...,fin),其中n表示视频V(1)的帧数,对fij进行预处理,通过背景差分和肤色模型获取出fij中运动轮廓,通过人体骨架提取法获得运动骨架;
步骤3:通过系统学习获取基于模糊c-均值聚类的代表性帧图像数据库DRF
步骤4:代表性的帧图像数据库DRF通过使用自动编码器提取人体骨胳运动图像特征;
步骤5:应用画板手绘预查询的人体运动序列,首先应用自动编码器提取手绘图序列特征,进而应用模糊聚类获取手绘图运动序列代表帧RFX=(rf1 X,...,rfk X),应用DTW算法计算RFX和代表帧图像数据库DRF距离,根据相似距离顺序排序,输出最优运动检索结果。
本发明的特点还在于,
步骤2具体按照以下步骤实施:
(21)使用Kinect获取人体运动的RGB彩色与深度图像,去除RGB彩色与深度图像噪声,并对其进行图像校正处理;
(22)根据彩色图像背景的复杂程度采用不同方法去除背景,获得前景彩色图像;
(23)基于前景彩色图像且依据肤色模型对脸部及手部进行定位并将脸部及手部定位质心作为初始获取的关节点;
(24)基于学习得到的贝叶斯分类器对彩色图像前景中的运动人体进行部件分类识别;
(25)依据分类识别结果判定肢体各刚体结构部位类别,再根据各刚体部件的链接关系确定出各关节点,依次联接各关节点形成平面人体骨架,结合各个关节点深度数据将平面骨架变换成三维立体骨架。
步骤3具体按照以下步骤实施:
(31)给定运动序列{Fi}i=1:n,其中n是帧数,使用模糊c-均值FCM聚类方法生成代表性帧;
(32)基于帧图像Fi=(fi1,...,fin)聚类获取运动序列代表性的帧RF(1) i=(rf1 (1),…,rfk (1)),并对V(2)手绘图数据库进行聚类处理,获得手绘图关键帧图像RF(2) j=(rf1 (2),…,rfk (2)),然后总的代表帧可以表示为RF={rfk}k=1:c,其中rfk对应于第k个聚类中心;
(33)所有视频运动类别及手绘图所对应的代表性帧图像共同组成人体运动代表帧图像数据库DRF={RF(1) i,RF(2) j}。
步骤4具体按照以下步骤实施:
(41)假设自动编码器的输入为x,首先,该编码器将原始信号x映射到特征信号z中:
z(e)=h(e)(W(e)x+b(e))
其中“(e)”是指神经网络编码层,h(e)是传递函数,W(e)是加权矩阵,b(e)是偏置向量;
(42)解码器将特征信号z映射返回到估计
Figure GDA0001356978720000041
中:
Figure GDA0001356978720000042
其中“(d)”表示第d网络层,h(d)是解码器的传递函数,W(d)是权重矩阵,b(d)是偏置向量;
(43)建立一个代价函数来描述输入,表示为x,与其重建之间的误差输出,表示为
Figure GDA0001356978720000043
并需要控制误差的值最小
Figure GDA0001356978720000044
其中代价函数E由3部分组成,第1部分
Figure GDA0001356978720000045
是均方误差,第2部分l*Wweights是L2正则化,第3部分b*Wsparsity是稀疏正则化,L2正则化系数为l,稀疏正则化系数为b,如果让L2正则化是:
Figure GDA0001356978720000051
其中L,n,k分别是训练数据中的隐层数,观测数和变量数,添加一个正则化来激励稀疏项,将第i个神经元激活措施定义为:
Figure GDA0001356978720000052
其中n是训练样本数,xj是第j个训练样本,wi (1)T和bi (1)分别是W(1)的第i行,偏移向量,接下来,利用Kullback Leibler发散呈现稀疏正则化:
Figure GDA0001356978720000053
当ri
Figure GDA0001356978720000054
相等,Kullback Leibler发散是0,否则,由于它们彼此偏离,发散是较大的。
步骤5具体按照以下步骤实施:
(51)DTW的目的是比较两个序列RFX=(rf1 X,...,rfc X)和RFY=(rf1 Y,…,rfc Y)之间的相似性,让整体匹配代价为Cp(RFX,RFY):
CP(RFX,RFY)=[dDTW(rfi X,rfj Y)]c×c
在RFX和RFY之间的一个规整路径p,被定义为本地代价度量,而dDTW(rfi X,rfj Y)是rfi X
Figure GDA0001356978720000055
之间的DTW,设定rfi X
Figure GDA0001356978720000056
是t维向量,并且rfi X=(x1,…,xt)和
Figure GDA0001356978720000057
rfi X
Figure GDA0001356978720000058
之间的DTW是:
Figure GDA0001356978720000059
(52)RFX和RFY之间的最佳规整路径是在所有可能的规整路径中具有最小总成本的规整路径p*,然后定义RFX和RFY之间的距离是p*的总成本:dDTW(RFX,RFY)=Cp*(RFX,RFY);
(53)为了确定最优路径p*,使用动态规划获得最优路径,累积成本矩阵D满足以下等式:
Figure GDA0001356978720000061
且n∈[1:c],D(1,m)=∑m k=1dDTW(rf1 X,rfk Y)有m∈[1:c],和:
D(n,m)=min{D(n-1,m-1),D(n-1,m),D(n,m-1)}+dDTW(rfn X,rfm Y),
最终优化DTW的距离是:
dDTW(RFX,RFY)=Cp*(RFX,RFY)=D(n,m)。
本发明的有益效果是,本发明从运动数据库检索与给定查询运动非常相似的运动,提出将基于DTW的匹配与统计运动匹配相结合以提高运动匹配的性能和效率。基于优化的代表性识别特征通常比原始无序描述符具有更好的性能,使用模糊聚类将冗余姿态描述符转换成判别描述符。多变量统计学习和贝叶斯融合方法用于将运动匹配转换为运输问题以适应旋转,局部或全局缩放,将提出的算法的性能与DTW和US方法的性能进行比较,使得该算法检索结果具有良好的精确性和有效性。
附图说明
图1是本发明的一种基于自动编码器和DTW的手绘图人体运动检索方法的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明中相关技术介绍如下:
(1)聚类分析:聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,本发明提到的系统聚类方法是其中的一种,其主要原理是应用紧邻法将属性相似的向量分类成多个集合,是一种无监督的分类方法。系统聚类的步骤一般是首先根据一批数据或指标找出能度量这些数据或指标之间相似程度的统计量然后以统计量作为划分类型的依据,把一些相似程度大的站点(或样品)首先聚合为一类,而把另一些相似程度较小的站点(或样品)聚合为另一类,直到所有的站点(或样品)都聚合完毕,最后根据各类之间的亲疏关系,逐步画成一张完整的分类系统图,又称谱系图。其相似程度由距离或者相似系数定义。进行类别合并的准则是使得类间差异最大,而类内差异最小。
(2)主元素分析(Principal component analysis,缩写PCA):它是一种对数据进行分析的技术,最重要的应用是对原有数据进行简化。正如它的名字主元素分析,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。它的优点是简单,而且无参数限制,可以方便的应用与各个场合。因此应用极其广泛,从神经科学到计算机图形学都有它的用武之地。被誉为应用线形代数最价值的结果之一。本发明采用的改进连续PCA方法是在原有PCA基础上,提出的一种快速方法,不仅提高了主元分析中的计算速度,同时提高了计算精度。
(3)动态时间规整(Dynamic time warping,缩写DTW):动态时间规整是一个典型的优化问题,它用满足一定条件的动态时间规整函数描述输入模板和参考模板的时间对应关系,求解两模板匹配时累计距离最小所对应的规整函数。
(4)典型相关分析:利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。它的基本原理是:为了从总体上把握两组指标之间的相关关系,分别在两组变量中提取有代表性的两个综合变量W1和Z1(分别为两个变量组中各变量的线性组合),利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。
(5)代价函数:一般来说,自动编码器的性能是由系统参数优化决定,并且代价函数始终是自动编码器参数训练的关键因素。根据深度学习理论,一个对象,诸如图像,可以被输入到深层网络中来提取特征并且进行特征重构,完成任务,输入(表示为x)与其重建之间的误差输出(表示为
Figure GDA0001356978720000083
)需要控制到最小的值,建立一个代价函数来描述这个误差。
(6)自动编码器:自动编码器可以看作是神经网络。这个网络可以减小输入的维数,并将重建的信号作为输出。在深层网络中,自动编码器始终作为自动学习对象特征的良好模式。在自动编码器训练过程中,只有无监督的学习机制才是必需的。
本发明方法如图1所示,具体按照以下步骤实施:
步骤1:使用相应设备拍摄单目视频,拍摄速度为30帧每秒,构建有N个类别的动态人体运动序列数据库V(1)=(V1 (1),...,VN (1))及M个类别人体运动骨架手绘图序列数据库V(2)=(V1 (2),...,VM (2));
步骤2:提取视频V(1)的每帧图像,得到帧图像Fi=(fi1,...,fin),其中n表示视频V(1)的帧数,对fij进行预处理,通过背景差分和肤色模型获取出fij中运动轮廓,通过人体骨架提取法获得运动骨架;
步骤2具体按照以下步骤实施:
(21)使用Kinect获取人体运动的RGB彩色与深度图像,去除RGB彩色与深度图像噪声,并对其进行图像校正处理;
(22)根据彩色图像背景的复杂程度采用不同方法去除背景,获得前景彩色图像;
(23)基于前景彩色图像且依据肤色模型对脸部及手部进行定位并将脸部及手部定位质心作为初始获取的关节点;
(24)基于学习得到的贝叶斯分类器对彩色图像前景中的运动人体进行部件分类识别;
(25)依据分类识别结果判定肢体各刚体结构部位类别,再根据各刚体部件的链接关系确定出各关节点,依次联接各关节点形成平面人体骨架,结合各个关节点深度数据将平面骨架变换成三维立体骨架。
步骤3:通过系统学习获取基于模糊c-均值聚类的代表性帧图像数据库DRF
步骤3具体按照以下步骤实施:
(31)给定运动序列{Fi}i=1:n,其中n是帧数,使用模糊c-均值FCM聚类方法生成代表性帧;
(32)基于帧图像Fi=(fi1,...,fin)聚类获取运动序列代表性的帧RF(1) i=(rf1 (1),…,rfk (1)),并对V(2)手绘图数据库进行聚类处理,获得手绘图关键帧图像
Figure GDA0001356978720000106
然后总的代表帧可以表示为RF={rfk}k=1:c,其中rfk对应于第k个聚类中心;
(33)所有视频运动类别及手绘图所对应的代表性帧图像共同组成人体运动代表帧图像数据库
Figure GDA0001356978720000107
步骤4:代表性的帧图像数据库DRF通过使用自动编码器提取人体骨胳运动图像特征;
步骤4具体按照以下步骤实施:
(41)假设自动编码器的输入为x,首先,该编码器将原始信号x映射到特征信号z中:
z(e)=h(e)(W(e)x+b(e))
其中“(e)”是指神经网络编码层,h(e)是传递函数,W(e)是加权矩阵,b(e)是偏置向量;
(42)解码器将特征信号z映射返回到估计
Figure GDA0001356978720000101
中:
Figure GDA0001356978720000102
其中“(d)”表示第d网络层,h(d)是解码器的传递函数,W(d)是权重矩阵,b(d)是偏置向量;
(43)建立一个代价函数来描述输入,表示为x,与其重建之间的误差输出,表示为
Figure GDA0001356978720000103
并需要控制误差的值最小
Figure GDA0001356978720000104
其中代价函数E由3部分组成,第1部分
Figure GDA0001356978720000105
是均方误差,第2部分l*Wweights是L2正则化,第3部分b*Wsparsity是稀疏正则化,L2正则化系数为l,稀疏正则化系数为b,如果让L2正则化是:
Figure GDA0001356978720000111
其中L,n,k分别是训练数据中的隐层数,观测数和变量数,添加一个正则化来激励稀疏项,将第i个神经元激活措施定义为:
Figure GDA0001356978720000112
其中n是训练样本数,xj是第j个训练样本,wi (1)T和bi (1)分别是W(1)的第i行,偏移向量,接下来,利用Kullback Leibler发散呈现稀疏正则化:
Figure GDA0001356978720000113
当ri
Figure GDA0001356978720000114
相等,Kullback Leibler发散是0,否则,由于它们彼此偏离,发散是较大的。
步骤5:应用画板手绘预查询的人体运动序列,首先应用自动编码器提取手绘图序列特征,进而应用模糊聚类获取手绘图运动序列代表帧
Figure GDA0001356978720000115
应用DTW算法计算RFX和代表帧图像数据库DRF距离,根据相似距离顺序排序,输出最优运动检索结果。
步骤5具体按照以下步骤实施:
(51)DTW的目的是比较两个序列
Figure GDA0001356978720000116
和RFY=(rf1 Y,…,rfc Y)之间的相似性,让整体匹配代价为Cp(RFX,RFY):
CP(RFX,RFY)=[dDTW(rfi X,rfj Y)]c×c
在RFX和RFY之间的一个规整路径p,被定义为本地代价度量,而dDTW(rfi X,rfj Y)是rfi X
Figure GDA0001356978720000121
之间的DTW,设定rfi X
Figure GDA0001356978720000122
是t维向量,并且rfi X=(x1,…,xt)和
Figure GDA0001356978720000123
Figure GDA0001356978720000124
之间的DTW是:
Figure GDA0001356978720000125
(52)RFX和RFY之间的最佳规整路径是在所有可能的规整路径中具有最小总成本的规整路径p*,然后定义RFX和RFY之间的距离是p*的总成本:dDTW(RFX,RFY)=Cp*(RFX,RFY);
(53)为了确定最优路径p*,使用动态规划获得最优路径,累积成本矩阵D满足以下等式:
Figure GDA0001356978720000126
且n∈[1:c],D(1,m)=∑m k=1 dDTW(rf1 X,rfk Y)有m∈[1:c],和:
D(n,m)=min{D(n-1,m-1),D(n-1,m),D(n,m-1)}+dDTW(rfn X,rfm Y),
最终优化DTW的距离是:
dDTW(RFX,RFY)=Cp*(RFX,RFY)=D(n,m)。
本发明与现有的运动检索技术相比:提出的统计学习和贝叶斯融合(SLBF)运动相似性匹配算法首先找到代表性的帧及其对应的权重值。基于统计学习,我们获得每个运动类别的可能性模型。为了计算相似度距离,我们利用两种相似度测量方法,包括基于类和基于CCA的运动相似距离测量。为了获得进一步优化的相似性距离,采用贝叶斯融合算法并运用基于实时CCA的运动相似度距离测量来更新基于类的相似距离预测。

Claims (2)

1.一种基于自动编码器和DTW的手绘图人体运动检索方法,其特征在于,具体按照以下步骤实施:
步骤1:使用相应设备拍摄单目视频,拍摄速度为30帧每秒,构建有N个类别的动态人体运动序列数据库V(1)=(V1 (1),…,VN (1))及M个类别人体运动骨架手绘图序列数据库V(2)=(V1 (2),…,VM (2));
步骤2:提取动态人体运动序列数据库V(1)的每帧图像,得到帧图像Fi=(fi1,...,fin),其中n表示动态人体运动序列数据库V(1)的帧数,对fij进行预处理,通过背景差分和肤色模型获取出fij中运动轮廓,通过人体骨架提取法获得运动骨架;
步骤3:通过系统学习获取基于模糊c-均值聚类的代表性帧图像数据库DRF
步骤4:代表性帧图像数据库DRF通过使用自动编码器提取人体骨胳运动图像特征;
步骤5:应用画板手绘预查询的人体运动序列,首先应用自动编码器提取手绘图序列特征,进而应用模糊聚类获取手绘图运动序列代表帧
Figure FDA0002664641440000011
应用DTW算法计算RFX和代表性帧图像数据库DRF距离,根据相似距离顺序排序,输出最优运动检索结果;
所述的步骤2具体按照以下步骤实施:
(21)使用Kinect获取人体运动的RGB彩色与深度图像,去除RGB彩色与深度图像噪声,并对其进行图像校正处理;
(22)根据彩色图像背景的复杂程度采用不同方法去除背景,获得前景彩色图像;
(23)基于前景彩色图像且依据肤色模型对脸部及手部进行定位并将脸部及手部定位质心作为初始获取的关节点;
(24)基于学习得到的贝叶斯分类器对彩色图像前景中的运动人体进行部件分类识别;
(25)依据分类识别结果判定肢体各刚体结构部位类别,再根据各刚体部件的连接关系确定出各关节点,依次连接各关节点形成平面人体骨架,结合各个关节点深度数据将平面骨架变换成三维立体骨架;
所述的步骤3具体按照以下步骤实施:
(31)给定运动序列{Fi}i=1:n,其中n是帧数,使用模糊c-均值FCM聚类方法生成代表性帧;
(32)基于帧图像Fi=(fi1,...,fin)聚类获取运动序列代表性的帧RF(1) i=(rf1 (1),…,rfk (1)),并对V(2)手绘图数据库进行聚类处理,获得手绘图关键帧图像RF(2) j=(rf1 (2),…,rfk (2)),然后总的代表帧可以表示为RF={rfk}k=1:c,其中rfk对应于第k个聚类中心;
(33)所有视频运动类别及手绘图所对应的代表性帧图像共同组成人体运动代表性帧图像数据库DRF={RF(1) i,RF(2) j};
所述的步骤4具体按照以下步骤实施:
(41)假设自动编码器的输入为x,首先,该编码器将原始信号x映射到特征信号z中:
z(e)=h(e)(W(e)x+b(e))
其中“(e)”是指神经网络编码层,h(e)是传递函数,W(e)是加权矩阵,b(e)是偏置向量;
(42)解码器将特征信号z映射返回到估计
Figure FDA0002664641440000031
中:
Figure FDA0002664641440000032
其中“(d)”表示第d网络层,h(d)是解码器的传递函数,W(d)是权重矩阵,b(d)是偏置向量;
(43)建立一个代价函数来描述输入,表示为x,与其重建之间的误差输出,表示为
Figure FDA0002664641440000033
并需要控制误差的值最小
Figure FDA0002664641440000034
其中代价函数E由3部分组成,第1部分
Figure FDA0002664641440000035
是均方误差,第2部分l*Wweights是L2正则化,第3部分b*Wsparsity是稀疏正则化,L2正则化系数为l,稀疏正则化系数为b,如果让L2正则化是:
Figure FDA0002664641440000036
其中L,n,k分别是训练数据中的隐层数,观测数和变量数,添加一个正则化来激励稀疏项,将第i个神经元激活措施定义为:
Figure FDA0002664641440000037
其中n是训练样本数,xj是第j个训练样本,wi (1)T和bi (1)分别是W(1)的第i行,偏移向量,接下来,利用Kullback Leibler发散呈现稀疏正则化:
Figure FDA0002664641440000038
当ri
Figure FDA0002664641440000041
相等,Kullback Leibler发散是0,否则,由于它们彼此偏离,发散是较大的。
2.根据权利要求1所述的一种基于自动编码器和DTW的手绘图人体运动检索方法,其特征在于,所述的步骤5具体按照以下步骤实施:
(51)DTW的目的是比较两个序列
Figure FDA0002664641440000042
和RFY=(rf1 Y,…,rfc Y)之间的相似性,让整体匹配代价为Cp(RFX,RFY):
CP(RFX,RFY)=[dDTW(rfi X,rfj Y)]c×c
在RFX和RFY之间的一个规整路径p,被定义为本地代价度量,而dDTW(rfi X,rfj Y)是rfi X与rfj Y,i,j=1,…,c,之间的DTW,设定rfi X和rfj Y是t维向量,并且rfi X=(x1,…,xt)和rfj Y=(y1,…,yt),rfi X和rfj Y之间的DTW是:
Figure FDA0002664641440000043
(52)RFX和RFY之间的最佳规整路径是在所有可能的规整路径中具有最小总成本的规整路径
Figure FDA0002664641440000044
然后定义RFX和RFY之间的距离是
Figure FDA0002664641440000045
Figure FDA0002664641440000048
的总成本:
Figure FDA0002664641440000049
(53)为了确定最优路径
Figure FDA0002664641440000046
使用动态规划获得最优路径,累积成本矩阵D满足以下等式:
Figure FDA0002664641440000047
且n∈[1:c],D(1,m)=∑m k=1 dDTW(rf1 X,rfk Y)有m∈[1:c],和:
D(n,m)=min{D(n-1,m-1),D(n-1,m),D(n,m-1)}+dDTW(rfn X,rfm Y),
最终优化DTW的距离是:
Figure FDA00026646414400000410
CN201710377338.2A 2017-05-25 2017-05-25 一种基于自动编码器和dtw的手绘图人体运动检索方法 Expired - Fee Related CN107169117B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710377338.2A CN107169117B (zh) 2017-05-25 2017-05-25 一种基于自动编码器和dtw的手绘图人体运动检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710377338.2A CN107169117B (zh) 2017-05-25 2017-05-25 一种基于自动编码器和dtw的手绘图人体运动检索方法

Publications (2)

Publication Number Publication Date
CN107169117A CN107169117A (zh) 2017-09-15
CN107169117B true CN107169117B (zh) 2020-11-10

Family

ID=59821593

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710377338.2A Expired - Fee Related CN107169117B (zh) 2017-05-25 2017-05-25 一种基于自动编码器和dtw的手绘图人体运动检索方法

Country Status (1)

Country Link
CN (1) CN107169117B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107877512A (zh) * 2017-09-29 2018-04-06 北京理工大学 一种机器鼠与实验鼠运动相似性评价方法
CN109146246B (zh) * 2018-05-17 2021-06-04 清华大学 一种基于自动编码器和贝叶斯网络的故障检测方法
CN110222634B (zh) * 2019-06-04 2022-11-01 河海大学常州校区 一种基于卷积神经网络的人体姿态识别方法
CN110674347B (zh) * 2019-09-02 2022-04-01 南京邮电大学 视觉屏蔽双层ap视频摘要生成方法
CN112925936B (zh) * 2021-02-22 2022-08-12 济南大学 一种基于深度哈希的运动捕获数据检索方法及系统
CN116189309B (zh) * 2022-11-16 2024-01-30 北京理工大学 一种处理人体运动数据的方法及电子设备
CN116701907B (zh) * 2023-05-31 2023-12-08 西安工业大学 一种基于自适应图扩散的判别多标签特征选择方法
CN116630481B (zh) * 2023-07-25 2023-10-13 天津象小素科技有限公司 一种基于ai绘图的绘画路径优化方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8948501B1 (en) * 2009-12-22 2015-02-03 Hrl Laboratories, Llc Three-dimensional (3D) object detection and multi-agent behavior recognition using 3D motion data
CN105894008A (zh) * 2015-01-16 2016-08-24 广西卡斯特动漫有限公司 结合特征点匹配及深度神经网络检测的目标运动跟踪方法
CN106203350A (zh) * 2016-07-12 2016-12-07 北京邮电大学 一种运动目标跨尺度跟踪方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004532540A (ja) * 2001-03-05 2004-10-21 インタービデオインコーポレイテッド 誤り耐性のある符号化のためのシステム及び方法
CN102222237B (zh) * 2011-07-14 2013-04-17 北京工业大学 手语视频的相似度评估模型的建立方法
US9277222B2 (en) * 2012-05-14 2016-03-01 Qualcomm Incorporated Unified fractional search and motion compensation architecture across multiple video standards
CN104050488B (zh) * 2014-06-16 2017-07-25 西安工业大学 一种基于切换的卡尔曼滤波模型的手势识别方法
CN104268285B (zh) * 2014-10-21 2018-06-12 厦门大学 一种基于动态弯曲算法的运动捕捉数据库检索方法
CN105005787B (zh) * 2015-06-24 2018-05-29 清华大学 一种基于灵巧手触觉信息的联合稀疏编码的材质分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8948501B1 (en) * 2009-12-22 2015-02-03 Hrl Laboratories, Llc Three-dimensional (3D) object detection and multi-agent behavior recognition using 3D motion data
CN105894008A (zh) * 2015-01-16 2016-08-24 广西卡斯特动漫有限公司 结合特征点匹配及深度神经网络检测的目标运动跟踪方法
CN106203350A (zh) * 2016-07-12 2016-12-07 北京邮电大学 一种运动目标跨尺度跟踪方法和装置

Also Published As

Publication number Publication date
CN107169117A (zh) 2017-09-15

Similar Documents

Publication Publication Date Title
CN107169117B (zh) 一种基于自动编码器和dtw的手绘图人体运动检索方法
CN107515895B (zh) 一种基于目标检测的视觉目标检索方法与系统
CN108960140B (zh) 基于多区域特征提取和融合的行人再识别方法
CN109800648B (zh) 基于人脸关键点校正的人脸检测识别方法及装置
CN109961051B (zh) 一种基于聚类和分块特征提取的行人重识别方法
CN107229757B (zh) 基于深度学习和哈希编码的视频检索方法
CN107480261A (zh) 一种基于深度学习细粒度人脸图像快速检索方法
Cong et al. Self-supervised online metric learning with low rank constraint for scene categorization
CN110097060B (zh) 一种面向树干图像的开集识别方法
CN104504366A (zh) 基于光流特征的笑脸识别系统及方法
CN110458235B (zh) 一种视频中运动姿势相似度比对方法
CN113158861B (zh) 一种基于原型对比学习的运动分析方法
CN110728694A (zh) 一种基于持续学习的长时视觉目标跟踪方法
CN109840518B (zh) 一种结合分类与域适应的视觉追踪方法
CN111178427A (zh) 一种基于Sliced-Wasserstein距离的深度自编码嵌入聚类的方法
CN116246102A (zh) 一种基于自编码器与决策树的图像分类方法与系统
Wang et al. A novel multiface recognition method with short training time and lightweight based on ABASNet and H-softmax
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
CN117636477A (zh) 一种基于径向基函数模糊神经网络的多目标跟踪匹配方法
Özbay et al. 3D Human Activity Classification with 3D Zernike Moment Based Convolutional, LSTM-Deep Neural Networks.
Martı́nez Carrillo et al. A compact and recursive Riemannian motion descriptor for untrimmed activity recognition
CN113887509B (zh) 一种基于图像集合的快速多模态视频人脸识别方法
CN112396089B (zh) 基于lfgc网络和压缩激励模块的图像匹配方法
CN115049894A (zh) 一种基于图学习的全局结构信息嵌入网络的目标重识别方法
CN115937910A (zh) 一种基于小样本度量网络的掌纹图像识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201110

Termination date: 20210525