CN111476115A - 一种人体行为识别方法、装置及设备 - Google Patents
一种人体行为识别方法、装置及设备 Download PDFInfo
- Publication number
- CN111476115A CN111476115A CN202010209871.XA CN202010209871A CN111476115A CN 111476115 A CN111476115 A CN 111476115A CN 202010209871 A CN202010209871 A CN 202010209871A CN 111476115 A CN111476115 A CN 111476115A
- Authority
- CN
- China
- Prior art keywords
- node
- displacement vector
- attention
- bone
- image frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
一种人体行为识别方法包括:获取人体行为所对应的图像帧序列,确定所述图像帧序列中的模板帧;根据所述模板帧获取骨骼节点所对应的排序策略;获取图像帧序列中的图像帧中骨骼节点与其它骨骼节点之间的第一位移矢量集、以及图像帧序列中的相邻两帧所确定的第二位移矢量集;根据所述排序策略,分别对每一个骨骼节点所对应的第一位移矢量集和第二位移矢量集进行排序,生成节点特征块;通过已训练的神经网络模型识别所述节点特征块所对应的行为类别。由于节点特征块中的位移矢量包括节点的方向特征,因而可以有效的区分不同方向的动作,从而可以提高人体行为识别精度。
Description
技术领域
本申请属于人工智能领域,尤其涉及一种人体行为识别方法、装置及设备。
背景技术
随着深度传感器技术的发展,检测设备已经能根据深度信息中估计人体的关键骨骼节点。由于骨骼节点足够表达人体运动过程中的动作信息,因此,骨骼节点同样可以用于人类行为的表达。相对于深度图像的复杂程度,骨骼节点仅仅包含了人体关键节点的坐标信息,这种骨骼节点坐标信息并不会因为视角的变化而改变,因此许多基于骨骼节点的行为识别方法相继被提出。
近年来,基于卷积神经网络CNN的骨骼节点行为识别技术得到广泛发展。其中最常见的处理方法是:将骨骼节点信息转换成深度模型训练最常见的图像来进行模型训练,但这种转换方式容易导致某些相似行为的混淆,不利于提升人体行为识别精度。
发明内容
有鉴于此,本申请实施例提供了一种人体行为识别方法、装置及设备,以解决现有技术中容易导致相似行为混淆,人体行为识别精度不高的问题。
本申请实施例的第一方面提供了一种人体行为识别方法,所述人体行为识别方法包括:
获取人体行为所对应的图像帧序列,确定所述图像帧序列中的模板帧;
根据所述模板帧获取骨骼节点所对应的排序策略;
获取图像帧序列中的图像帧中骨骼节点与其它骨骼节点之间的第一位移矢量集、以及图像帧序列中的相邻两帧所确定的第二位移矢量集,所述第二位移矢量集包括相邻两帧中的其中一个图像帧中的骨骼节点到另一图像帧中的骨骼节点所确定的位移矢量;
根据所述排序策略,分别对每一个骨骼节点所对应的第一位移矢量集和第二位移矢量集进行排序,生成节点特征块;
通过已训练的神经网络模型识别所述节点特征块所对应的行为类别。
结合第一方面,在第一方面的第一种可能实现方式中,所述通过已训练的神经网络模型识别所述节点特征块所对应的行为类别的步骤包括:
将所述节点特征块输入到已训练的第一卷积模型,得到所述节点特征块所对应的第一特征图集;
将所述节点特征块输入到已训练的基于注意力机制的第二卷积模型,对所述节点特征块进行动作关注评分,根据动作关注评分对变化的动作流进行加权,得到第二特征图;
将所述第一特征图集中的特征图分别与第二特征图融合,根据融合后的第三特征图对所述人体行为分类。
结合第一方面,在第一方面的第二种可能实现方式中,所述将所述节点特征块输入到已训练的基于注意力机制的第二卷积模型,对所述节点特征块进行动作关注评分,根据动作关注评分对变化的的动作流进行加权,得到第二特征图包括:
基于所述注意力机制的第二卷积模型,对所述节点特征块进行显著性评分;
通过显著性评分引导对所述节点特征块的全部区域产生空间注意和时间注意;
基于所述空间注意和时间注意,对所述节点特征块进行动作关注评分计算;根据所述动作关注评分对变化动作流所对应的节点特征块进行加权,获取第二特征图。
结合第一方面,在第一方面的第三种可能实现方式中,所述获取人体行为所对应的图像帧序列的步骤包括:
获取人体行为的原始图像序列;
根据预设的高斯分布模型对所述原始图像序列进行采样;
通过双线性插值得到人体行为所对应的图像帧序列。
结合第一方面,在第一方面的第四种可能实现方式中,所述根据所述模板帧获取骨骼节点所对应的排序策略的步骤包括:
获取模板帧中的第i骨骼节点与模板帧中的各个骨骼节点的距离,其中i为模板帧中的任一骨骼节点;
根据距离的大小进行排序,根据距离排序结果所对应的节点顺序确定第i骨骼节点的排序策略。
结合第一方面,在第一方面的第五种可能实现方式中,所述根据所述排序策略,分别对每一个骨骼节点所对应的第一位移矢量集和第二位移矢量集进行排序,生成节点特征块的步骤包括:
获取第一位移矢量集中的位移矢量所对应的起始节点和结束节点,以及第二位移矢量集中的位移矢量所对应的起始节点和结束节点,其中起始节点为第一位移矢量集或第二位移矢量集中的公共骨骼节点;
根据模板帧的排序策略确定节点顺序,对所述第一位移矢量集中的结束节点进行排序,以及对第二位移矢量集中的结束节点进行排序,得到结束节点所对应位移矢量顺序;
根据单帧中的多个节点分别确定的位移矢量顺序,以及相邻两帧的中的多个节点分别确定的位移矢量顺序,图像帧中包括的骨骼节点数量、图像帧序列中包括的图像帧数量,生成节点特征块。
结合第一方面,在第一方面的第六种可能实现方式中,所述方法还包括:
获取人体行为的样本数据,以及样本数据所对应的样本行为类型和样本注意力区域;
将所述人体行的样本数据输入神经网络模型,得到第二卷积模型输出的注意力识别区域,以及根据注意力识别区域和第一卷积模型输出的特征图融合得到的行为识别类型;
根据所述注意力识别区域和样本注意力区域的差异,优化所述第二卷积模型的参数,直到所述注意力识别区域和样本注意力区域的差异满足预设要求;
以及,根据行为识别类型和样本行为类型的差异,优化所述第一卷积模型的参数,直到所述行为识别类型和样本行为类型的差异满足预设要求。
结合第一方面,在第一方面的第六种可能实现方式中,所述人体行为的样本数据包括不同年龄的多个用户的多种不同的行为类型、以及不同身高的多用户的多种不同的行为类型。
本申请实施例的第二方面提供了一种人体行为识别装置,所述人体行为识别装置包括:
模板帧确定单元,用于获取人体行为所对应的图像帧序列,确定所述图像帧序列中的模板帧;
排序策略获取单元,用于根据所述模板帧获取骨骼节点所对应的排序策略;
位移矢量获取单元,用于获取图像帧序列中的图像帧中骨骼节点与其它骨骼节点之间的第一位移矢量集、以及图像帧序列中的相邻两帧所确定的第二位移矢量集,所述第二位移矢量集包括相邻两帧中的其中一个图像帧中的骨骼节点到另一图像帧中的骨骼节点所确定的位移矢量;
节点特征块生成单元,用于根据所述排序策略,分别对每一个骨骼节点所对应的第一位移矢量集和第二位移矢量集进行排序,生成节点特征块;
人体行为识别单元,用于通过已训练的神经网络模型识别所述节点特征块所对应的行为类别。
本申请实施例的第三方面提供了一种人体行为识别设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述人体行为识别方法的步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项所述人体行为识别方法的步骤。
本申请实施例与现有技术相比存在的有益效果是:通过图像帧序列中的模板帧确定排序策略后,对图像帧的帧内骨骼节点所计算的第一位移矢量集进行排序,以及对相邻的图像帧的骨骼节点所确定的第二位移矢量集进行排序,得到节点特征块,通过已训练的神经网络模型对所述节点特征块进行人体行为识别,由于节点特征块中的位移矢量包括节点的方向特征,因而可以有效的区分不同方向的动作。此外,本申请所采用的注意力机制,在获取表征前后帧动作变化关系的三维块状特征的基础上对变化的动作流进行加权,进一步强化显著性特征,同时抑制无用的噪声信息,从而使得人体行为识别的准确性得到进一步提升。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种人体行为识别方法的实现流程示意图;
图2是本申请实施例提供的一种确定排序策略的实现流程示意图;
图3是本申请实施例提供的生成块状特征的示意图;
图4是本申请实施例提供的生成节点特征块的实现流程示意图;
图5是本申请实施例提供的一种对人体行为进行分类的实现流程的示意图;
图6为本申请实施例提供的一种对神经网络模型进行训练的实现流程示意图;
图7为本申请实施例提供的一种人体行为识别装置的示意图;
图8是本申请实施例提供的人体行为识别设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
为了说明本申请所述的技术方案,下面通过具体实施例来进行说明。
图1为本申请实施例提供的一种人体行为识别方法的实现流程示意图,详述如下:
在步骤S101中,获取人体行为所对应的图像帧序列,确定所述图像帧序列中的模板帧。
具体的,所述人体行为,可以根据人体识别的应用场景,确定所需要识别的动作类型。比如,对于道路驾驶场景,在对交通警察的人体行为进行识别时,则可以对交通警察的手势类型的人体行为进行识别。在一般场景下,所识别的人体行为可以包括但不限于慢走、快走、慢跑、扩胸、站起、前跳、下蹲、打拳、躺下等。
在获取所述图像帧序列时,为了能够有效的识别图像帧序列所对应的行为类别,通常需要使得所述图像帧序列中包括的图像帧的数量为特定值。比如,所述图像帧序列中的图像帧数量与训练神经网络模型的样本数据中的图像帧数量相同。
确定图像帧序列中的图像帧数量时,可以通过人体行为的原始图像序列进行高斯采样,即通过预设的高斯模型对原始图像进行采样,得到采样图像帧,并可以进一步对所述采样图像帧进行双线性插值,得到插值图像帧,根据采样图像帧和插值图像帧,生成所述图像帧序列。其中,所述高斯模型可以为均值μ=0,方差σ2=5的高斯分布N(μ,σ2)来采样。
在采样后的图像帧小于样本数据中的最长行时,可以将小于最长行的那一部分图像帧内容通过零值填充。
所述模板帧用于确定所计算的骨骼节点之间的位移向量的排列顺序。其中,所计算的骨骼节点之间的位移向量,可以为图像帧内部的骨骼节点之间所计算的位移向量,或者也可以为相邻两帧的图像帧之间的骨骼节点的位移向量。
所述图像帧序列中的模板帧,可以为所述图像帧序列中的任意图像帧。为了计算方便,可以选取第一帧作为所述图像帧序列所对应的模板帧。
在步骤S102中,根据所述模板帧获取骨骼节点所对应的排序策略。
根据所述模板帧获取骨骼节点所对应的排序策略时,可以如图2所示,包括:
在步骤S201中,获取模板帧中的第i骨骼节点与模板帧中的各个骨骼节点的距离,其中i为模板帧中的任一骨骼节点;
假设模板帧中包括N个骨骼节点,可以得到每个骨骼节点i与所述N个骨骼节点的位移(可以理解为距离,即不包括方向的位移向量),即对于任意一个骨骼节点,可以计算得到N个距离。其中,第i骨骼节点与自身的距离为0。
如图3所示,在模板帧中选择第1个骨骼节点作为第1个目标节点时,可以计算第1目标节点与N个骨骼节点之间的距离。同样,第N个骨骼节点作为第N个目标节点时,可以计算第N个目标节点与N个骨骼节点之间的距离。
在步骤S202中,根据距离的大小进行排序,根据距离排序结果所对应的节点顺序确定第i骨骼节点的排序策略。
为了对便于后续图像帧所计算的位移能够更为有效的体现出变化特征。可以按照N个距离或位移的大小进行排序,得到模板帧中的第i个骨骼节点所对应的排序结果,根据所述排序结果可以确定模板帧中的第i帧所对应的节点顺序,该节点顺序即可作为第i个骨骼节点的排序策略。
如图3所示,对于第1个目标节点所计算得到的N个距离,可以根据距离从小到大进行排序,得到第1个目标节点的距离序列。根据第N个目标节点所计算得到的N个距离,可以根据距离从小到大进行排序,得到第N个目标节点的距离序列。通过N个目标节点分别对应的N个位移向量,即可确定图像帧内所对应的块状特征。
根据所得到的N个距离所对应的节点序列,即可分别作为骨骼节点所对应的排序策略。
比如,第1个骨骼节点分别对骨骼节点1至5(仅为简单示意)个骨骼节点分别计算距离,得到N个距离分别为0(骨骼节点1)、7(骨骼节点2)、2(骨骼节点3)、6(骨骼节点4)、5(骨骼节点5),按照距离从小到大进行排序为:0(骨骼节点1)→2(骨骼节点3)→5(骨骼节点5)→6(骨骼节点4)→7(骨骼节点2),那么骨骼节点1所对应的节点顺序为:1→3→5→4→2,因此,该节点顺序即为骨骼节点1所对应的排序策略。
基于同样的道理,可以确定模板帧中的任意骨骼节点所对应的排序策略。
在步骤S103中,获取图像帧序列中的图像帧中骨骼节点与其它骨骼节点之间的第一位移矢量集、以及图像帧序列中的相邻两帧所确定的第二位移矢量集,所述第二位移矢量集包括相邻两帧中的其中一个图像帧中的骨骼节点到另一图像帧中的骨骼节点所确定的位移矢量。
所述图像帧所对应的第一位移矢量集,可以包括所述图像帧中的任意一个骨骼节点i与图像帧中的所有骨骼节点所确定的位移向量。所述位移向量包括两个骨骼节点之间的距离,以及两个骨骼节点所确定的方向。所述位移向量的方向,可以统一确定所述骨骼节点i为起始点,图像帧中的所有骨骼节点分别作为结束点的方向。
对于图像帧序列中的相邻两帧所确定的第二位移矢量集,可以将相邻的前一帧中的骨骼节点i作为位移向量的起始点,相邻的后一帧中N个骨骼节点作为位移向量的结束点,确定所述前一帧的N个骨骼节点中的任意一个骨骼节点i分别对应的N个位移向量。可以理解的是,所述位移向量的方向不局限于此。
在步骤S104中,根据所述排序策略,分别对每一个骨骼节点所对应的第一位移矢量集和第二位移矢量集进行排序,生成节点特征块。
在确定了图像帧的帧内任意的骨骼节点i所对应的N个位移向量后,可以根据预先确定的排序策略,对骨骼节点i所对应的N个位移向量进行排序,同样,在确定相邻两帧中的前一帧的任意骨骼节点i所对应的N个位移向量后,可以根据预先确定的排序策略,对前一帧的骨骼节点i所对应的N个位移向量排序。具体可以如图4所示,包括:
在步骤S401中,获取第一位移矢量集中的位移矢量所对应的起始节点和结束节点,以及第二位移矢量集中的位移矢量所对应的起始节点和结束节点,其中起始节点为第一位移矢量集或第二位移矢量集中的公共骨骼节点;
为了确定第一位移矢量集和第二位移矢量集中的位移矢量的排列顺序,需要确定第一位移矢量集或第二位移矢量集中所包括的不同的骨骼节点。即在同一位移矢量集中包括公共骨骼节点和非公共骨骼节点,可以根据非公共骨骼节点进行排序。在对非公共骨骼节点进行表述时,可以表示为位移矢量的结束节点。公共骨骼节点为位移矢量的起始节点,这样,可以通过位移矢量的结束节点来确定位移矢量所对应的顺序。
其中,对于第二位移矢量集中的位移矢量,起点节点为相邻两帧中的前一帧中的骨骼节点,结束节点为相邻两帧中的后一帧中的骨骼节点。
在步骤S402中,根据模板帧的排序策略确定节点顺序,对所述第一位移矢量集中的结束节点进行排序,以及对第二位移矢量集中的结束节点进行排序,得到结束节点所对应位移矢量顺序;
预先确定的排序策略中,包括第i个骨骼节点中的位移矢量所对应的骨骼节点的排列顺序。根据位移矢量集中的起始节点,可以查找到排序策略中的第i个骨骼节点,根据排序策略中的骨骼节点中的排列顺序,可以对每个起始节点所对应的位移矢量集中的位移矢量进行排序。
即对于每一个起始节点所对应的多个位移矢量,可以通过起始节点对应的排序策略进行排序。对N个起始节点所对应的N个位移矢量分别进行排序后,即可得到图3所示的块状特征。
比如,获取的人体骨骼节点数量为N,在确定排序策略时,对于每个骨骼节点i,均存储有与该骨骼节点对应的排序策略。简化示例如:当N为5时,如果骨骼节点3所存储的排序策略为5,2,1,4,3。在对第一位移矢量集中的第3个骨骼节点所对应的5个位移矢量进行排序时,则位移矢量排序为:5-5,5-2,5-1,5-4,5-3,其中,a-b表示起始节点为a,结束节点为b的位移矢量。
在步骤S403中,根据单帧中的多个节点分别确定的位移矢量顺序,以及相邻两帧的中的多个节点分别确定的位移矢量顺序,图像帧中包括的骨骼节点数量、图像帧序列中包括的图像帧数量,生成节点特征块。
根据单帧中的多个节点分别确定的位移矢量顺序,比如N个节点分别确定N个位移矢量的顺序,可以得到单帧所对应的连长为N的第一块状特征。
根据相邻两帧中的多个节点分别确定的位移矢量顺序,可以得到相邻两帧所对应的第二块状特征。
将第一块状特征和第二块状特征,按照时间帧的顺序,对多帧分别对应的第一块状特征和第二块状特征按照时间顺序排列,即可得到节点特征块。
在步骤S105中,通过已训练的神经网络模型识别所述节点特征块所对应的行为类别。
将所采集的人体行为的图像帧序列所对应的节点特征块输入到已训练的神经网络模型,可以得到人体行为的图像帧序列所对应的行为类别,包括但不限于慢走,快走,慢跑,扩胸,站起,前跳,下蹲,打拳和躺下。
在一种行为类别的识别实现方式中,可以引入对注意力区域进行识别的第二卷积模型,用于识别节点特征块中对人体行为识别作出主要贡献的区域,实现流程可以如图5所示,包括:
在步骤S501中,将所述节点特征块输入到已训练的第一卷积模型,得到所述节点特征块所对应的第一特征图集。
可以通过基本的卷积神经网络CNN,例如AlexNet,VGG等深度学习网络结构,获取所述节点特征块所对应的第一特征图集。
在步骤S502中,将所述节点特征块输入到已训练的基于注意力机制的第二卷积模型,对所述节点特征块进行动作关注评分,根据关注评分对变化的动作流进行加权,得到第二特征图;
根据预先训练的第二卷积模型,提取所述节点特征块中包括注意力区域的第二特征图。具体可以包括显著性班次分计算、生成时间注意和空间注意,以及特征块加权等步骤,具体介绍如下:
根据上述步骤所获取的图像帧序列中的图像帧中的骨骼节点与其它骨骼节点之间的第一位移矢量集、以及图像帧序列中的相邻两帧所确定的第二位移矢量集,所述第二位移矢量集包括相邻两帧中的其中一个图像帧中的骨骼节点到另一图像帧中的骨骼节点所确定的位移矢量;根据预先确定的所述排序策略,分别对每一个骨骼节点所对应的第一位移矢量集和第二位移矢量集进行排序,生成节点特征块;其中由第一位移矢量集组成的节点特征块代表帧内块状特征,第二位移矢量集组成的节点特征块代表帧间块状特征。
基于注意力机制的第二卷积模型中的特征提取模块可以对输入的节点特征块进行特征提取,得到由K个特征向量{v1,...,vK}组成的特征图,每个特征向量对应特征图的一个区域,也对应每一节点特征块,K表示区域数,例如对于空间尺寸H×W的特征图,K=H×W。我们在特征图上应用1×1卷积核,然后使用Sigmoid函数,得到每个区域的显著度,如下所示:
si=sigmoid(ps Tvi+qs)
其中ps和qs是学习参数。si是第i个区域的显著度。所有区域的显著度构成一个显著性图S。根据每个区域的特征向量vi和显著度si,我们计算其在每个区域的关注特征,表示为ai,如下所示:
ai=si(ma Tvi+na)
其中ma和na是学习参数。接着我们计算每个特征区域的归一化注意力权重wi,如下:
wi=(aw Tvi+bw)
α=N.(w)
其中向量w的每个元素wi是第i个区域的注意力权重,N.()为归一化算子,并将所有位置的权重之和限制为1,aw和bw是学习参数。
通过上述方式,我们对节点特征块产生空间注意和时间注意,其中空间注意对应帧内块状特征中每一节点特征块得到的注意力权重,其中时间注意对应帧间块状特征中每一节点特征块得到的注意力权重,结合所述空间注意和时间注意,若空间注意力权重和时间注意力权重均大于预设阈值,则认为所述节点发生变化较大,表明相关节点是动作发生变化的关键位置,随后对基于所述空间注意和时间注意对相应节点特征块进行加权。比如,在一种实现方式中,可以将空间注意力权重与时间注意力权重求和取平均,获取第二特征图。
在步骤S503中,将所述第一特征图集中的特征图分别与第二特征图融合,根据融合后的第三特征图对所述人体行为分类。
将所述第二特征图与第一特征图集中的各个特征图分别融合,比如通过相乘的方式,使得第一特征图集中的特征图的注意力区域得到加强,对其它区域中的噪声信息得到一定程度的抑制,从而能够对图像帧序列的行为类型进行更为精确的识别。
在一种可能实现方式中,在对第一特征图集的计算过程中,可以分别将所述第二特征图分别进行融合,使得第一卷积模型可以更为准确的对特定区域进行计算识别。
另外,在本申请实施前,还可以包括对卷积神经网络进行训练的过程,如图6所示,可以包括:
在步骤S601中,获取人体行为的样本数据,以及样本数据所对应的样本行为类型和样本注意力区域;
其中,所述样本数据可以包括不同年龄的多个用户的多种不同的行为类型、以及不同身高的多用户的多种不同的行为类型。比如,可以选择的人物年龄分布从19岁到55岁,人物的身高从1.55米到1.90米。采集的行为类型可以包括如:慢走,快走,慢跑,扩胸,站起,前跳,下蹲,打拳和躺下等。对于同一行为类型,可以重复该行为预定次数。
其中所述样本数据可以通过原始图像序列获得。在采集到原始图像序列后,可以通过预设的高斯分布模型对原始图像序列进行采样,并且可以通过双线性插值得到人体行为所对应的图像帧序列,使得采集的图像帧序列具有相同的图像帧长度,便于后续的模型训练和对图像帧序列进行行为类型识别。
在获取图像帧序列后,可以提取所述样本数据中包括的骨骼节点,并根据骨骼节点帧内的骨骼节点的位移向量,以及两帧之间的骨骼节点的位移向量,结合预先设定的排序策略,得到图像帧序列所对应的节点特征块。除了标示所述样本数据中的节点特征块所对应的行为类型外,还可以对节点特征块中的注意力区域进行标识,便于训练得到准确的注意图区域。
在步骤S602中,将所述人体行的样本数据输入神经网络模型,得到第二卷积模型输出的注意力识别区域,以及根据注意力识别区域和第一卷积模型输出的特征图集融合得到的行为识别类型;
将所述样本数据输入到神经网络模型,通过第二卷积模型可以输出注意力识别区域,通过所述注意力识别区域,与第一卷积模型输出的特征图像集融合,得到行为识别类型。
在步骤S603中,根据所述注意力识别区域和样本注意力区域的差异,优化所述第二卷积模型的参数,直到所述注意力识别区域和样本注意力区域的差异满足预设要求,
根据预先标定的样本注意力区域,结合所识别的注意力区域,确定两者的差异。判断所述差异是否满足预先设定的差异要求,如果不满足,则重新输入样本数据,对所述第二卷积模型进行训练,直到所训练的模型对注意力样本区域与注意力识别区域的差异符合预定的要求。
在步骤S604中,根据行为识别类型和样本行为类型的差异,优化所述第一卷积模型的参数,直到所述行为识别类型和样本行为类型的差异满足预设要求。
根据第二卷积模型所确定的注意力识别区域,与第一卷积模型所得到的图像集中的图像分别相乘,得到对注意力识别区域的特征加强和突出,对其它区域中的噪声信息得到一定程度的抑制,并根据融合后的图像识别得到行为识别类型,将所述行为识别类型与样本行为类型进行比较,根据比较结果调整卷积神经网络的参数,直到所有样本数据中的样本行为类型与行为识别类型相同,得到优化后的卷积神经网络所对应的参数,便于根据已训练的神经网络模型对人体行为进行识别。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
图7为本申请实施例提供的一种人体行为识别装置的结构示意图,详述如下:
所述人体行为识别装置包括:
模板帧确定单元701,用于获取人体行为所对应的图像帧序列,确定所述图像帧序列中的模板帧;
排序策略获取单元702,用于根据所述模板帧获取骨骼节点所对应的排序策略;
位移矢量获取单元703,用于获取图像帧序列中的图像帧中骨骼节点与其它骨骼节点之间的第一位移矢量集、以及图像帧序列中的相邻两帧所确定的第二位移矢量集,所述第二位移矢量集包括相邻两帧中的其中一个图像帧中的骨骼节点到另一图像帧中的骨骼节点所确定的位移矢量;
节点特征块生成单元704,用于根据所述排序策略,分别对每一个骨骼节点所对应的第一位移矢量集和第二位移矢量集进行排序,生成节点特征块;
人体行为识别单元705,用于通过已训练的神经网络模型识别所述节点特征块所对应的行为类别。
所述人体行为识别装置,与图1所述的人体行识别方法对应。
图8是本申请一实施例提供的人体行为识别设备的示意图。如图8所示,该实施例的人体行为识别设备8包括:处理器80、存储器81以及存储在所述存储器81中并可在所述处理器80上运行的计算机程序82,例如人体行为识别程序。所述处理器80执行所述计算机程序82时实现上述各个人体行为识别方法实施例中的步骤。或者,所述处理器80执行所述计算机程序82时实现上述各装置实施例中各模块/单元的功能。
示例性的,所述计算机程序82可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器81中,并由所述处理器80执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序82在所述人体行为识别设备8中的执行过程。例如,所述计算机程序82可以被分割成:
模板帧确定单元,用于获取人体行为所对应的图像帧序列,确定所述图像帧序列中的模板帧;
排序策略获取单元,用于根据所述模板帧获取骨骼节点所对应的排序策略;
位移矢量获取单元,用于获取图像帧序列中的图像帧中骨骼节点与其它骨骼节点之间的第一位移矢量集、以及图像帧序列中的相邻两帧所确定的第二位移矢量集,所述第二位移矢量集包括相邻两帧中的其中一个图像帧中的骨骼节点到另一图像帧中的骨骼节点所确定的位移矢量;
节点特征块生成单元,用于根据所述排序策略,分别对每一个骨骼节点所对应的第一位移矢量集和第二位移矢量集进行排序,生成节点特征块;
人体行为识别单元,用于通过已训练的神经网络模型识别所述节点特征块所对应的行为类别。
所述人体行为识别设备8可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述人体行为识别设备可包括,但不仅限于,处理器80、存储器81。本领域技术人员可以理解,图8仅仅是人体行为识别设备8的示例,并不构成对人体行为识别设备8的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述人体行为识别设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器80可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器81可以是所述人体行为识别设备8的内部存储单元,例如人体行为识别设备8的硬盘或内存。所述存储器81也可以是所述人体行为识别设备8的外部存储设备,例如所述人体行为识别设备8上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器81还可以既包括所述人体行为识别设备8的内部存储单元也包括外部存储设备。所述存储器81用于存储所述计算机程序以及所述人体行为识别设备所需的其他程序和数据。所述存储器81还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种人体行为识别方法,其特征在于,所述人体行为识别方法包括:
获取人体行为所对应的图像帧序列,确定所述图像帧序列中的模板帧;
根据所述模板帧获取骨骼节点所对应的排序策略;
获取图像帧序列中的图像帧中骨骼节点与其它骨骼节点之间的第一位移矢量集、以及图像帧序列中的相邻两帧所确定的第二位移矢量集,所述第二位移矢量集包括相邻两帧中的其中一个图像帧中的骨骼节点到另一图像帧中的骨骼节点所确定的位移矢量;
根据所述排序策略,分别对每一个骨骼节点所对应的第一位移矢量集和第二位移矢量集进行排序,生成节点特征块;
通过已训练的神经网络模型识别所述节点特征块所对应的行为类别。
2.根据权利要求1所述的人体行为识别方法,其特征在于,所述通过已训练的神经网络模型识别所述节点特征块所对应的行为类别的步骤包括:
将所述节点特征块输入到已训练的第一卷积模型,得到所述节点特征块所对应的第一特征图集;
将所述节点特征块输入到已训练的基于注意力机制的第二卷积模型,对所述节点特征块进行动作关注评分,根据动作关注评分对变化的动作流进行加权,得到第二特征图;
将所述第一特征图集中的特征图分别与第二特征图融合,根据融合后的第三特征图对所述人体行为分类。
3.根据权力要求1所述的人体行为识别方法,其特征在于,所述将所述节点特征块输入到已训练的基于注意力机制的第二卷积模型,对所述节点特征块进行动作关注评分,根据动作关注评分对变化的的动作流进行加权,得到第二特征图包括:
基于所述注意力机制的第二卷积模型,对所述节点特征块进行显著性评分;
通过显著性评分引导对所述节点特征块的全部区域产生空间注意和时间注意;
基于所述空间注意和时间注意,对所述节点特征块进行动作关注评分计算;根据所述动作关注评分对变化动作流所对应的节点特征块进行加权,获取第二特征图。
4.根据权利要求1所述的人体行为识别方法,其特征在于,所述获取人体行为所对应的图像帧序列的步骤包括:
获取人体行为的原始图像序列;
根据预设的高斯分布模型对所述原始图像序列进行采样;
通过双线性插值得到人体行为所对应的图像帧序列。
5.根据权利要求1所述的人体行为识别方法,其特征在于,所述根据所述模板帧获取骨骼节点所对应的排序策略的步骤包括:
获取模板帧中的第i骨骼节点与模板帧中的各个骨骼节点的距离,其中i为模板帧中的任一骨骼节点;
根据距离的大小进行排序,根据距离排序结果所对应的节点顺序确定第i骨骼节点的排序策略。
6.根据权利要求1所述的人体行为识别方法,其特征在于,所述根据所述排序策略,分别对每一个骨骼节点所对应的第一位移矢量集和第二位移矢量集进行排序,生成节点特征块的步骤包括:
获取第一位移矢量集中的位移矢量所对应的起始节点和结束节点,以及第二位移矢量集中的位移矢量所对应的起始节点和结束节点,其中起始节点为第一位移矢量集或第二位移矢量集中的公共骨骼节点;
根据模板帧的排序策略确定节点顺序,对所述第一位移矢量集中的结束节点进行排序,以及对第二位移矢量集中的结束节点进行排序,得到结束节点所对应位移矢量顺序;
根据单帧中的多个节点分别确定的位移矢量顺序,以及相邻两帧中的多个节点分别确定的位移矢量顺序,图像帧中包括的骨骼节点数量、图像帧序列中包括的图像帧数量,生成节点特征块。
7.根据权利要求1所述的人体行为识别方法,其特征在于,所述方法还包括:
获取人体行为的样本数据,以及样本数据所对应的样本行为类型和样本注意力区域;
将所述人体行为的样本数据输入神经网络模型,得到第二卷积模型输出的注意力识别区域,以及根据注意力识别区域和第一卷积模型输出的特征图融合得到的行为识别类型;
根据所述注意力识别区域和样本注意力区域的差异,优化所述第二卷积模型的参数,直到所述注意力识别区域和样本注意力区域的差异满足预设要求;
以及,根据行为识别类型和样本行为类型的差异,优化所述第一卷积模型的参数,直到所述行为识别类型和样本行为类型的差异满足预设要求。
8.一种人体行为识别装置,其特征在于,所述人体行为识别装置包括:
模板帧确定单元,用于获取人体行为所对应的图像帧序列,确定所述图像帧序列中的模板帧;
排序策略获取单元,用于根据所述模板帧获取骨骼节点所对应的排序策略;
位移矢量获取单元,用于获取图像帧序列中的图像帧中骨骼节点与其它骨骼节点之间的第一位移矢量集、以及图像帧序列中的相邻两帧所确定的第二位移矢量集,所述第二位移矢量集包括相邻两帧中的其中一个图像帧中的骨骼节点到另一图像帧中的骨骼节点所确定的位移矢量;
节点特征块生成单元,用于根据所述排序策略,分别对每一个骨骼节点所对应的第一位移矢量集和第二位移矢量集进行排序,生成节点特征块;
人体行为识别单元,用于通过已训练的神经网络模型识别所述节点特征块所对应的行为类别。
9.一种人体行为识别设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述人体行为识别方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述人体行为识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010209871.XA CN111476115B (zh) | 2020-03-23 | 2020-03-23 | 一种人体行为识别方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010209871.XA CN111476115B (zh) | 2020-03-23 | 2020-03-23 | 一种人体行为识别方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111476115A true CN111476115A (zh) | 2020-07-31 |
CN111476115B CN111476115B (zh) | 2023-08-29 |
Family
ID=71748330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010209871.XA Active CN111476115B (zh) | 2020-03-23 | 2020-03-23 | 一种人体行为识别方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111476115B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008130903A1 (en) * | 2007-04-17 | 2008-10-30 | Mikos, Ltd. | System and method for using three dimensional infrared imaging for libraries of standardized medical imagery |
WO2018126956A1 (zh) * | 2017-01-05 | 2018-07-12 | 腾讯科技(深圳)有限公司 | 一种信息处理方法、装置及服务器 |
CN108985259A (zh) * | 2018-08-03 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 人体动作识别方法和装置 |
CN109800659A (zh) * | 2018-12-26 | 2019-05-24 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 一种动作识别方法及装置 |
-
2020
- 2020-03-23 CN CN202010209871.XA patent/CN111476115B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008130903A1 (en) * | 2007-04-17 | 2008-10-30 | Mikos, Ltd. | System and method for using three dimensional infrared imaging for libraries of standardized medical imagery |
WO2018126956A1 (zh) * | 2017-01-05 | 2018-07-12 | 腾讯科技(深圳)有限公司 | 一种信息处理方法、装置及服务器 |
CN108985259A (zh) * | 2018-08-03 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 人体动作识别方法和装置 |
CN109800659A (zh) * | 2018-12-26 | 2019-05-24 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 一种动作识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111476115B (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522942B (zh) | 一种图像分类方法、装置、终端设备和存储介质 | |
CN110738101A (zh) | 行为识别方法、装置及计算机可读存储介质 | |
CN113326835B (zh) | 一种动作检测方法、装置、终端设备和存储介质 | |
CN111160375A (zh) | 三维关键点预测及深度学习模型训练方法、装置及设备 | |
CN107368820B (zh) | 一种精细化手势识别方法、装置及设备 | |
CN112149602B (zh) | 动作计数方法、装置、电子设备及存储介质 | |
CN110321761B (zh) | 一种行为识别方法、终端设备及计算机可读存储介质 | |
CN111814804B (zh) | 基于ga-bp-mc神经网络的人体三维尺寸信息预测方法及装置 | |
CN114495241B (zh) | 一种图像识别方法及装置、电子设备、存储介质 | |
CN113205017A (zh) | 跨年龄人脸识别方法及设备 | |
CN110633004A (zh) | 基于人体姿态估计的交互方法、装置和系统 | |
JP6381368B2 (ja) | 画像処理装置、画像処理方法、およびプログラム | |
CN114663593A (zh) | 三维人体姿态估计方法、装置、设备及存储介质 | |
CN111694954B (zh) | 图像分类方法、装置和电子设备 | |
CN109784295B (zh) | 视频流特征识别方法、装置、设备及存储介质 | |
CN110633630B (zh) | 一种行为识别方法、装置及终端设备 | |
CN112990009A (zh) | 基于端到端的车道线检测方法、装置、设备及存储介质 | |
CN111476115B (zh) | 一种人体行为识别方法、装置及设备 | |
CN113673280A (zh) | 图像处理装置、图像处理方法和计算机可读存储介质 | |
CN110781223A (zh) | 数据处理方法及装置、处理器、电子设备及存储介质 | |
CN113724176B (zh) | 一种多摄像头动作捕捉无缝衔接方法、装置、终端及介质 | |
CN111539420B (zh) | 基于注意力感知特征的全景图像显著性预测方法及系统 | |
CN116959097A (zh) | 动作识别方法、装置、设备及存储介质 | |
CN112257642B (zh) | 人体连续动作相似性评价方法及评价装置 | |
CN117011566A (zh) | 一种目标检测方法、检测模型训练方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |