CN112668359A

CN112668359A - 动作识别方法、动作识别装置和电子设备

Info

Publication number: CN112668359A
Application number: CN201910977125.2A
Authority: CN
Inventors: 尹汭; 祝贤坦; 谭志明
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-10-15
Filing date: 2019-10-15
Publication date: 2021-04-16
Also published as: EP3809321A1; JP7581753B2; US20210110146A1; EP3809321B1; US11423699B2; JP2021064367A

Abstract

本申请实施例提供一种动作识别方法、动作识别装置和电子设备，该动作识别装置包括：关键点特征提取单元，其对图像帧中目标人体上的关键点的信息进行处理，从而计算所述目标人体的关键点特征，所述关键点特征包括所述目标人体上的预定关键点的位置和预定关节的角度；以及第一识别单元，其根据所述关键点特征，识别所述目标人体的动作，输出第一识别结果。

Description

动作识别方法、动作识别装置和电子设备

技术领域

本申请涉及电子信息技术领域。

背景技术

人体的动作识别(action recognition)具有广泛的应用前景，例如，人体的动作识别可以被应用于消费者行为分析、健康看护、智能工厂等场景中。

现有技术中，常见的动作识别方法包括：基于摄像机拍摄到的图像帧来进行人体的动作识别，例如，使用基于深度学习网络的分类器对图像帧进行分类，从而对图像帧中的人体的动作进行识别；或者，从摄像机拍摄到的图像帧中提取人体的关键点，根据关键点来识别人体的动作。

应该注意，上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

本申请的申请人发现，常见的动作识别方法存在一些局限性，例如：在使用基于深度学习网络的分类器的方法中，需要大量的训练数据对深度学习网络进行训练，并且，该方法是针对图像信号直接进行分类，所以计算量大，而且会受到图像中其它信息的干扰，识别的效率并不高，此外，如果要对新的动作进行识别，需要针对该新的动作重新训练该深度学习网络，因而该方法的可扩展性较低；在根据人体的关键点来识别动作的方法中，由于使用的参数较单一，识别结果的准确性也难以保证。

本申请实施例提供一种动作识别方法、动作识别装置以及电子设备，该动作识别装置根据图像帧中人体上的关键点的位置以及关节的角度来识别人体的动作，不仅计算量小，而且准确性较高。

根据本申请实施例的第一方面，提供一种动作识别装置，包括：关键点特征提取单元，其对图像帧中目标人体上的关键点的信息进行处理，从而计算所述目标人体的关键点特征，所述关键点特征包括所述目标人体上的预定关键点的位置和预定关节的角度；以及第一识别单元，其根据所述关键点特征，识别所述目标人体的动作，输出第一识别结果。

根据本实施例的第二方面，提供一种动作识别方法，包括：对图像帧中目标人体上的关键点的信息进行处理，从而计算所述目标人体的关键点特征，所述关键点特征包括所述目标人体上的预定关键点的位置和预定关节的角度；以及根据所述关键点特征，识别所述目标人体的动作，输出第一识别结果。

根据本实施例的第三方面，提供一种电子设备，其包括实施例的第一方面的动作识别装置。

本申请的有益效果在于：根据图像帧中人体上的关键点的位置以及关节的角度来识别人体的动作，不仅计算量小，而且准确性较高。

参照后文的说明和附图，详细公开了本发明的特定实施方式，指明了本发明的原理可以被采用的方式。应该理解，本发明的实施方式在范围上并不因而受到限制。在所附附记的精神和条款的范围内，本发明的实施方式包括许多改变、修改和等同。

针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在，但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。

附图说明

所包括的附图用来提供对本发明实施例的进一步的理解，其构成了说明书的一部分，用于例示本发明的实施方式，并与文字描述一起来阐释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本申请实施例的第一方面的动作识别装置的一个示意图；

图2是当前图像帧中目标人体上的关键点的一个示意图；

图3是预定关键点的一个示意图；

图4是关键点特征提取单元计算关键点特征的方法的一个示意图；

图5是第二识别单元对第一识别结果进行调整的一个示意图；

图6是本申请实施例的第二方面的动作识别方法的一个示意图；

图7是实施例的第三方面的电子设备的一个构成示意图。

具体实施方式

参照附图，通过下面的说明书，本发明的前述以及其它特征将变得明显。在说明书和附图中，具体公开了本发明的特定实施方式，其表明了其中可以采用本发明的原则的部分实施方式，应了解的是，本发明不限于所描述的实施方式，相反，本发明包括落入所附附记的范围内的全部修改、变型以及等同物。

在本申请实施例中，术语“第一”、“第二”等用于对不同元素从称谓上进行区分，但并不表示这些元素的空间排列或时间顺序等，这些元素不应被这些术语所限制。术语“和/或”包括相关联列出的术语的一种或多个中的任何一个和所有组合。术语“包含”、“包括”、“具有”等是指所陈述的特征、元素、元件或组件的存在，但并不排除存在或添加一个或多个其他特征、元素、元件或组件。

在本申请实施例中，单数形式“一”、“该”等包括复数形式，应广义地理解为“一种”或“一类”而并不是限定为“一个”的含义；此外术语“该”应理解为既包括单数形式也包括复数形式，除非上下文另外明确指出。此外术语“根据”应理解为“至少部分根据……”，术语“基于”应理解为“至少部分基于……”，除非上下文另外明确指出。

实施例的第一方面

本申请实施例的第一方面提供一种动作识别装置。

图1是本申请实施例的第一方面的动作识别装置的一个示意图，如图1所示，该动作识别装置1包括：关键点特征提取单元11和第一识别单元12。

其中，关键点特征提取单元11对图像帧中目标人体上的关键点的信息进行处理，从而获得目标人体的关键点特征，该关键点特征包括目标人体上的预定关键点的位置和预定关节的角度；第一识别单元12根据由关键点特征提取单元11计算出的关键点特征，识别图像帧中目标人体的动作，输出第一识别结果。

根据本申请实施例的第一方面，动作识别装置1根据图像帧中人体上的关键点的位置以及来识别人体的动作，由于关键点的位置以及关节的角度是图像帧中的一部分信息，因而第一识别单元12无需使用深度学习网络就可以以较小的计算量进行准确的分类；并且，与仅基于关键点的位置进行动作识别的方案相比，本申请的动作识别装置1还根据人体的关节的角度进行动作识别，因而识别的准确度更高；此外，如果需要增加或改变需要识别的动作，可以通过对预定关键点和/或预定关节进行调整来实现，而无需进行大量的训练，因此，本申请的动作识别装置1的可扩展性较强，灵活度较高。

在至少一个实施例中，图像帧例如可以是由摄像机拍摄所得到的视频中的某一个图像帧。各图像帧在时间序列上可以具有先后顺序，例如，第n图像帧对应于时间序列上的时刻Tn，其中，n为自然数。

在本申请下面的描述中，在识别该第n图像帧中的目标人体的动作的情况下，该第n图像帧被称为当前图像帧(current image frame)，在时间序列上比当前图像帧靠前的图像帧称为历史图像帧(historical image frame)，例如，历史图像帧对应时间序列上的时刻T(n-k)。

在至少一个实施例中，当前图像帧中目标人体上的关键点的信息可以被输入到关键点特征提取单元11。

其中，当前图像帧中目标人体上的关键点的信息例如可以是当前图像帧中目标人体上的各关键点的坐标值，该坐标值可以用相互垂直的两个方向上的像素数来表示，其中，当前图像帧中最左上角的像素的坐标值可以被设定为(0，0)，该相互垂直的两个方向可以是当前图像帧的宽度方向和高度方向。

图2是当前图像帧中目标人体上的关键点的一个示意图，如图2所示，关键点例如可以是该目标人体的鼻子21、左肩22、右肩23、左髋24、右髋25、左膝盖26、右膝盖27、左脚踝28、右脚踝29、左肘30、右肘31、左手腕32、右手腕33、左眼34、右眼35、左耳36、右耳37。图2所示的关键点的分布只是一个示例，本申请不限于此。

在至少一个实施例中，图2中的各关键点的信息可以通过对当前图像帧进行目标检测来得到。例如，使用模板法等方法对当前图像帧中的目标人体，以及该目标人体的身体部位进行检测，在检测到的各部位中设定关键点来表示该部位，并输出各关键点的坐标值作为当前图像帧中目标人体上的关键点的信息；又例如，可以在作为摄像机的被摄体的人体上设置传感器，根据传感器所感测到的信息来确定当前图像帧中目标人体上的关键点的信息。

在至少一个实施例中，关键点特征提取单元11对于输入到其中的当前图像帧中目标人体上的关键点的信息，可以从中选取至少一部分关键点作为预定关键点，并对该预定关键点的信息进行处理。

图3是预定关键点的一个示意图，如图3所示，预定关键点例如可以是目标人体的鼻子21、左肩22、右肩23、左髋24、右髋25、左膝盖26、右膝盖27、左脚踝28、右脚踝29。此外，如图3所示，左髋24处的关节241、右髋25处的关节251、左膝盖26处的关节261、右膝盖27处的关节271可以是预定关节。

图3所示的只是预定关键点和预定关节的一个举例，本申请并不限于此，可以根据需要识别的动作来设定该预定关键点和预定关节。例如，在需要识别人体的躯干和腿部相关的动作的情况下，可以按照图2所示设定9个预定关键点和4个预定关节，该9个关键点可以不位于胳膊等部位；又例如，在需要识别人体的其它动作的情况下，比如需要识别手臂的举起或张开等动作时，就可以将胳膊上的关键点(例如图2的左肘30、右肘31、左手腕32、右手腕33)设置为预定关键点，并将左肘30和右肘31处的关节设置为预定关节。

在至少一个实施例中，关键点特征提取单元11提取出的当前图像帧中目标人体的关键点特征包括：该当前图像帧中目标人体上的预定关键点的位置和预定关节的角度。

图4是关键点特征提取单元11计算关键点特征的方法的一个示意图。如图4所示，该方法包括：

操作401、根据图像帧中目标人体的高度，调整图像帧中目标人体上的预定关键点的坐标值；以及

操作402、根据图像帧中目标人体上的预定关键点的调整后的坐标值，计算预定关节的角度。

在操作401中，当前图像帧中的目标人体的高度可以如图2的H所示，即：当前图像帧中目标人体的眼睛所在的关键点(例如，图2的左眼34或右眼35)的高度方向的坐标值与当前图像帧中目标人体的脚踝所在的关键点(例如，图2的左脚踝28、右脚踝29)的高度方向的坐标值之差。

在操作401中，可以计算当前图像帧中的目标人体的高度H与预设的标准高度H0的比值，将当前图像帧中的目标人体的各预定像素的坐标值(高度方向的坐标值和宽度方向的坐标值)除以该比值，得到调整后的坐标值。

通过操作401，能够使对当前图像帧中的目标人体的各预定关键点的坐标值进行归一化处理，避免由于被摄体与摄像机的距离或视场角的差异带来的各预定关键点的坐标值的变化，从而提高识别准确性。

此外，本申请可以不限于此，在操作401中，也可以采用其他方法调整各预定关键点的坐标值，此外，也可以根据目标人体的其它尺寸来调整各预定关键点的坐标值。

在操作402中，可以针对调整后的坐标值，计算关节241、关节251、关节261以及关节271的角度，其中，关节241的角度例如是图3中左肩22和左髋24的连线L1与左髋24和左膝盖26的连线L2的夹角，其它关节的角度的计算方式与之类似。

在至少一个实施例中，关键点特征提取单元11提取出的当前图像帧中目标人体的关键点特征被输入到第一识别单元12，第一识别单元12根据该关键点信息特征，识别目标人体的动作，输出第一识别结果。该第一识别单元12可以基于浅层学习网络进行识别，因此，可以以较小的计算量进行准确的识别。

例如，该第一识别单元12可以基于多层感知机(Multilayer Perception)模型进行识别，该多层感知机模型可以包括一个输入层(input layer)，两个隐含层(hiddenlayer)和一个输出层(output layer)，其中，该输入层可以被输入一个1*22的向量，该向量中例如包含有图3所示的9个预定关键点的高度方向的坐标值和宽度方向的坐标值以及4个预定关节的角度，各隐含层例如可以分别具有100个节点(nodes)，输出层可以输出6种动作的概率，这6种动作例如是行走(walking)、站立(standing)、坐(sitting)、蹲(squatting)、躺(lying)、弯腰(bending)，其中，概率最大的动作就是第一识别单元12的第一识别结果。

在本申请中，多层感知机(Multilayer Perception)模型仅是举例，第一识别单元12也可以基于其它模型进行识别，例如支持向量机(SVM)模型等。

在至少一个实施例中，如图1所示，动作识别装置1还可以包括：第二识别单元13。

其中，第二识别单元13根据目标人体上的预定关键点的运动参量，和/或第二识别单元13针对该当前图像帧之前的历史图像帧中的该目标人体的动作输出的第二识别结果(即，历史第二识别结果)，对第一识别单元12针对当前图像帧中目标人体的动作的第一识别结果进行修正，输出针对当前图像帧中的该目标人体的动作的第二识别结果。

在至少一个实施例中，目标人体上的预定关键点的运动参量可以根据当前图像帧中目标人体上的预定关键点的调整后的位置和历史图像帧中该目标人体上的预定关键点的调整后的位置来得到，例如，如图1所示，动作识别装置1还可以包括关键点运动参量计算单元14，关键点运动参量计算单元14计算当前图像帧中的该目标人体上的各预定关键点与历史图像帧中的该目标人体上的各预定关键点之间的运动向量，根据各预定关键点的运动向量计算目标人体上的预定关键点的运动参量。

其中，关键点特征提取单元11可以对是历史图像帧中目标人体上的关键点的信息进行如图4的操作401所述的处理，得到该历史图像帧中该目标人体上的预定关键点的调整后的位置。

在至少一个实施例中，目标人体上的预定关键点的运动参量包括：各预定关键点的坐标值的差的均值(mean)、和/或各预定关键点的坐标值的差的标准偏差(variances)、和/或各预定关键点的运动方向、和/或沿预定方向运动的预定关键点的数量。此外，本实施例可以不限于此，目标人体上的预定关键点的运动参量还可以是其它的参量。

需要说明的是，在第二识别单元13和关键点运动参量计算单元14中，当前图像帧中的目标人体和历史图像帧中的目标人体对应于同一个被拍摄人物，可以基于目标追踪技术来对当前图像帧和历史图像帧中对应于同一个被拍摄人物的目标人体进行确定。

此外，第二识别单元13的针对当前图像帧输出的第二识别结果可以被输入到第二识别单元13中，用于对当前图像帧之后的后来图像帧中的该目标人体进行动作识别。

图5是第二识别单元13对第一识别结果进行调整的一个示意图。如图5所示，51表示第一识别结果，52表示第二识别结果，53表示第二识别单元13生成第二识别结果53的依据。

如图5所示，第二识别结果例如可以是行走(walking)、站立(standing)、坐(sitting)、蹲(squatting)、躺(lying)、弯腰(bending)、跑(running)、爬行(crawling)、起立(getting up)、跌倒(falling down)、跳起(jumping)等。

如图5所示，各依据531～539可以是：

依据531、如果第一识别结果是“行走”，并且，各预定关键点的运动向量的均值小于第一阈值(thread_walk)，那么第二识别结果为“站立”；

依据532、如果第一识别结果是“站立”，并且，各预定关键点的运动向量的均值大于或等于第一阈值(thread_walk)，那么第二识别结果为“行走”；

依据533、如果第一识别结果是“弯腰”或“躺”，那么第二识别结果与第一识别结果相同；

依据534、如果第一识别结果是“站立”或“行走”，并且，各预定关键点的运动向量的均值大于或等于第二阈值(thread_run)，那么第二识别结果为“跑”；

依据535、如果第一识别结果是“躺”，并且，各预定关键点的运动向量的均值大于或等于第三阈值(thread_crawl)，那么第二识别结果为“爬行”；

依据536、如果第一识别结果是“站立”或“行走”或“弯腰”，并且，历史图像帧的第二识别结果是“坐”或“爬行”或“躺”，并且，向上运动的预定关键点的数量大于9，那么第二识别结果为“起立”；

依据537、如果第一识别结果是“躺”，并且，历史图像帧的第二识别结果是“站立”或“行走”或“弯腰”，并且，向上运动的预定关键点的数量小于或等于3，那么第二识别结果为“跌倒”；

依据538、如果第一识别结果是“站立”或“行走”或“弯腰”，并且，向上运动的预定关键点的数量等于13或等于0，并且，各预定关键点的运动向量的均值大于或等于第四阈值(thread_jump)，那么第二识别结果为“跳起”；

依据539、如果第一识别结果是“坐”或“蹲”，那么第二识别结果与第一识别结果相同。

图5所示出的第一识别结果51，第二识别结果52，各依据531～539只是举例，本申请的各实施例并不限于此。

根据该第二识别单元13，能够基于人体的动作与时间的关系对动作识别的结果进行调整，因此，能够更加准确地识别出人体的动作。

在至少一个实施例中，如图1所示，动作识别装置1还可以包括：图像帧间隔确定单元15。其中，图像帧间隔确定单元15根据图像帧取得速率(例如，摄像机拍摄图像帧的帧速率，即，每秒的帧数量FPS)，确定历史图像帧和当前图像帧之间间隔的图像帧的数量。

表1示出了一个图像帧的帧速率与历史图像帧的一个对应关系。

在表1中，在当前图像帧为第n帧的情况下：如果帧率是3～8，那么历史图像帧为第n-1帧；如果帧率是9～14，那么历史图像帧为第n-2帧；如果帧率是15～20，那么历史图像帧为第n-3帧；如果帧率是21～26，那么历史图像帧为第n-4帧；如果帧率是27～32，那么历史图像帧为第n-5帧。

由此，通过设置图像帧间隔确定单元15，在图像帧的帧速率变化的情况下，可以选择历史图像帧和当前图像帧之间间隔的图像帧的数量，从而在保持上述设定的阈值(例如，图5所涉及的第一阈值～第四阈值)不变的情况下使用该动作识别装置1，扩大了动作识别装置1的适用范围，并提高了其可扩展性。

根据本申请实施例的第一方面，动作识别装置1根据图像帧中人体上的关键点的位置以及来识别人体的动作，由于关键点的位置以及关节的角度是图像帧中的一部分信息，因而第一识别单元12无需使用深度学习网络就可以以较小的计算量进行准确的分类；并且，与仅基于关键点的位置进行动作识别的方案相比，本申请的动作识别装置1还根据人体的关节的角度进行动作识别，因而识别的准确度更高；此外，如果需要增加或改变需要识别的动作，可以通过对预定关键点和/或预定关节进行调整来实现，而无需进行大量的训练，因此，本申请的动作识别装置1的可扩展性较强，灵活度较高；此外，本申请的动作识别装置1能够基于人体的动作与时间的关系对动作识别的结果进行调整，因此，能够更加准确地识别出人体的动作。

实施例的第二方面

本申请实施例的第二方面提供一种动作识别方法，与本申请实施例的第一方面的动作识别装置对应。

图6是本申请实施例的第二方面的动作识别方法的一个示意图，如图6所示，该方法包括：

操作601、对图像帧中目标人体上的关键点的信息进行处理，从而计算所述目标人体的关键点特征，所述关键点特征包括所述目标人体上的预定关键点的位置和预定关节的角度；以及

操作602、根据所述关键点特征，识别所述目标人体的动作，输出第一识别结果。

其中，操作601例如可以根据图4的操作401和操作402来实现。

如图6所示，该方法还包括：

操作603、根据所述目标人体上的所述预定关键点的运动参量，和/或针对所述图像帧之前的历史图像帧中的所述目标人体的动作输出的第二识别结果，对所述第一识别结果进行修正，输出针对所述图像帧中的所述目标人体的动作的第二识别结果。

如图6所示，该方法还包括：

操作604、计算所述图像帧中的所述目标人体上的各所述预定关键点与所述历史图像帧中的所述目标人体上的各所述预定关键点之间的运动向量，根据各所述预定关键点的运动向量计算所述运动参量。

在操作604中，运动参量包括：各所述预定关键点的运动向量的均值、和/或各所述预定关键点的运动向量的标准偏差、和/或各所述预定关键点的运动方向、和/或沿预定方向运动的所述预定关键点的数量。

如图6所示，该方法还包括：

操作605、根据所述图像帧的取得速率，确定历史图像帧和所述图像帧之间间隔的图像帧数量。

根据本申请实施例的第二方面，动作识别方法根据图像帧中人体上的关键点的位置以及来识别人体的动作，由于关键点的位置以及关节的角度是图像帧中的一部分信息，无需使用深度学习网络就可以以较小的计算量进行准确的分类；并且，与仅基于关键点的位置进行动作识别的方案相比，本申请的动作识别方法还根据人体的关节的角度进行动作识别，因而识别的准确度更高；此外，如果需要增加或改变需要识别的动作，可以通过对预定关键点和/或预定关节进行调整来实现，而无需进行大量的训练，因此，本申请的动作识别方法的可扩展性较强，灵活度较高；此外，本申请的动作识别方法能够基于人体的动作与时间的关系对动作识别的结果进行调整，因此，能够更加准确地识别出人体的动作。

实施例的第三方面

本申请实施例的第三方面提供一种电子设备，该电子设备包括：如实施例的第一方面所述的动作识别装置。

图7是实施例的第三方面的电子设备的一个构成示意图。如图7所示，电子设备700可以包括：中央处理器(CPU)701和存储器702；存储器702耦合到中央处理器701。其中该存储器702可存储各种数据；此外还存储用于进行控制的程序，并且在中央处理器701的控制下执行该程序。

在一个实施方式中，动作识别装置1中的功能可以被集成到中央处理器701中。

其中，中央处理器701可以被配置为，执行实施例的第二方面所述的动作识别方法。

此外，如图7所示，电子设备700还可以包括：输入输出单元703和显示单元704等；其中，上述部件的功能与现有技术类似，此处不再赘述。值得注意的是，电子设备700也并不是必须要包括图7中所示的所有部件；此外，电子设备700还可以包括图7中没有示出的部件，可以参考现有技术。

本申请实施例还提供一种计算机可读程序，其中当在动作识别装置或电子设备中执行所述程序时，所述程序使得所述动作识别装置或电子设备执行实施例的第二方面所述的动作识别方法。

本申请实施例还提供一种存储有计算机可读程序的存储介质，其中，所述存储介质存储上述计算机可读程序，所述计算机可读程序使得动作识别装置或电子设备执行实施例的第二方面所述的动作识别方法。

结合本发明实施例描述的动作识别装置可直接体现为硬件、由处理器执行的软件模块或二者组合。例如，附图中所示的功能框图中的一个或多个和/或功能框图的一个或多个组合，既可以对应于计算机程序流程的各个软件模块，亦可以对应于各个硬件模块。这些软件模块，可以分别对应于实施例1所示的各个步骤。这些硬件模块例如可利用现场可编程门阵列(FPGA)将这些软件模块固化而实现。

软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域已知的任何其它形式的存储介质。可以将一种存储介质耦接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息；或者该存储介质可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该软件模块可以存储在移动终端的存储器中，也可以存储在可插入移动终端的存储卡中。例如，若电子设备采用的是较大容量的MEGA-SIM卡或者大容量的闪存装置，则该软件模块可存储在该MEGA-SIM卡或者大容量的闪存装置中。

针对附图描述的功能框图中的一个或多个和/或功能框图的一个或多个组合，可以实现为用于执行本申请所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件、或者其任意适当组合。针对附图描述的功能框图中的一个或多个和/或功能框图的一个或多个组合，还可以实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、与DSP通信结合的一个或多个微处理器或者任何其它这种配置。

以上结合具体的实施方式对本申请进行了描述，但本领域技术人员应该清楚，这些描述都是示例性的，并不是对本申请保护范围的限制。本领域技术人员可以根据本申请的原理对本申请做出各种变型和修改，这些变型和修改也在本申请的范围内。

关于包括以上实施例的实施方式，还公开下述的附记：

1.一种动作识别装置，包括：

关键点特征提取单元，其对图像帧中目标人体上的关键点的信息进行处理，从而计算所述目标人体的关键点特征，所述关键点特征包括所述目标人体上的预定关键点的位置和预定关节的角度；以及

第一识别单元，其根据所述关键点特征，识别所述目标人体的动作，输出第一识别结果。

2.如附记1所述的动作识别装置，其中，所述关键点特征提取单元对图像帧中目标人体上的关键点的信息进行处理，包括：

根据所述图像帧中所述目标人体的高度，调整所述图像帧中所述目标人体上的预定关键点的坐标值；以及

根据所述图像帧中所述目标人体上的预定关键点的调整后的坐标值，计算所述预定关节的角度。

3.如附记2所述的动作识别装置，其中，

所述图像帧中所述目标人体的高度为：所述图像帧中所述目标人体的眼睛所在的关键点的高度方向的坐标值与所述图像帧中所述目标人体的脚踝所在的关键点的高度方向的坐标值之差。

4.如附记1所述的动作识别装置，其中，所述动作识别装置还包括：

第二识别单元，其根据所述目标人体上的所述预定关键点的运动参量，和/或所述第二识别单元针对所述图像帧之前的历史图像帧中的所述目标人体的动作输出的第二识别结果，对所述第一识别结果进行修正，输出针对所述图像帧中的所述目标人体的动作的第二识别结果。

5.如附记4所述的动作识别装置，其中，所述动作识别装置还包括：

关键点运动参量计算单元，其计算所述图像帧中的所述目标人体上的各所述预定关键点与所述历史图像帧中的所述目标人体上的各所述预定关键点之间的运动向量，根据各所述预定关键点的运动向量计算所述运动参量。

6.如附记5所述的动作识别装置，其中，

所述运动参量包括：各所述预定关键点的运动向量的均值、和/或各所述预定关键点的运动向量的标准偏差、和/或各所述预定关键点的运动方向、和/或沿预定方向运动的所述预定关键点的数量。

7.如附记4所述的动作识别装置，其中，所述动作识别装置还包括：

图像帧间隔确定单元，其根据所述图像帧的取得速率，确定历史图像帧和所述图像帧之间间隔的图像帧数量。

8.一种电子设备，其具有如附记1-7中任一项所述的动作识别装置。

9.一种动作识别方法，包括：

对图像帧中目标人体上的关键点的信息进行处理，从而计算所述目标人体的关键点特征，所述关键点特征包括所述目标人体上的预定关键点的位置和预定关节的角度；以及

根据所述关键点特征，识别所述目标人体的动作，输出第一识别结果。

10.如附记9所述的动作识别方法，其中，对图像帧中目标人体上的关键点的信息进行处理，包括：

11.如附记10所述的动作识别方法，其中，

12.如附记9所述的动作识别方法，其中，所述动作识别方法还包括：

根据所述目标人体上的所述预定关键点的运动参量，和/或针对所述图像帧之前的历史图像帧中的所述目标人体的动作输出的第二识别结果，对所述第一识别结果进行修正，输出针对所述图像帧中的所述目标人体的动作的第二识别结果。

13.如附记12所述的动作识别方法，其中，所述动作识别方法还包括：

计算所述图像帧中的所述目标人体上的各所述预定关键点与所述历史图像帧中的所述目标人体上的各所述预定关键点之间的运动向量，根据各所述预定关键点的运动向量计算所述运动参量。

14.如附记13所述的动作识别方法，其中，

15.如附记12所述的动作识别方法，其中，所述动作识别方法还包括：

根据所述图像帧的取得速率，确定历史图像帧和所述图像帧之间间隔的图像帧数量。

Claims

1.一种动作识别装置，其特征在于，所述动作识别装置包括：

2.如权利要求1所述的动作识别装置，其中，所述关键点特征提取单元对图像帧中目标人体上的关键点的信息进行处理，包括：

3.如权利要求2所述的动作识别装置，其中，

4.如权利要求1所述的动作识别装置，其中，所述动作识别装置还包括：

5.如权利要求4所述的动作识别装置，其中，所述装置动作识别还包括：

6.如权利要求5所述的动作识别装置，其中，

7.如权利要求4所述的动作识别装置，其中，所述动作识别装置还包括：

8.一种电子设备，其具有如权利要求1-7中任一项所述的动作识别装置。

9.一种动作识别方法，其特征在于，所述动作识别方法包括：

10.如权利要求9所述的动作识别方法，其中，所述动作识别方法还包括：