CN115427982A

CN115427982A - 用于使用卷积神经网络标识数字视频中的人体行为的方法、系统和介质

Info

Publication number: CN115427982A
Application number: CN202080098798.1A
Authority: CN
Inventors: 华武·邓; 穆罕默德·哈马德·穆萨扎德; 瓦利德·穆罕默德·阿利·艾哈迈德
Original assignee: Huawei Cloud Computing Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2020-04-06
Filing date: 2020-10-19
Publication date: 2022-12-02
Also published as: US20210312321A1; WO2021203667A1; US11625646B2

Abstract

一种用于根据数字视频的帧序列对人体行为进行分类的方法、处理系统和处理器可读介质。2D卷积神经网络用于标识在每个帧内可见的人体上的关键点，例如人体关节。为每个视频帧创建所述关键点的编码表示。对应于所述帧序列的所述编码表示序列由3D CNN处理，所述3D CNN被训练为根据随时间变化的关键点位置标识人体行为。

Description

用于使用卷积神经网络标识数字视频中的人体行为的方法、系统和介质

相关申请的交叉引用

本申请要求于2020年4月6日提交的、发明名称为“使用卷积神经网络标识数字视频中的人体行为的方法、系统和介质(METHOD,SYSTEM,AND MEDIUM FOR IDENTIFYINGHUMAN BEHAVIOR IN A DIGITIAL VIDEO USING CONVOLUTIONAL NEURAL NETWORKS)”的美国专利申请序列号16/841,227的优先权，其内容通过引用的方式并入本文中。

技术领域

本发明涉及数字视频中的人体跟踪，具体涉及用于标识数字视频中人体行为的方法、系统和处理器可读介质。

背景技术

识别人体行为是计算机视觉研究中的一个长期的问题。虽然机器学习在计算机视觉领域取得了进步，包括在数字图像或数字视频中标识人体以及在数字视频的多帧上跟踪人体的移动的一系列方法，但在数字视频中标识或识别特定类型的人体行为仍然存在困难。

在计算机视觉中，机器学习已被应用于人体行为标识问题，但成功率低。目前的机器学习方法在从数字视频中识别和标识人体行为方面表现出远低于人类水平的准确性。例如，Facebook开发的一种系统根据数字视频中显示的人体行为标识被禁止的视频内容形式，该系统在2019年年初上了新闻头条，原因是它未能在上传到平台的视频中检测到新西兰大规模枪手的暴力行为(参见https://www.nbcnews.com/tech/tech-news/facebook- says-its-artificial-intelligence-systems-failed-detect-new-zealand-n985731)。

文献中有各种机器学习方法，用于使用机器学习标识数字视频中的人体行为。这些机器学习方法中的一些方法使用卷积神经网络，这些卷积神经网络非常适合高效地处理二维和三维数字图像。这些机器学习方法中的一些方法使用递归神经网络，这些递归神经网络非常适合处理随着时间的推移而变化的数据，但通常是计算密集型的。图1A至图1D示出了几种这样的机器学习方法：

图1A示出了用于标识和分类数字视频中的人体行为的第一机器学习方法10。第一机器学习方法使用二维卷积神经网络(two-dimensional convolutional neuralnetwork，2D CNN)14来对数字视频的二维帧12序列执行空间处理并生成空间信息。与2DCNN 14并行，第一机器学习方法10使用光流模块16来处理数字视频的二维帧序列12，以从二维帧序列12导出光流数据。由光流模块16输出的光流数据16和由2D CNN 14输出的空间信息被组合，以建立在二维帧序列12中检测到的人的表观运动模式。将由光流模块16输出的光流数据和由2DCNN 14输出的空间信息组合，产生代表在二维帧序列12中检测到的人的表观运动模式的背景和人体信息18。背景和人体信息18被提供给人体行为分类器19，以标识与在二维帧12序列中检测到的人体行为相对应的一个类别(或分类)。

在图1B中，第二机器学习方法20还使用二维卷积神经网络(two-dimensionalconvolutional neural network，2D CNN)24来处理数字视频的二维帧序列12，以生成空间信息。与2D CNN24执行的处理并行，递归神经网络(recurrent neural network，RNN)26用于处理数字视频的二维帧序列12，以从数字视频中的二维帧序列12导出时间数据。由RNN26输出的时间数据和由2D CNN 24输出的空间数据被组合，产生指示在二维帧序列中检测到的人体和在二维帧序列12中人体随时间的移动的人体时间和空间信息28。人体时间和空间信息28被提供给人体行为分类器29，人体行为分类器29根据人体时间和空间信息28标识在二维帧序列12中检测到的人体行为。

在图1C中，第三机器学习方法30还使用具有多个层的三维卷积神经网络(three-dimensional convolutional neural network，3D CNN)34来处理数字视频的二维帧时间序列12，神经网络的第三维度是时间。3D CNN 34生成背景信息和人体时间和空间信息38，指示在二维帧时间序列12中检测和跟踪的人体的背景和移动。背景信息和人体时间和空间信息38被提供给人体行为分类器39，以根据背景信息和人体时间和空间信息标识在二维帧12的时间序列中检测和跟踪的人体行为。

在图1D中，第四机器学习方法40使用二维卷积神经网络(two-dimensionalconvolutional neural network，2D CNN)44来处理二维帧序列12的单个二维帧，以标识帧序列12中所示的人体上的关键点。一旦2D CNN在每个帧中标识出关键点，每个帧的关键点就被提供给基于规则的逻辑块48，基于规则的逻辑块48用于根据从2D CNN 44接收的关键点标识人体的姿态。包括三维卷积神经网络(three-dimensional convolutional neuralnetwork，3D CNN)的人体行为分类器49从基于规则的逻辑块49接收检测到的姿态，并根据由基于规则的逻辑48检测到的姿态序列在帧序列12中标识人体行为。

公开相关方法的具体参考文献包括授予微软技术许可有限责任公司的US7330566B2，发明名称为“基于视频的步态识别(Video-based gait recognition)”，该参考文献公开了用于标识人体行为的基于规则的逻辑(不使用关键点)；授予索尼公司的US8792722B2，发明名称为“手势检测(Hand gesture detection)”，将基于支持-向量-机器的机器学习应用于标识人体手势；授予台湾科技大学的US8928816B2，发明名称为“活动识别方法(Activity recognition method)”，使用类似于上述第四种方法40的基于规则的逻辑来标识姿态，然后使用基于支持-向量-机器的机器学习标识特定行为；授予卡内基梅隆大学/Arris企业有限责任公司的US9278255B2，发明名称为“活动识别的系统和方法(System and method for activity recognition)”，使用类似于上述第三种方法30和第四种方法40的方法，但不使用关键点。

以上所描述的机器学习方法中的每一种在标识在数字视频的帧序列12中检测到的人的行为的准确性和/或在处理数字视频的帧序列12以标识人的行为方面的计算效率方面存在不足。图1A至图1D中所示的机器学习方法的准确性和/或计算效率的不足限制了这些方法在需要实时执行的应用程序中的应用中的使用。这些应用的示例包括在机场、火车站和建筑工地等可能存在高风险的地方进行实时视频监控，以实现人类安全，或监测医院患者的健康状况。

发明内容

本发明提供了一种用于标识数字视频的帧序列中的人体行为的方法、处理系统和处理器可读介质。在一些实施例中，该方法、处理系统和处理器可读介质使用二维卷积神经网络，该二维卷积神经网络接收数字视频的帧序列，并标识数字视频的帧序列的每个帧内的关键点。处理系统和处理器可读介质对每个帧的所标识的关键点进行编码。包括第三时间维度的第二卷积神经网络用于处理与帧的时间序列相对应的数据结构，以标识数字视频的帧序列中的人体行为。

示例性实施例涉及用于标识数字视频的帧序列中的人体行为的方法。该方法包括接收帧序列中的帧的至少一个关键点位置集，至少一个关键点位置集包括在帧中检测到的人体的每个关键点的关键点位置，每个关键点位置对应于关键点在人体上的位置。该方法还包括为帧的至少一个关键点位置集中的每个关键点位置生成编码表示，将帧的至少一个关键点位置集中的每个关键点位置的编码表示提供给人体行为分类器，人体行为分类器包括机器学习模型，机器学习模型用于根据每个关键点位置集的编码表示来标识人体行为，并输出所标识的人体行为。

其它示例性实施例涉及用于标识数字视频的帧序列中的人体行为的处理系统。该处理系统包括处理器和存储器。存储器中存储了可执行指令。可执行指令在由处理器执行时使设备执行以上所描述的方法。

在一些这样的实施例中，与用于标识数字视频的帧序列中的人体行为的已知技术相比，该方法或处理系统可以具有多种优点。在应用第二计算高效模型对行为进行分类之前，使用两个机器学习模型可以支持行为分类问题以计算高效的方式分解为人体移动的简化表示。更具体地，关键点标识步骤可以从每个视频帧中提取空间数据，然后，行为分类步骤可以用于根据由帧空间数据的编码表示的(时间)序列表示的空间-时间数据预测行为。

此外，通过使用机器学习模型基于关键点位置集的编码表示来标识行为，与基于关键点数据对行为进行分类的基于规则的系统相比，该方法和处理系统可以表现出更大的灵活性和更少的编程逻辑。

根据可以与本文所公开的其它方面结合的另一方面，该方法还包括：接收多个关键点位置集，每个关键点位置集对应于帧序列中的一个帧；为多个关键点位置集中的每个关键点位置集生成编码表示；将编码表示提供给人体行为分类器，人体行为分类器包括机器学习模型，机器学习模型用于根据多个编码表示标识人体行为，并输出所标识的人体行为。

根据可以与本文所公开的其它方面结合的另一方面，该方法还包括：接收帧序列；处理帧序列中的每个相应帧，以生成对应于相应帧的关键点位置集。

根据可以与本文所公开的其它方面结合的另一方面，关键点位置集是使用关键点标识符生成的。所标识的关键点用于：接收人体的边界框，边界框包括相应帧的多个像素的一个或多个像素值；处理边界框以标识边界框内的关键点，并为每个关键点生成关键点位置；生成关键点位置集，关键点位置集包括在帧中标识的每个关键点的关键点位置。使用包括CNN的关键点标识符来标识单个帧中的关键点可能会使计算效率高于其它方法，例如使用RNN或使用3D CNN处理帧的时间序列。

根据可以与本文所公开的其它实施例结合的另一个方面，编码表示是矩阵表示，机器学习模型是矩阵机器学习模型。

根据可以与本文所公开的其它实施例结合的另一方面，每个关键点位置对应于人体的关节。将人体的关节标识为帧中的关键点，通过跟踪关节的位置和移动，可以高效和准确地标识人体行为。

根据可以与本文所公开的其它方面结合的另一方面，每个编码表示包括X矩阵和Y矩阵。X矩阵具有关键点位置集中的多个关键点位置的多个X像素坐标，第一X像素坐标和第二X像素坐标基于分别对应于第一X像素坐标和第二X像素坐标的人体的第一关节与人体的第二关节之间的接近关系或移动关系相对于彼此位于矩阵内。Y矩阵具有关键点位置集中的多个关键点位置的多个Y像素坐标，第一Y像素坐标和第二Y像素坐标基于分别对应于第一Y像素坐标和第二Y像素坐标的人体的第一关节与人体的第二关节之间的接近关系或移动关系相对于彼此位于矩阵内。通过使用矩阵，其中，每个关键点像素坐标位于与人体上具有邻近或相关关系的其它关键点最接近的每个矩阵内，倾向于定义特定行为的两个关节相对于彼此的特定移动的重要性可以通过机器学习模型更有效地标识和计算。

根据可以与本文所公开的其它实施例结合的另一方面，每个编码表示还包括Z矩阵，Z矩阵具有关键点位置集中的多个关键点位置的多个Z深度坐标，第一Z深度坐标和第二Z值基于分别对应于第一Z值和第二Z值的人体的第一关节与人体的第二关节之间的接近关系或移动关系相对于彼此位于矩阵内。通过使用第三深度维度，每个帧中关键点位置的矩阵编码可以为机器学习模型提供增加的空间分辨率信息。

根据可以与本文所公开的其它方面结合的另一方面，编码表示是着色点表示，机器学习模型是着色点机器学习模型。

根据可以与本文所公开的其它方面结合的另一方面，每个编码表示包括简化帧，该简化帧包括基于关键点位置集位于简化帧内的多个唯一关键点视觉表示。通过将关键点坐标编码在简化视觉表示中，着色点机器学习模型能够标识人体行为，而不需要执行身体跟踪的困难任务。

根据可以与本文所公开的其它方面结合的另一方面，每个唯一关键点视觉表示包括二维形状，二维形状具有相对于每个其它唯一关键点视觉表示的唯一颜色；简化视频帧包括叠加在单色背景上的多个关键点视觉表示。简化帧包括叠加在单色背景上的多个关键点视觉表示。通过使用唯一着色的形状来表示帧中的每个关键点，着色点机器学习模型专注于提取移动的时间模式以标识行为。

根据可以与本文所公开的其它方面结合的另一方面，该方法包括：为帧的至少一个关键点位置集中的每个关键点位置生成第二编码表示；将帧的至少一个关键点位置集中的每个关键点位置的第二编码表示提供给人体行为分类器的着色点机器学习模型。着色点机器学习模型用于根据至少一个关键点位置集的第二编码表示来标识人体的第二行为，并输出所标识的第二人体行为；组合器用于通过将由矩阵机器学习模型输出的所标识的人体行为与由着色点机器学习模型输出的所标识的第二人体行为组合，生成人体的最终行为。

根据可以与本文中公开的其它实施例结合的另一方面，提供了一种非瞬时性处理器可读介质。非瞬时性处理器可读介质包括处理器能够执行以执行上文描述的方法步骤的指令。

附图说明

现在结合附图通过示例的方式描述本发明的实施例，其中，相同的附图标记可以用于表示相同的特征。

图1A是用于标识数字视频帧中的人体行为的第一已知系统的框图。

图1B是用于标识数字视频的帧序列中的人体行为的第二已知系统的框图。

图1C是用于标识数字视频的帧序列中的人体行为的第三已知系统的框图。

图1D是用于标识数字视频的帧序列中的人体行为的已知方法的流程图。

图1E是示出根据本文所描述的示例性实施例的用于标识数字视频的帧序列中的人体行为的方法的框图。

图2A是根据本文所描述的第一示例性实施例的用于使用关键点坐标集的矩阵表示和着色点表示来标识数字视频的帧序列中的人体行为的系统的框图。

图2B是根据本文所描述的第二示例性实施例的用于仅使用关键点坐标集的矩阵表示来标识数字视频的帧序列中的人体行为的系统的框图。

图2C是根据本文所描述的第三示例性实施例的用于仅使用关键点坐标集的着色点表示来标识数字视频的帧序列中的人体行为的系统的框图。

图3是根据本文所描述的示例性实施例的用于执行用于标识数字视频的帧序列中的人体行为的第一、第二和第三方法的示例性处理系统的框图。

图4A是通过本文所描述的示例性实施例的示出叠加在帧中人体图像上的关键点的数字视频的帧序列中的帧的示例。

图4B是通过本文所描述的示例性实施例的在图4A所示的示例性帧中标识的多个关键点坐标的视觉表示。

图5A是根据本文所描述的示例性实施例的关键点坐标集作为X和Y坐标矩阵的第一矩阵表示。

图5B是根据本文所描述的示例性实施例的关键点坐标集作为X、Y和Z坐标矩阵的第二矩阵表示。

图5C是根据本文所描述的示例性实施例的关键点坐标集作为X和Y坐标矩阵的第三示例性表示，空白矩阵位置填充有关键点关系数据。

图6A是在背景上显示人体图像的数字视频帧的第二示例。

图6B是通过本文所描述的示例性实施例的在图6A所示的第二示例性帧中标识的多个关键点坐标集的示例性着色点表示。

图7是根据本文所描述的示例性实施例的用于标识数字视频中的人体行为的示例性方法的详细流程图。

具体实施方式

本发明是参考附图进行的，附图中示出了实施例。但是，可以使用许多不同的实施例，因此描述不应解释为局限于本文中阐述的实施例。相反，提供这些实施例是为了使得本发明彻底和完整。在可能的情况下，在附图和以下描述中使用相同的附图标记来指代相同的元件，并且在替代实施例中使用素数表示法来指示相同的元件、操作或步骤。所示系统和设备的功能元件的单独框或所示分离不一定需要这些功能的物理分离，因为这些元件之间的通信可以在没有任何这种物理分离的情况下通过消息传递、函数调用、共享内存空间等方式发生。因此，尽管为了便于解释，本文单独说明了这些功能，但是这些功能不需要在物理或逻辑上分离的平台中实现。不同的设备可以具有不同的设计，使得尽管一些设备在固定功能硬件中实现一些功能，但其它设备可以在可编程处理器中实现这些功能，该处理器具有从机器可读介质获得的代码。最后，以单数提及的元件可以是复数，反之亦然，除非上下文明确或固有地指示。

现在关于用于标识数字视频的帧序列中的人体行为的方法、系统和非瞬时性介质来描述示例性实施例。本文所描述的方法、系统和非瞬时性介质接收数字视频的帧序列，并处理帧序列，以检测和跟踪帧序列中的人，并生成人体位置和移动的一个或多个编码。本文所描述的方法、系统和非瞬时性介质对人体位置和移动的一个或多个编码执行三维卷积，以便高效地标识在帧序列中检测和跟踪的每个人的行为。人体位置和移动的编码可以表示在白色背景或轨迹矩阵上以颜色表示的叠加关键点。

在一些实施例中，人体位置和移动的编码依赖于人体的关键点(下文称为关键点)。人体位置和移动的多个编码中的一个编码可以提供给3D卷积深度神经网络，3D卷积深度神经网络对人体位置和移动的一个或多个编码执行三维卷积，以便高效地标识在帧序列中检测和跟踪的每个人的行为。3D CNN捕获人体位置和移动的编码中的时空特征，这些特征提供的信息足以标识在帧序列中检测和跟踪的人体行为(例如，从人体行为集的分类或类别中标识人体行为的分类或类别)。本文将两种不同的人体位置和移动的编码描述为两种不同的编码表示，它们可以存储在数据结构中。两个不同的编码表示中的任何一个，或两个不同的编码表示中的两个，都可以用作3D CNN的输入。3CNN可用于为两个不同的编码表示中的一个或两个生成人体行为的推理标识。所标识的人体行为可以被组合以改进对在帧序列中检测和跟踪的人体行为的标识。

本文将关键点数据的第一编码表示称为矩阵表示。矩阵表示可以包括对应于二维或三维的两个或三个二维矩阵，其中，关键点在帧序列中的每个帧中被跟踪。

本文将第二编码表示称为着色点表示。从帧序列的帧中提取的每个关键点的位置(例如x-y或x-y-z像素坐标集)被表示为空白背景上与帧中的关键点的位置对应的位置上的唯一着色点(或其它2D形状)。

参考图1E，示出了用于标识数字视频的帧序列201中的人体行为的方法50的简化框图。方法50从框54开始，在框54中，处理帧序列201的每个帧以标识帧中人体的关键点。在一些实施例中，每个帧(例如数字图像)是二维(two-dimensional，2D)帧，其包括2D帧中每个像素的对应的红绿蓝(red,green,and blue，RGB)值。每个帧包括帧中每个像素的对应红绿蓝(red,green,and blue，RGB)值和帧中每个像素的深度(Z)值。具有深度搜索能力的摄像机可以捕获帧，并为帧中的每个像素生成深度(Z)值。或者，可以对帧序列的每个帧进行预处理，以提取对应于在帧中检测到的人的每个像素的深度值。

在一些实施例中，在框54处使用二维(two-dimensional，2D)卷积神经网络(convolutional neural networ，CNN)处理每个帧，该卷积神经网络已经被训练成标识帧(例如数字图像)中的关键点，如下文进一步详细描述。训练后的2D CNN执行特征提取，以标识在帧序列201的每个相应帧中检测到的人体的关键点集。训练后的2D CNN可以是训练后的身体跟踪或姿态估计CNN。Alexander Toshev和Christian Szegedy在“深度姿态：通过深度神经网络进行人体姿态估计(DeepPose:Human Pose Estimation via Deep NeuralNetworks)”(arXiv:1312.4659，https://arxiv.org/abs/1312.4659)中描述了训练后的姿态估计CNN的一个示例，该文档通过引用的方式并入本文中。在Zhe Cao、Gines Hidalgo、Tomas Simon、Shih-En Wei和Yaser Sheikh的“OpenPose：使用关节亲和场的实时多人2D姿态估计(OpenPose:Realtime Multi-Person 2DPose Estimation using Part AffinityFields)”(arXiv:1812.08008，https://arxiv.org/abs/1812.08008)中描述了训练后的姿态估计CNN的另一示例，该文档也通过引用的方式并入本文中。

每个关键点对应于相应帧中像素的位置。在一些实施例中，每个帧是具有映射到2D X-Y坐标系的像素色值的2D数字图像，其中，X是在图像的左边缘从0开始并向右边缘增加的水平像素位置，Y是在图像的顶部边缘从0开始并向下边缘增加的垂直像素位置。每个关键点包括帧中已被标识为关键点的帧中像素的位置的水平坐标(X)和垂直坐标(Y)。

使用具有深度维度的帧的实施例使用3D X-Y-Z坐标系，其中，Z是深度像素位置，该深度像素位置在用于捕获帧的摄像机的位置从0开始，并从摄像机延伸到场景中。在使用深度维度的一些实施例中，像素被表示为色值和深度(Z)值的2D X-Y阵列，为每个X-Y坐标产生单个像素。

在每个相应帧包括帧中每个像素的深度(Z)值的实施例中，关键点包括已被标识为帧中关键点的帧中像素的水平坐标(X)、垂直坐标(Y)和深度值(Z)。在一些实施例中，关键点对应于帧中检测和跟踪的人上的各种关节或其它位置的帧中的位置。

在框54处理帧以标识每个帧中的关键点之后，在框56处将帧中标识的每个关键点的位置(称为“关键点位置”)编码为编码表示。下面详细描述示例性编码表示58。一些编码表示106可以通过构建空间中关键点(X、Y和可能的Z)的轨迹来生成。其它编码表示106可以通过消除冗余信息(例如背景图像)，并在简化视觉表示中相互叠加关键点(例如单色背景上的着色形状)来生成。在一些实施例中，方法50可以使用多个不同类型的编码表示58，对不同类型的编码表示58执行人体行为分类，并比较或组合不同类型的人体行为分类的输出，以生成更鲁棒的人体行为分类。

通过框56生成的编码表示58是对应于帧序列101的多个编码表示，例如对应于帧的时间序列的多个编码表示。多个编码表示58对关于在帧序列101中检测和跟踪的人体的空间信息(帧中的关键点位置)和时间信息进行编码。在框60处理多个编码表示58，以根据编码表示标识在帧序列101中检测到的人体的人体行为。在一些实施例中，使用三维卷积神经网络(three-dimensional convolutional neural network，3D CNN)处理编码表示58，其中，两个维度对应于给定帧内的关键点位置，第三个维度对应于帧的时间序列101中给定帧的时间索引。处理多个编码表示58以标识在帧序列101中检测到的人体的人体行为，如下文详细描述的。训练后的3D-CNN以前已经用大量的训练数据训练过。

在本文所描述的实施例中，2D CNN和3D CNN是训练后的神经网络的示例，它们分别用于标识帧序列101中的关键点，并基于多个编码表示58标识人体的人体行为。如以上所描述，在一些应用中，使用CNN而不是递归神经网络或基于规则的逻辑可能具有一些优势。

在一些其它实施例中，2D CNN可以被模块取代，该模块包括使用机器学习算法(例如监督学习算法、无监督学习算法或强化学习算法)构造或构建的模型，以标识帧序列101中的关键点。在一些其它实施例中，3D CNN可以被另一模块取代，该模块包括使用机器学习算法(例如监督学习、无监督学习或强化学习)学习的模型，该模型基于编码表示58在帧序列中标识被检测和跟踪的人体行为。

参考图2A至图2C，示出了执行方法50的系统200的三个不同实施例。图2A示出了用于标识帧序列201中的人体行为的混合系统200，混合系统200使用两种不同类型的编码表示来标识帧序列201中的两个人体行为，并组合所标识的人体行为以生成最终人体行为。图2B示出了用于标识帧序列101中的人体行为的矩阵系统250，矩阵系统250使用矩阵编码表示来标识帧序列101中的人体行为。图2C示出了使用着色点编码表示来标识帧序列101中的人体行为的着色点系统260。

参考图2A，示出了用于标识帧序列201中的人体行为的混合系统200。混合系统200包括身体检测器202、身体跟踪器204、关键点标识符206、身体部位检测器208、身体编码器210和人体行为分类器211。人体行为分类器211实现使用机器学习算法学习的矩阵模型(下文称为矩阵机器学习模型216)，并实现使用机器学习算法学习的着色点模型(下文称为着色点机器学习模型219)，如下文进一步详细描述的。

在图2A中，数字视频的帧序列101的每个相应帧被提供给身体检测器202。帧序列101中的每个相应帧对应于不同的时间点。在一些实施例中，帧序列101的每个相应帧被表示为二维像素阵列。二维像素阵列中的每个像素都具有水平(X)和垂直(Y)像素坐标。每个像素具有一个或多个亮度或色值，例如对应于红绿蓝(red,green,and blue，RGB)色值的三个色值。在一些实施例中，每个像素还具有深度(Z)值，如上文参考图1E所述。

身体检测器202用于接收帧序列中的每个相应帧，并对相应帧执行对象检测，以确定在相应帧中是否存在人体或人体的一部分。

当身体检测器202检测到相应帧内的人体时，身体检测器202标识人体在相应帧内的位置的一般位置，并在检测到的人体周围生成边界框。由身体检测器202输出的示例性边界框是图4A中所示的边界框516。身体跟踪器204接收为在相应帧中检测到的人体生成的边界框，将唯一标识符(identifier，ID)分配给边界框204，并将生成的边界框与分配的唯一ID一起输出。唯一ID是唯一地标识在相应帧中检测到的人体的标识符。在一些实施例中，身体检测器202可以检测相应帧中的多个人体，并为在相应帧中检测到的每个人体生成边界框。在这些实施例中，身体跟踪器204接收由身体检测器202生成的每个边界框，为每个边界框分配唯一ID，并将每个相应边界框与分配给相应边界框的唯一ID一起输出。

关键点标识符206接收在相应帧中检测到的人体的边界框。关键点标识符206处理边界框(例如，处理位于边界框内的相应帧的像素)以标识在相应帧中检测到的人体的每个关键点，为边界框内标识的每个关键点生成位置，并分配唯一标识符以标识每个关键点。每个关键点的位置(下文称为关键点位置)包括所标识的关键点的坐标，包括X像素坐标、Y像素坐标，在一些实施例中还包括Z坐标。关键点标识符206还生成和输出相应帧的关键点位置集207。用于相应帧的关键点位置集207包括在相应帧中检测到的人体的边界框中标识的每个相应关键点的关键点位置和分配给每个关键点的唯一标识符。

在本文所描述的实施例中，每个关键点对应于人体上的关节或其它位置，如下面关于图4A至图6B详细描述的。图4A示出了由关键点标识符206输出的相应帧的关键点位置集207的示例，图4A示出了具有关键点位置520、522、524的相应帧，这些关键点包括在相应帧的关键点位置集中。图4A中所示的帧还包括在帧中标识并包括在关键点位置集中的其它关键点的关键点位置。

如以上所描述，关键点位置集207包括在为帧中检测到的人体生成的边界框内标识的每个关键点的关键点位置。每个关键点位置包括水平和垂直像素坐标(X，Y)，或在具有深度(Z)维度的实施例中，包括水平、垂直和深度坐标(X，Y，Z)。分配给每个关键点的唯一标识符在下文中称为关键点标识符。关键点标识符可以是对应于特定关键点的索引号。下面参考图4B详细讨论作为索引号的关键点标识符。每个关键点的关键点位置和关键点标识符可以称为“关键点数据”。

相应帧的关键点位置集207被提供给身体编码器210和身体部分检测器208。身体部位检测器208接收边界框以及由身体跟踪器204输出的分配给边界框的唯一ID，并且关键点位置集输出关键点标识符206。身体部分检测器208使用分配给关键点位置集207中包括的每个关键点的关键点标识符来检测从身体跟踪器204接收的边界框中人体的身体部分的位置(例如位于边界框内的帧的像素)。由身体部分检测器208标识的身体部分的示例包括图4B中所示的左上臂580，左上臂580由从对应于左肩的索引号5和对应于左肘的索引号6延伸的段限定。关键点标识符(例如索引号5和6)支持身体部分检测器208推断指示身体关节相对于彼此的位置的信息，这支持标识由这些关节定义或划定的身体部分的位置。

在一些实施例中，身体部分检测器208向身体跟踪器204提供指示身体部分(例如身体关节)相对于彼此的位置的信息。身体跟踪器204、关键点标识符206和身体部分检测器208形成反馈回路，该反馈回路提供指示身体关节相对于彼此的位置的信息，该信息由身体部分检测器208输出到身体跟踪器204，以用于处理帧序列201中的后续帧。在人体的身体部分的位置已经由身体部分检测器208在第一帧中检测到之后，指示身体部分(例如身体关节)相对于彼此的位置的信息可用于修改由身体跟踪器204在帧序列201的第二帧中生成的人体的边界框。例如，如果身体跟踪器204在处理第二帧时生成对第二帧中边界框的位置的模糊或不确定的推断，则指示第一帧中身体部分(例如身体关节)相对于彼此的位置的信息可用于消除为在帧中检测到的人体生成的边界框的位置的模糊或不确定的推断的歧义。

身体编码器210生成为每个相应帧生成的关键点位置集207的编码表示。本文描述了两种不同类型的编码表示。第一类型是对应于帧序列201的帧的关键点位置集的矩阵表示212，如下面参考图5A至图5C进一步描述的。第二类型是对应于帧序列201的相应帧的关键点位置集的着色点表示214，如下面参考图6A和图6B进一步描述的。每个不同的编码表示类型(例如，矩阵表示212或颜色表示214)在本文可以被称为关键点位置集的“编码表示”或“简化编码表示”。

一旦已经为帧序列201的第一帧生成了编码表示(例如矩阵表示212或着色点表示214)，则可以将编码表示排队，直到帧序列201的所有后续帧都被处理，以为每个后续帧生成编码表示。或者，为帧序列201中的第一帧生成的编码表示可以立即提供给人体行为分类器211进行处理。在一些实施例中，帧作为数字视频的帧序列201的一部分被连续接收，并且高速缓存或队列用于存储预定数量的编码表示，以用作人体行为分类器211的输入。矩阵表示212被提供给人体行为分类器211，并由矩阵机器学习模型216处理。着色点表示214还被提供给人体行为分类器，并由着色点机器学习模型217处理。下面详细描述由矩阵机器学习模型216对矩阵表示212和由着色点机器学习模型217对着色点表示214的处理。一般来说，矩阵机器学习模型216使用关于关键点位置如何随时间移动的学习信息，以及各种关键点之间的学习关系(例如，对于步行行为与坐着行为，左肘关键点与左髋部关键点之间的距离不同)。一般来说，着色点机器学习模型217使用各种不同类型的行为(例如步行、跑步、摔倒、坐着、骑自行车)之间的学习关系，以及在每个帧的简化视觉表示之间着色点随时间的移动。

矩阵机器学习模型216根据矩阵表示212生成矩阵行为标识数据218。着色点机器学习模型217根据着色点表示214生成着色点行为标识数据219。如下面参考图7详细讨论的，矩阵行为标识数据218和着色点行为标识数据219中的每一个可以包括对在帧序列202中检测到的人体参与人体行为集的每种类型的人体行为的可能性的预测集。每种类型的人体行为都是不同类型的人体行为，预测集包括与人体行为集中给定类型的人体行为相关的概率值。每种类型的人体行为都被称为人体行为的一个类别或分类。矩阵机器学习模型216预测人体行为集中每种类型的人体行为的概率值，并输出包括人体行为集中每种类型的人体行为的预测概率值的预测集。类似地，着色点阵机器学习模型217预测人体行为集中每种类型的人体行为的概率值，并输出包括人体行为集中每种类型的人体行为的预测概率值的预测集。

在该混合系统200-1中，组合器220接收矩阵行为标识数据218和着色点行为标识数据219，并通过组合矩阵行为标识数据218和着色点行为标识数据219来生成最终行为标识数据222。矩阵行为标识数据218可以包括与着色点行为标识数据219不同的预测集。矩阵机器学习模型216在预测一些类型的人体行为方面可以比着色点机器学习模型217更准确或更不准确。因此，组合器220可以使用本领域已知的任何合适的数学或逻辑组合方法组合矩阵行为标识数据218和着色点行为标识数据219。合适的数学或逻辑组合方法的示例包括不同地对由矩阵机器学习模型216和着色点机器学习模型217中的每一个生成的预测集中的不同概率值进行加权，将预测集中的每一个的概率值相加，将预测集中的每一个的概率值相乘，等等。通过组合由矩阵机器学习模型216和着色点行为标识机器学习模型217中的每一个生成的矩阵行为标识数据218和着色点行为标识数据219，混合系统200可以利用每个不同的编码表示类型的优点，同时补偿每个不同的编码表示类型的弱点。然后，人体行为分类器211处理最终行为标识数据222以生成指示人体行为的标签，并输出标签。

图2B和图2C示出了图2A的混合系统200的简化版本。在图2B中，矩阵系统250完全依赖于矩阵表示212和矩阵机器学习模型216来生成指示在帧序列201中检测到的人体的预测人体行为的矩阵行为标识数据218。在图2C中，着色点系统260完全依赖于着色点表示214和着色点机器学习模型217来生成着色点行为标识数据219。

在一些实施例中，如上所述，在框54处标识关键点由关键点标识卷积神经网络(例如2D CNN)执行。同样如以上所述，在框60处标识人体行为可由3D CNN执行。因此，在一些实施例中，关键点标识符206可以包括类似于以上所描述的关键点标识卷积神经网络的2DCNN。此外，在一些实施例中，3D CNN可用于学习矩阵机器学习模型216中的每一个，着色点机器学习模型217可使用3D CNN实现，每个3D CNN配置有不同的学习参数。

在一些实施例中，身体检测器202、身体跟踪器204和身体部位检测器208可以包括具有2D卷积层的单独CNN。在其它实施例中，身体检测器202和身体部位检测器208使用2DCNN(例如FasterRCNN-with Resnet50或适于对象检测的另一预先存在的CNN结构)实现。在这些实施例中，身体跟踪器204可以完全依赖于关键点位置集207，或身体跟踪器204可以使用其自己的单独2D CNN读取帧内生成的边界框的特征图，并使用该特征图的标识符来标识人体并在帧序列201的帧之间保持跟踪作为同一人体的该人体。这可以为包括多个人体的帧提供更可靠的身体跟踪和关键点检测。然而，应理解，身体检测器202和身体跟踪器204中的每一个可以使用其它已知技术来实现以执行每个功能。此外，在一些实施例中，身体检测器202、身体跟踪器204和身体部位检测器208中的一个或多个可以被省略，其可以使用关键点标识符206直接从帧中提取关键点位置集207。

三个系统200、250、260中的任何一个可以实施为如图3所示的处理系统300。处理系统300包括用于执行计算机程序指令的处理器302和用于存储可执行指令和数据的存储器304。

处理器302可以被实施为能够执行计算机程序指令的任何处理资源，例如计算机或一个或多个计算平台上的一个或多个处理器。存储器304可以被实施为任何数据存储资源，例如一个或多个计算平台上的一个或多个磁盘驱动器、随机存取存储器或易失性或非易失性存储器。

存储器304存储有若干类型可执行指令形式的计算机程序。其中具有用于执行本文所描述的方法的系统200、250、260的可执行指令集310。其中还存储了训练神经网络或其它机器学习模型的一个或多个指令集，以标识帧中的关键点和/或基于编码表示标识人体行为，本文示出为关键点标识卷积神经网络指令322和行为分类卷积神经网络指令324。

存储器304中可以存储有若干类型的数据380。数据380可以包括代表帧序列201的每个帧(例如数字图像)的视频数据301。在一些实施例中，视频数据301可以通过通信系统(未示出)从外部源接收，可能部分地存储在存储器304中的缓冲器或高速缓存中。存储器304中还可以存储代表关键点位置集207和关键点位置集207的编码表示的一种或多种类型的关键点位置数据。在所示实施例中，矩阵表示212和着色点表示214都被示为存储在存储器304中，与图2A的混合系统200一致。矩阵表示212和着色点表示214可以在用作矩阵机器学习模型216和着色点机器学习模型217的输入之前临时存储在存储器304中的高速缓存或队列中。

如以上所描述，关键点标识符206可以包括CNN，例如2D CNN，下文称为关键点标识卷积神经网络或关键点标识CNN。在被系统200使用之前，关键点标识CNN使用监督学习训练，训练数据集包括标记帧。在使用神经网络进行姿态估计的监督学习中使用的示例性训练数据集和损失函数在上面引用的参考文献中进行了描述。

同样如以上所描述，包括矩阵机器学习模型216或着色点机器学习模型217的人体行为分类器211可以实现为CNN，例如3D CNN，下文称为行为分类卷积神经网络或行为分类CNN。在被行为分类系统(例如系统200)使用之前，行为分类CNN使用监督学习训练，数据集包括标记的数据样本，其中，每个数据样本包括具有人体的帧和人体的编码表示(例如矩阵表示212或着色点表示214)。一些实施例可以使用训练数据集(例如用于人体动作识别的ICVL(https://labicvl.github.io/Datasets_Code.html))，该训练数据集在用作行为分类CNN的训练数据之前由身体编码器210预编码。在一些实施例中，用于训练行为分类CNN的损失函数可以是分类交叉熵损失。

在本文所描述的实施例中，在帧中检测到的人体的关键点中的每个关键点被分配以索引号(例如#1至#17)的形式的唯一标识符。

图4A示出了示例性帧510，示例性帧510包括为在帧510中检测到的人体512生成的边界框516和覆盖在帧中人体图像上的为人体标识的关键点。帧510在背景514上示出人体512。由关键点标识符206在帧510中标识的关键点示为点，例如右髋部关键点524、左肘关键点522和左腕关键点520。在图4A所示的帧510中，边界框516被示为覆盖在帧510上的矩形框，该矩形框包括人体512的躯干，即肩膀关键点、胸骨关键点和髋部关键点。

帧510还包括覆盖在人体512上的标签。标签是由人体行为分类器211输出的所标识的人体行为的标签，并包括词语“走近”514。标签与人体行为相关联，该人体行为是由混合系统200在帧510中检测到的人体512所表现出的不同类型的人体行为集中最可能的人体行为。所标识的人体行为与人体512似乎正在走向摄像机的事实一致。然而，指示所标识的人体行为“走近”514的标签可以由人体行为分类器211生成包括时间段的帧序列。人体行为分类器211可以使用为帧序列201(由预定数量的连续帧组成)中的每个帧生成的编码表示，以标识在包括预定数量的帧的时间段内的人体行为。因此，所标识的人体行为“走近”514指示“走近”人体行为在包括帧序列(包括帧510)的时间段内从人体行为集中被标识为人体512的最可能的人体行为。

图4B示出了具有对应于人体上的位置的所标识的关键点的示例性关键点骨架550。如以上所描述，骨架550上的每个关键点被分配以索引号(#1至#17)形式的唯一标识符。大多数关键点(例如分配索引号#0至#13的关键点)对应于骨架550的关节，而一些关键点(分配索引号#0和#14到#17的关键点)对应于头部上的固定位置，例如眼睛、鼻子和耳朵。例如，索引号#8对应于右髋部，并在图4A中示为右髋部关键点524，在图4B中示为右髋部关键点574。索引号#7对应于左腕，并在图4A中示为左腕关键点520，在图4B中示为左腕关键点570。图4B中的左腕关键点570用索引号“7”标记。索引号#6对应于左肘，并在图4A中示为左肘关键点522，在图4B中示为左肘关键点572。左肘关键点572标记为索引号“6”。各种身体部分可以在骨架550上被标识为在两个相邻关节之间延伸的段，例如在左肩(对应于索引号#7的左腕关键点570)与对应于索引号#6的左肘关键点572之间的左下臂580。

下表列出了图4B中所示的关键点及其相应的索引号：

关键点位置包括关键点相对于帧的坐标系的(X，Y)或(X，Y，Z)像素坐标。因此，假设帧510的左下角具有像素坐标(0，0)，则对应于索引号#8的关键点574(在图4A中示为右髋部关键点524)可以具有像素坐标(100，80)，对应于索引号#6的关键点572的关键点位置(如图4中的左肘关键点522所示)可以具有像素坐标(190，170)。由于身体512的膝盖和脚踝在帧510内不可见，所以膝盖关键点(对应于索引号#9和#12)和脚踝关键点(对应于索引号#10和#13)不由关键点标识符206标识，并且不示为覆盖在帧510内的点。

现在参考图5A至图5C和图6B描述由身体编码器210生成的示例性编码表示。矩阵表示212在图5A至图5C中示出，而着色点表示214在图6B中示出。

图5A示出了关键点位置集207的矩阵表示212。矩阵表示212由一对二维矩阵组成：X矩阵610和Y矩阵620。X矩阵610对帧的关键点坐标集207中包括的每个关键点位置的水平(X)像素坐标进行编码，该帧是在由关键点标识符206为人体生成的边界框内标识的。Y矩阵620对帧的关键点坐标集207中包括的每个关键点位置的水平(X)像素坐标进行编码，该帧是由关键点标识符206为人体生成的边界框内标识的。基于两个对应的身体位置之间的空间关系(例如接近关系或移动关系)，每个关键点位置的像素坐标位于其相应的矩阵610、620中相对于关键点坐标集207中包括的其它关键点的像素坐标的位置。例如，对应于索引#5(左肩)的关键点612的X像素坐标位于对应于索引#6(左肘)的关键点614的X像素坐标附近和上方。这两个像素坐标的相对位置是根据左肩与左肘的接近程度以及人体上两个关节彼此之间的接近移动关系确定的。身体的左肘在帧序列中的移动通常与身体的左肩在帧序列中的移动具有接近关系，因此，在X矩阵610中将关键点612、614的两个像素坐标定位在一起有助于矩阵机器学习模型216使用的矩阵计算。相同的逻辑适用于Y像素坐标(例如对应于索引号#5(左肩)的关键点622的Y像素坐标和对应于索引号#6(左肘)的关键点624的Y像素坐标)的Y矩阵620内的相对位置。

在包括关键点的深度(Z)坐标的实施例中，帧的矩阵表示212还可以包括Z矩阵630。如以上所描述，包括在每个关键点位置中的Z坐标可以由关键点标识CNN生成。Z坐标(例如对应于索引号#5(左肩)的关键点632的Z坐标和对应于索引号#6(左肘)的关键点634的Z坐标)的Z矩阵630内的相对位置遵循与X矩阵610和Y矩阵620相同的逻辑。

矩阵机器学习模型216面临的一个潜在挑战是X矩阵610、Y矩阵620和Z矩阵630中大量未填充的矩阵位置所需的稀疏矩阵操作。在一些实施例中，这一挑战可以通过用从关键点的关键点位置的像素坐标生成的附加像素坐标填充空矩阵位置，并表示两个关键点之间的空间关系来解决。图6C示出了由完全填充的X矩阵640和完全填充的Y矩阵650组成的矩阵表示212。每个完全填充的矩阵640、650分别在与X矩阵610和Y矩阵620相同的矩阵位置中具有相同的X或Y像素坐标。然而，每个完全填充的矩阵640、650也用从附近矩阵位置的一对像素坐标生成的像素坐标填充来自图5A的矩阵的空白空间。例如，从左数第二个再向下数三个的完全填充的X矩阵640位置被填充有由变量名“X_Left_Shoulder-X_Left_Elb”616指示的像素坐标，指示从左肩关键点X像素坐标“X_Left_Shoulder”612和左肘关键点X像素坐标“X_Left_Elb”614生成的像素坐标。在一些实施例中，所生成的像素坐标可以计算为生成像素坐标的两个像素坐标之间的差：例如，“X_Left_Shoulder-X_Left_Elb”616的像素坐标等于“X_Left_Shoulder”612减去“X_Left_Elb“614。类似地，在完全填充的Y矩阵650中，“Y_Left_Shoulder-Y_Left_Elb”626的像素坐标等于“Y_Left_Shoulder”622减去“Y_Left_Elb”624。类似的逻辑可用于填充完全填充的Z矩阵(未示出)。

因此，所生成的像素坐标，例如“X_Left_Shoulder-X_Left_Elb”616，可以表示(X，Y)或(X，Y，Z)坐标中的每一个中的两个关键点之间的距离。这些距离值在识别行为方面可能非常突出：例如，坐着时从左肩到左膝的距离比站着或走路时要短得多。通过用对行为识别高度显著的所生成的像素坐标填充矩阵，并将这些所生成的像素坐标定位在矩阵中的相关关键点附近，矩阵机器学习模型216可以被帮助生成预测集。

参考图6A，示出了在背景713上显示人体712的图像的数字视频的帧710的第二示例。在图6A中，可以看到人体712站在背景713上。参考图6B，示出了为图6A中所示的帧710生成的示例性着色点表示214。着色点表示214是简化帧(例如，数字图像)，包括用于由身体跟踪器204生成的边界框内标识的每个关键点的多个唯一视觉表示。在图6B中，着色点表示214由单色(例如空白或白色)背景716组成，在单色背景716上叠加有着色二维形状714，这里示出为圆点，在对应于来自帧710的每个关键点位置的(X，Y)位置。每个圆点对应于一个关键点，例如左肩圆点718和左肘圆点720分别对应于包括在帧710的关键点位置集207中的图6A的人体712的左肩的位置和左肘的位置。每个着色点相对于其它着色点具有唯一的颜色，由唯一的RGB值、其它颜色空间值或亮度值表示。

如以上所描述，身体编码器210通过消除帧710中包括背景信息716和关于身体712的其它非关键点视觉信息的所有冗余视觉信息来生成着色点表示214。因此，着色点表示214作为简化帧(例如，数字图像)，其移除了包括背景信息716和关于帧710中的身体712的其它非关键点视觉信息的所有冗余视觉信息。着色点表示214可以在低分辨率下被下采样和处理，而不会丢失显著信息，这减少了在处理着色点表示214以标识人体行为时由人体行为分类器211执行的计算。

图7示出了用于标识帧序列中的人体行为的方法900的流程图。在步骤902，方法900开始接收帧序列中的第一帧。帧序列中的每个帧都是数字图像。在步骤904中，处理第一帧以标识帧中的多个关键点坐标集。在一些实施例中，多个关键点位置集在帧中由以上所描述的关键点标识符206标识。在步骤906中，从关键点位置集207生成编码表示。在一些实施例中，根据如以上所描述的关键点位置集中包括的多个关键点位置，从每个关键点位置集生成编码表示。在一些实施例中，编码表示是矩阵表示212。在一些实施例中，编码表示是着色点表示214。

重复步骤902至906，直到帧序列201的最后一帧被处理。如以上所描述，在一些实施例中，当时间步骤902至906被重复时，编码表示被排队。

在步骤908中，人体行为分类器用于根据对应于多个帧的多个编码表示来标识人体行为，并输出指示所标识的人体行为的标签。在矩阵系统250的情况下，行为分类器包括矩阵机器学习模型216。在着色点系统260的情况下，人体行为分类器包括着色点机器学习模型217。

应理解，在一些实施例中，在给定用于标识关键点的神经网络和用于标识对象行为的神经网络的适当训练的情况下，本文所描述的方法和系统可以应用于标识人类以外的对象的行为。在另一个示例性实施例中，动物行为可以通过以下方式来标识：通过使用包括具有标记关键点的动物体的标签训练数据帧来训练关键点标识符，并且通过使用具有标识动物的各种行为的标签的标记姿态或关键点数据(由身体编码器210预编码)来训练人体行为分类器；在该实施例中，关键点可以对应于动物体关节，与以上所描述的人体示例一样。在其它实施例中，关键点可以映射到帧中所示的任何系统的移动部件：例如，车辆或车辆的部分。

本文所描述的流程图和附图中的步骤和/或操作仅用于示例目的。在不脱离本发明的教导的情况下，这些步骤和/或操作可以有许多变化。例如，可以按不同的顺序执行步骤，或可以添加、删除或修改步骤。

考虑到本发明，用于执行描述的上述方法的软件编码在本领域普通技术人员的范围内。可由一个或多个相应设备的一个或多个处理器执行以执行上述方法的机器可读代码可以存储在如数据管理器的存储器等机器可读介质中。术语“软件”和“固件”在本发明中是可互换的，并包括存储在存储器中供处理器执行的任何计算机程序，存储器包括随机存取存储器(random access memory，RAM)存储器、只读存储器(read only memory，ROM)存储器、EPROM存储器、电EPROM(EEPROM)存储器和非易失性RAM(non-volatile RAM，NVRAM)存储器。上述存储器类型仅仅是示例，因此并不限制可用于存储计算机程序的存储器类型。

综述

此外，还公开了所公开范围内的所有值和子范围。此外，虽然本文所公开和示出的系统、设备和过程可以包括特定数量的元件，但是可以修改这些系统、设备和组件以包括更多或更少此类元件。虽然本文描述了几个示例性实施例，但可以进行修改、适配和采取其它实现方式。例如，可以对附图中所示的元件进行替换、添加或修改，并且可以通过替换、重新排序或添加所公开的方法的步骤来修改本文所描述的示例性方法。此外，阐述了许多具体细节，以便于透彻理解本文所描述的示例性实施例。但是，本领域的普通技术人员应理解，可以在没有这些具体细节的情况下实践本文所描述的示例性实施例。此外，为了不模糊本文所描述的示例性实施例，没有详细描述公知的方法、过程和元件。本文所描述的主题旨在涵盖和包含所有合适的技术变化。

尽管描述了本发明，但至少部分地，就方法而言，本领域普通技术人员应理解，本发明还涉及各种元件，用于通过硬件、软件或其组合执行所描述方法的至少一些方面和特征。因此，本发明的技术方案可以通过非易失性或非瞬时性机器可读介质(例如，光盘、闪存等)体现，该介质中存储有有形地存储的可执行指令，使处理设备能够执行本文所公开的方法的示例。

术语“处理器”可以包括任何可编程系统，包括使用微处理器/控制器或纳米处理器/控制器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field-programmable gate array，FPGA)简化指令集电路(reduced instruction set circuit，RISC)、逻辑电路，以及能够执行本文所描述的功能的任何其它电路或处理器。术语“数据库”可以指数据体、关系数据库管理系统(relational database management system，RDBMS)或两者。本文所使用的数据库可以包括任何数据集，包括层次数据库、关系数据库、平面文件数据库、对象关系数据库、面向对象的数据库和存储在计算机系统中的任何其它结构化记录或数据集。上述示例仅是示例，因此并不旨在以任何方式限制术语“处理器”或“数据库”的定义和/或含义。

本发明可以在不脱离权利要求书的主题的情况下以其它特定形式体现。所描述的示例性实施例在所有方面均被视为仅是说明性的而非限制性的。本发明旨在涵盖和包含技术中的所有适当变化。因此，本发明的范围由所附权利要求书而不是由上述说明书进行描述。权利要求的范围不应受到示例中阐述的实施例的限制，而应给予与整个描述一致的最广泛的解释。

Claims

1.一种方法，其特征在于，所述方法包括：

接收帧序列中的帧的至少一个关键点位置集，所述至少一个关键点位置集包括在所述帧中检测到的人体的每个关键点的关键点位置，每个关键点位置对应于所述关键点在所述人体上的位置；

为所述帧的所述至少一个关键点位置集中的每个关键点位置生成编码表示；

将所述帧的所述至少一个关键点位置集中的每个关键点位置的所述编码表示提供给人体行为分类器，所述人体行为分类器包括机器学习模型，所述机器学习模型用于根据每个关键点位置集的所述编码表示来标识人体行为，并输出所标识的人体行为。

2.根据权利要求1所述的方法，其特征在于，还包括：

接收多个关键点位置集，每个关键点位置集对应于所述帧序列中的一个帧；

为所述多个关键点位置集中的每个关键点位置集生成编码表示；

将所述编码表示提供给所述人体行为分类器，所述人体行为分类器包括所述机器学习模型，所述机器学习模型用于根据所述多个编码表示标识人体行为，并输出所标识的人体行为。

3.根据权利要求2所述的方法，其特征在于，还包括：

接收所述帧序列；

处理所述帧序列中的每个相应帧，以生成对应于所述相应帧的所述关键点位置集。

4.根据权利要求3所述的方法，其特征在于，所述关键点位置集是使用关键点标识符生成的，所述关键点标识符用于：接收所述人体的边界框，所述边界框包括所述相应帧的多个像素的一个或多个像素值；处理所述边界框以标识所述边界框内的关键点，并为每个关键点生成关键点位置；生成关键点位置集，所述关键点位置集包括在所述帧中标识的每个关键点的所述关键点位置。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述编码表示是矩阵表示，所述机器学习模型是矩阵机器学习模型。

6.根据权利要求1至5中任一项所述的方法，其特征在于，每个关键点位置对应于所述人体的关节。

7.根据权利要求6所述的方法，其特征在于，每个编码表示包括：

X矩阵，具有所述关键点位置集中的所述多个关键点位置的多个X像素坐标，第一X像素坐标和第二X像素坐标基于分别对应于所述第一X像素坐标和所述第二X像素坐标的所述人体的第一关节与所述人体的第二关节之间的接近关系或移动关系相对于彼此位于所述矩阵内；

Y矩阵，具有所述关键点位置集中的所述多个关键点位置的多个Y像素坐标，第一Y像素坐标和第二Y像素坐标基于分别对应于所述第一Y像素坐标和所述第二Y像素坐标的所述人体的第一关节与所述人体的第二关节之间的接近关系或移动关系相对于彼此位于所述矩阵内。

8.根据权利要求7所述的方法，其特征在于，每个编码表示还包括：

Z矩阵，具有所述关键点位置集中的所述多个关键点位置的多个Z深度坐标，第一Z深度坐标和第二Z坐标基于分别对应于所述第一Z坐标和所述第二Z坐标的所述人体的第一关节与所述人体的第二关节之间的接近关系或移动关系相对于彼此位于所述矩阵内。

9.根据权利要求1至8中任一项所述的方法，其特征在于，所述编码表示是着色点表示，所述机器学习模型是着色点机器学习模型。

10.根据权利要求9所述的方法，其特征在于，每个编码表示包括简化帧，所述简化帧包括基于所述关键点位置集位于所述简化帧内的多个唯一关键点视觉表示。

11.根据权利要求10所述的方法，其特征在于：

每个唯一关键点视觉表示包括二维形状，所述二维形状具有相对于每个其它唯一关键点视觉表示的唯一颜色；

所述简化帧包括叠加在单色背景上的所述多个关键点视觉表示。

12.根据权利要求6所述的方法，其特征在于，还包括：

为所述帧的所述至少一个关键点位置集中的每个关键点位置生成第二编码表示；

将所述帧的所述至少一个关键点位置集中的每个关键点位置的所述第二编码表示提供给所述人体行为分类器的着色点机器学习模型，所述着色点机器学习模型用于基于至少一个关键点位置集的所述第二编码表示来标识所述人体的第二行为，并输出所标识的第二人体行为；

通过将由所述矩阵机器学习模型输出的所标识的人体行为与由所述着色点机器学习模型输出的所标识的第二人体行为组合，生成所述人体的最终行为。

13.一种处理系统，其特征在于，包括：

处理器；

存储器，其中存储有可执行指令，所述可执行指令在由所述处理器执行时使所述设备：

14.根据权利要求13所述的处理系统，其特征在于，所述可执行指令在由所述处理器执行时还使所述设备：

15.根据权利要求14所述的处理系统，其特征在于，所述可执行指令在由所述处理器执行时还使所述设备：

接收所述帧序列；

为所述帧序列中的每个帧生成对应于所述帧的所述关键点位置集。

16.根据权利要求13至15中任一项所述的处理系统，其特征在于，所述编码表示是矩阵表示，所述机器学习模型是矩阵机器学习模型，每个关键点位置对应于所述人体的关节。

17.根据权利要求13至16中任一项所述的处理系统，其特征在于，所述编码表示是矩阵表示，所述机器学习模型是矩阵机器学习模型。

18.根据权利要求13至17中任一项所述的处理系统，其特征在于，每个关键点位置对应于所述人体的关节。

19.根据权利要求18所述的处理系统，其特征在于，每个编码表示包括：

20.根据权利要求19所述的处理系统，其特征在于，所述编码表示是着色点表示，所述机器学习模型是着色点机器学习模型。

21.根据权利要求20所述的处理系统，其特征在于，每个编码表示包括简化视频帧，所述简化视频帧包括基于所述关键点位置集位于所述简化视频帧内的多个唯一关键点视觉表示。

22.根据权利要求21所述的处理系统，其特征在于：

23.根据权利要求18所述的处理系统，其特征在于，所述可执行指令在由所述处理器执行时还使所述设备：

24.一种计算机可读介质，其特征在于，包括指令，所述指令在由处理系统的处理器执行时使所述处理系统执行根据权利要求1至12中任一项所述的方法。

25.一种计算机程序，其特征在于，包括指令，所述指令在由处理系统的处理器执行时使所述处理系统执行根据权利要求1至12中任一项所述的方法。