CN113887501A

CN113887501A - 行为识别方法、装置、存储介质及电子设备

Info

Publication number: CN113887501A
Application number: CN202111229367.7A
Authority: CN
Inventors: 邓玥琳; 苏锦萍; 刘岩; 李驰; 杨颜如
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2021-10-21
Filing date: 2021-10-21
Publication date: 2022-01-04

Abstract

本公开涉及计算机技术领域，具体涉及行为识别方法、行为识别装置、存储介质及电子设备。该行为识别方法包括：获取目标对象的多项骨骼数据特征；使用分支位移卷积子网络对所述多项骨骼数据特征进行分支处理得到多项特征映射；通过融合位移卷积子网络将所述多项特征映射进行主流融合得到特征向量；利用全连接层根据所述特征向量进行识别得到所述目标对象的行为信息。本公开提供的行为识别方法能够解决现有技术中基于骨骼进行行为识别时计算量大的问题。

Description

行为识别方法、装置、存储介质及电子设备

技术领域

本公开涉及计算机技术领域，具体涉及行为识别方法、行为识别装置、存储介质及电子设备。

背景技术

在养老、大健康、金融业务需要高精度的自动化行为识别和处理场景，通常需要基于骨骼进行行为识别任务，识别的结果可以用于进行行为分析或预测，具有很高的使用价值。

目前主流的行为识别算法都是基于深度学习与神经网络的方法，按照利用的模态与方法划分，主要有：(1)基于2D卷积神经网络+循环神经网络的方法，比较有代表性的方法有：LRCN(Long-term Recurrent Convolutional Networks，长期循环卷积网络)等；(2)基于2D卷积神经网络+光流的方法，比较有代表性的方法有：TSN(Temporal SegmentNetworks，时间部分网络)等；(3)基于3D卷积神经网络的方法，比较有代表性的方法有：C3D(Convolutional 3D，三维卷积神经网络)、I3D(Inflated 3D，双流三维卷积神经网络)等；(4)基于骨骼点+神经网络的方法，比较有代表性的方法有：ST-GCN(Spatial TemporalGraph Convolutional Networks，时空卷积网络)等。

在以人等目标对象为主体和中心的行为识别中，骨骼点+神经网络的方法具备更强的鲁棒性，在实践中具备相对较好的效果。但这种模态下通常非常复杂且参数化过度，并且网络通常包含具有大量模型参数的多流结构，将会导致复杂的训练过程和较高的计算成本。因此需要提出一种更快、更强、更高效的基于骨骼的行为识别模型来完成这一任务。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种行为识别方法、行为识别装置、存储介质及电子设备，旨在解决现有技术中基于骨骼进行行为识别时计算量大的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开实施例的一方面，提供了一种行为识别方法，包括：获取目标对象的多项骨骼数据特征；使用分支位移卷积子网络对所述多项骨骼数据特征进行分支处理得到多项特征映射；通过融合位移卷积子网络将所述多项特征映射进行主流融合得到特征向量；利用全连接层根据所述特征向量进行识别得到所述目标对象的行为信息。

根据本公开的一些实施例，基于前述方案，所述获取目标对象的多项骨骼数据特征，包括：获取摄像头按照预设帧率集采集的预设时间内的图像数据；检测每一帧所述图像数据中所述目标对象的骨骼关键点以得到所述骨骼关键点序列；对所述骨骼关键点序列进行特征处理得到所述多项骨骼数据特征；其中，所述多项骨骼数据特征包括第一坐标系的骨骼关键点序列特征、第二坐标系的骨骼关键点特征、速度特征和骨架特征中的至少两项。

根据本公开的一些实施例，基于前述方案，所述使用分支位移卷积子网络对所述多项骨骼数据特征进行分支处理得到多项特征映射，包括：将各项骨骼数据特征并行输入至与所述骨骼数据特征对应的预先训练好的所述分支位移卷积子网络，得到各项骨骼数据特征分别对应的特征映射；其中，所述分支位移卷积子网络利用批归一化层、位移图卷积初始块以及至少一个位移图卷积块依次串联构建而成。

根据本公开的一些实施例，基于前述方案，所述通过融合位移卷积子网络将所述多项特征映射进行主流融合得到特征向量，包括：将所述多项特征映射统一输入至预先训练好的所述融合位移卷积子网络，得到所述特征向量；其中，所述融合位移卷积子网络利用至少一个位移图卷积块依次串联构建而成。

根据本公开的一些实施例，基于前述方案，所述位移图卷积块包括空间位移运算模块、空间逐点卷积模块、时间位移运算模块和时间逐点卷积模块。

根据本公开的一些实施例，基于前述方案，所述方法还包括对所述分支位移卷积子网络、所述融合位移卷积子网络以及所述全连接层进行模型训练，所述模型训练包括：获取骨骼数据训练集以及所述骨骼数据训练集的行为标签；根据所述骨骼数据训练集构建原始输入图，并对所述原始输入图进行边删除得到目标输入图；基于所述目标输入图利用所述分支位移卷积子网络、所述融合位移卷积子网络以及所述全连接层进行识别得到识别行为信息；将所述识别行为信息与所述行为标签进行比对，以修改所述分支位移卷积子网络、所述融合位移卷积子网络以及所述全连接层的模型参数。

根据本公开的一些实施例，基于前述方案，所述对所述原始输入图进行边删除得到目标输入图，包括：根据所述原始输入图中的位移关系构建原始邻接矩阵；基于所述原始邻接矩阵和预设的随机边保留率计算所述目标输入图对应的目标邻接矩阵；或者根据所述原始输入图中的位移关系构建注意力模板邻接矩阵；基于所述注意力模板邻接矩阵以及预设的自适应边删除参数计算所述原始输入图各边的边保留概率；根据所述边保留概率获取所述目标输入图对应的目标邻接矩阵。

根据本公开实施例的第二方面，提供了一种行为识别装置，包括：获取模块，用于获取目标对象在预设时间内的多项骨骼数据特征；分支模块，用于使用分支位移卷积子网络对所述多项骨骼数据特征进行分支处理得到多项特征映射；融合模块，用于通过融合位移卷积子网络将所述多项特征映射进行主流融合得到特征向量；识别模块，用于利用全连接层根据所述特征向量进行识别得到所述目标对象的行为信息。

根据本公开实施例的第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述实施例中的行为识别方法。

根据本公开实施例的第四方面，提供了一种电子设备，其特征在于，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中的行为识别方法。

本公开示例性实施例可以具有以下部分或全部有益效果：

在本公开的一些实施例所提供的技术方案中，将目标对象在预设时间内的多项骨骼数据特征首先利用分支位移卷积子网络进行分支处理，在利用融合位移卷积子网络将多项特征映射射进行主流融合，最后利用全连接层根据特征向量识别行为信息。一方面，使用多项骨骼数据特征进行为识别的多流结构，能够提供更丰富、更具鉴别能力的特征，提高模型的准确性；另一方面，采用早期融合的思想设计了分支位移卷积子网络和融合位移卷积子网络，设计多个输入分支，并在多个特征分支串联后应用一个主流，使融合位移卷积子网络能够过早地参与骨骼数据融合，不仅保留了丰富的输入特性，而且显著地抑制了模型的复杂性和冗余，使得训练过程更容易收敛。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示意性示出本公开示例性实施例中一种行为识别方法的流程示意图；

图2(a)示意性示出本公开示例性实施例中N＝18的骨骼关键点的示意图；

图2(b)示意性示出本公开示例性实施例中N＝25的骨骼关键点的示意图；

图3(a)示意性示出本公开示例性实施例中一种后期融合架构的示意图；

图3(b)示意性示出本公开示例性实施例中一种早期融合架构的示意图；

图4示意性示出本公开示例性实施例中一种早期融合的多输入分支体系结构的示意图；

图5示意性示出本公开示例性实施例中一种位移图卷积块结构的示意图；

图6示意性示出本公开示例性实施例中一种模型训练方法的流程示意图；

图7(a)示意性示出本公开示例性实施例中一种普通非局部位移图；

图7(b)示意性示出本公开示例性实施例中一种普通非局部位移过程示意图；

图7(c)示意性示出本公开示例性实施例中一种普通非局部位移特征图；

图8(a)示意性示出本公开示例性实施例中一种带边删除的非局部位移图；

图8(b)示意性示出本公开示例性实施例中一种带边删除的非局部位移过程示意图；

图8(c)示意性示出本公开示例性实施例中一种带边删除的非局部位移特征图；

图9(a)示意性示出本公开示例性实施例中一种0s时的骨骼关键点示意图；

图9(b)示意性示出本公开示例性实施例中一种5s时的骨骼关键点示意图；

图9(c)示意性示出本公开示例性实施例中一种10s时的骨骼关键点示意图；

图10示意性示出本公开示例性实施例中一种行为识别装置的组成示意图；

图11示意性示出本公开示例性实施例中一种计算机可读存储介质的示意图；

图12示意性示出本公开示例性实施例中一种电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

在以人等目标对象为主体和中心的行为识别中，骨骼点+神经网络的方法具备更强的鲁棒性。而在所有基于骨骼点+神经网络的方法中，骨骼点+时空图卷积网络的方法，相比骨骼点+卷积神经网络和骨骼点+循环神经网络的方法，能更好地利用骨骼的非欧式拓扑结构特征，从骨架序列中学习有区别且丰富的特征，例如SOTA(state-of-the-art)骨骼点+时空图卷积网络模型。

对于SOTA骨骼点+时空图卷积网络模型，一方面通常网络结构非常复杂且参数化过度；另一方面该网络通常包含具有大量模型参数的多流结构，这导致复杂的训练过程和较高的计算成本。

因此，为了减轻GCN卷积操作和多流后期融合导致的冗余庞大的计算量，提出了本申请的技术方案，提出了一种早期融合的多输入分支位移图卷积网络结构(MultipleInput Branches Shift Graph Convolutional Network with DropEdge，MIBSD-GCN)。

以下对本公开实施例的技术方案的实现细节进行详细阐述。

图1示意性示出本公开示例性实施例中一种行为识别方法的流程示意图。如图1所示，该行为识别方法包括步骤S1至步骤S4：

步骤S1，获取目标对象在预设时间内的多项骨骼数据特征；

步骤S2，使用分支位移卷积子网络对所述多项骨骼数据特征进行分支处理得到多项特征映射；

步骤S3，通过融合位移卷积子网络将所述多项特征映射进行主流融合得到特征向量；

步骤S4，利用全连接层根据所述特征向量进行识别得到所述目标对象的行为信息。

下面，将结合附图及实施例对本示例实施方式中的行为识别方法的各个步骤进行更详细的说明。

在步骤S1中，获取目标对象在预设时间内的多项骨骼数据特征。

在本公开的一个实施例中，本申请是基于骨骼点进行行为识别，起点就是骨骼，不涉及提取骨骼点和姿态估计。因此需要获取目标对象的骨骼数据特征，并且是一段具有时间长度的动态序列数据作为分析基础。其中，预设时间可以根据需求具体设置，例如5秒、3秒等。

为了进行骨骼融合分析，还需要多项骨骼数据特征。其中，所述多项骨骼数据特征包括第一坐标系的骨骼关键点特征、第二坐标系的骨骼关键点特征、速度特征和骨架特征中的至少两项。

需要说明的是，在预设时间内的不同时刻下，目标对象的骨骼关键点都具有相应的位置，因此第一坐标系的骨骼关键点特征、第二坐标系的骨骼关键点特征、速度特征和骨架特征都是具有不同时刻的序列数据特征。

其中，第一坐标系的骨骼关键点特征可以是笛卡尔坐标系的骨骼关键点特征(Cartesian Coordinates)，包括笛卡尔坐标系下各骨骼点在不同时刻下的绝对坐标和相对坐标信息。

第二坐标系的骨骼关键点特征可以是球坐标系的骨骼关键点特征(SphericalCoordinates)，包括球坐标系下各骨骼点在不同时刻下的绝对坐标和相对坐标信息。

速度特征(Velocity)是指相邻近时刻内骨骼运动变化的一阶差分和二阶差分信息。

骨架特征(Bone)是指各骨骼的长度和角度信息。

进一步地，在本公开的一个实施例中，步骤S1中可以首先获取骨骼关键点序列，然后将骨骼关键点序列转换成多项骨骼数据特征。所述获取目标对象的多项骨骼数据特征，包括：

步骤S11，获取摄像头按照预设帧率集采集的预设时间内的图像数据；

步骤S12，检测每一帧所述图像数据中所述目标对象的骨骼关键点以得到所述骨骼关键点序列；

步骤S13，对所述骨骼关键点序列进行特征处理得到所述多项骨骼数据特征。

步骤S11至步骤S12是利用摄像头提取骨骼关键点序列的过程。在利用摄像头采集时，可以采集预设时间内的图像数据，也可以获取到全部的图像数据从中截取一段时间的图像数据。

获取到的骨骼关键点序列可以是骨骼点的2D坐标数据，或者是3D坐标数据，这取决于目标对象所处的环境空间。

在提取的过程中，根据摄像头的功能不同，提取的过程存在细微的区别。比如，可以采用普通光学摄像头采集图像数据，然后采用经典的人体姿态估计算法来检测骨骼关键点，算法例如OpenPose、深度学习网络等。也可以利用带有特殊传感器的深度摄像头，如常用的微软Kinect摄像头，这类摄像头可以直接获取具有深度信息的图像数据，进而检测得到骨骼关键点。

具体地，以检测人体关键点为例，图2示意性示出本公开示例性实施例中一种骨骼关键点的示意图。其中，图2(a)示出的是N＝18的骨骼关键点的示意图，即共一个人体是由18个骨骼关键点组成，图2(b)示出的是N＝25的骨骼关键点的示意图，即共一个人体是由25个骨骼关键点组成，检测得到的骨骼关键点序列包括这些骨骼关键点的相关信息。

在实际操作过程中，可以采用深度摄像头按照指定的帧率FPS获取实时的图像数据，按照T帧为一个分段，在每一个分段中提取不超过p个人的骨骼序列，每一个人体包含N个骨骼关键点，用v_ti表示分段中第t帧第i个骨骼关键点，则一个人体骨骼序列在该视频分段中可以表示为V＝{v_ti|t＝1,K,T,i＝1,K,N}。其中，根据不同的骨骼关键点定义，常用的N＝18或N＝25，参考图2(a)和图2(b)所示，可以选择一种方式来实现。

在步骤S13中，为了补充和增强不同的特征表达，所以可以将骨骼关键点序列进行特征处理得到多项骨骼数据特征。举例而言，可以将获取的骨骼关键点序列转换为4个分支，8种数据格式，包括笛卡尔坐标系的骨骼关节点特征(绝对坐标和相对坐标)、球坐标系的骨骼关节点特征(绝对坐标和相对坐标)、速度特征(相邻时刻内运动变化的一阶差分和二阶差分信息)以及骨架特征(骨骼长度和角度)。

其中，将骨骼关键点序列转换为笛卡尔坐标系的骨骼关键点特征、速度特征、骨架特征在本领域中基于骨骼点的行为识别中都较为常见，其转换过程可以利用现有技术完成，在此就不做过多赘述。

需要特别说明的是，球坐标分支的数据表征是本公开区别于其他方案的特点，其具体的转换方式可以根据笛卡尔坐标系的骨骼关键点特征进行转换，现具体介绍如下。

球坐标骨骼点特征可以更清晰地从另一个坐标体系显示特定骨骼运动的变化过程，例如人体骨骼识别中的挥手，转圈，跌倒等动作，进而能更好地提高动作识别的准确性。

假设人体骨骼关键点v_ti的三维坐标为(x,y,z)。笛卡尔坐标系与相应的球面坐标系之间的转换关系如公式(1)-(3)所示：

其中，r是从原点o到关键点v_ti的距离，θ是连接原点o和关键点v_ti的连线和z轴之间的角度，表示为极角。

是连接原点o和关键点v_ti的连线在xy平面上的投影线和x轴之间的角度，表示为方位角。

根据上述的方法，就能够将笛卡尔坐标系与球面坐标系之间进行转换。在计算中，应该确保θ在范围(-π/2，π/2)内，并且

在范围(-π，π)内。

在本公开的一个实施例中，可以利用消融实验对引入球坐标骨骼点特征的技术效果进行说明。

消融实验利用NTU RGB+D 60X-View数据集，设计对比实验。该数据集包含60个种类的动作，共56880个样本，其中有40类为日常行为动作，9类为与健康相关的动作，11类为双人相互动作。这些动作由40个年龄从10岁到35岁的人完成。该数据集由微软Kinect v2传感器采集得到，并且使用了三个不同角度的摄像机，采集的数据形式包括深度信息、3D骨骼信息、RGB帧以及红外序列。

实验设计中，分别利用不同单元块Block构成的网络考虑“3-stream”和“4-stream”的模型精度。其中，“3-stream”即使用笛卡尔坐标系的骨骼关键点特征、速度特征以及骨架特征3项骨骼数据特征进行行为识别；“4-stream”即使用笛卡尔坐标系的骨骼关键点特征、球坐标系的骨骼关键点特征、速度特征以及骨架特征4项骨骼数据特征进行行为识别。

ResGCN即使用基础单元块ResGCN构建的基础位移图卷机网络模型，是现有技术中的一种位移图卷机网络模型的实现方式；Shift-GCN即本公开提出的将早期融合架构(MIB)和Shift-GCN block进行整合后的位移图卷机网络模型，是本公开提出的一种新的网络模型，此处只是比较引入球坐标骨骼点特征的技术效果，所以模型内容将在之后具体介绍。

表1使用ResGCN进行不同多输入分支的精度对比

表1示出了使用ResGCN作为网络的单元块进行行为识别时，引入球坐标骨骼点特征前后的模型精度对比。参考表1所示，3-stream输入分支时模型的计算精度为96.0％，而4-stream输入分支时，即引入球坐标骨骼点特征之后，模型精度为96.2％，相比于96.0％而言，精度提高了0.2％。

表2使用Shift-GCN进行不同多输入分支的精度对比

表2示出了使用Shift-GCN作为网络的单元块进行行为识别时，引入球坐标骨骼点特征前后的模型精度对比。参考表2所示，3-stream输入分支时模型的计算精度为95.8％，4-stream输入分支时精度为96.0％，引入球坐标骨骼点特征之后，精度也有所提升。

因此，根据表1和表2的结果可知，加入球坐标特征后，不论是以ResGCN还是Shift-GCN为单元块Block构建的神经网络模型，模型的精度都有0.2％的精度提升，验证了加入球坐标特征之后模型精度提高的有效性。

基于上述方法，采用多流结构作为动作识别的基础，提供了更丰富、更具鉴别能力的特征，从而提高了模型的准确性。尤其是引入球坐标骨骼点特征作为输入分支之一，将骨骼的笛卡尔坐标(x,y,z)转化为球坐标

得到骨骼的极坐标表述，使得空间位置和运动变化上的信息和特征得到增强与补充，能够有效地提高动作识别精度。

尽管多流结构的分数层融合带来了出色的模型精度，但同时模型尺寸和计算成本大大增加，而且多流模型中的许多参数都是冗余的，因此还需要在后续的骨骼融合分析中进一步解决减少计算量的问题。

目前，大多数多流结构进行动作识别都是采用后期融合的方式，但一般来说，后期融合的计算量大，而且要重复训练多次，因此本公开设计一种早期融合的多输入分支体系结构模型来实现，在模型的早期阶段将多个输入分支进行融合，然后用一个主流来提取整体识别特征。

图3示意性示出本公开示例性实施例中两种融合架构的示意图，其中，图3(a)示出的是一种后期融合架构的示意图，图3(b)示出的是一种早期融合架构的示意图。其中，数据1、数据2为输入神经网络的多流数据，单元格Block为网络的组成单元计算块，最终通过分类器输出数据。当然，图3仅是示例型结构，实际应用中，数据可以有更多流的结构，网络模型中单元格的组成也有所区别。

在图3(a)中，数据1和数据2分别经过了三个单元格的计算，最终融合至分类器中；在图3(b)中，数据1和数据2在进行一个单元格的计算之后便进行融合，后续单元格2和单元格3仅需要对融合后的数据进行计算即可，省略了单元格2和单元格3的计算过程。

参考图3所示，相较于后期融合架构，种早期融合架构中能够在模型的早期融合多个输入分支，在多个特征分支串联后应用一个主流，不仅保留了丰富的输入特性，而且显著地抑制了模型的复杂性和冗余，使得训练过程更容易收敛，计算量减小很多。

步骤S2至步骤S4是将多项骨骼数据特征利用预先训练好的早期融合的多输入分支体系结构模型来进行动作识别。图4示意性示出本公开示例性实施例中一种早期融合的多输入分支体系结构的示意图，参考图4所示，早期融合的多输入分支体系结构模型包括分支位移卷积子网络、融合位移卷积子网络以及全连接层三大部分。

在步骤S2中，使用分支位移卷积子网络对所述多项骨骼数据特征进行分支处理得到多项特征映射。

在本公开的一个实施例中，所述使用分支位移卷积子网络对所述多项骨骼数据特征进行分支处理得到多项特征映射，包括：将各项骨骼数据特征并行输入至与所述骨骼数据特征对应的预先训练好的所述分支位移卷积子网络，得到各项骨骼数据特征分别对应的特征映射。

具体而言，分支位移卷积子网络中有多个分支输入口，不同的骨骼数据特征有相对应的输入口。分支位移卷积子网络可以由批归一化层、位移图卷积初始块以及至少一个位移图卷积块依次串联构建而成。

参考图4所示的分支位移卷积子网络，其包括笛卡尔坐标系的骨骼关键点特征(Cartesian Coordinates)、球坐标系的骨骼关键点特征(Spherical Coordinates)、速度特征(Velocity)以及骨架特征(Bone)四项分支输入，通过有序叠加批归一化层(Batchnorm)、由位移图卷积实现的初始块(Initial Shift-GCN)以及两个位移图卷积块(Shift-GCN)构成。所以在步骤S2中，将步骤S1中获取的不同项骨骼数据特征并行地输入至对应的入口，使用串联操作来融合特征映射，通过预先训练完成的分支位移卷积子网络即可得到各项骨骼数据特征分别对应的特征映射。

需要说明的是，图4示出的网络结构仅是示例性的描述，在实际应用中，可以根据融合的需求，设计不同项骨骼数据特征进行融合分析，内容可更改，分支数量也可更改，但不得少于两个。

在分支位移卷积子网络中，批归一化层(Batchnorm)，用于对输入的每一批数据进行归一化。

位移图卷积块(Shift-GCN)的核心思想是用特征图上节点间信息交换的shift操作和1*1点卷积结合，达到和GCN卷积类似的效果，同时减轻GCN block运算量。在空间建模方面，对骨骼序列中每一帧t的节点进行全连接的空间位移操作和逐点卷积运算；在时间特征提取方面，使用了自适应参数的时间位移操作和逐点卷积学习上下文特征。

位移图卷积初始块(Initial Shift-GCN)和位移图卷积块的区别在于不适用残差的连接结构。

在本公开的一个实施例中，所述位移图卷积块包括空间位移运算模块、空间逐点卷积模块、时间位移运算模块和时间逐点卷积模块。

图5示意性示出本公开示例性实施例中一种位移图卷积块结构的示意图，参考图5所示，一个位移图卷积块(Shift-GCN)由空间位移运算模块(S-Shift)、空间逐点卷积模块(S-Pointwise)、空间位移运算模块(S-Shift)、时间位移运算模块(T-Shift)、时间逐点卷积模块(T-Pointwise)、时间位移运算模块(T-Shift)依次串联构成。其中，S-Shift、S-Pointwise、S-Shift是对空间进行位移计算，T-Shift、T-Pointwise、T-Shift是对时间进行位移计算。

举例而言，假如输入和输出通道均为256，通道缩减率r为4，时间窗口大小L为8，那么基本块则包含共256×256×8＝524288个参数，而Shift-GCN只包含256×64+64×64×8+64×256＝65536个参数，524288相较于65536几乎是基本块的8倍。

因此，时间和空间的位移操作和轻量化逐点卷的组合，使得采用具有非局部空间位移操作和自适应时间位移操作的位移图卷积块作为网络结构的单元块Block能够大大减少计算量。

在步骤S3中，通过融合位移卷积子网络将所述多项特征映射进行主流融合得到特征向量。

在本公开的一个实施例中，所述通过融合位移卷积子网络将所述多项特征映射进行主流融合得到特征向量，包括：将所述多项特征映射统一输入至预先训练好的所述融合位移卷积子网络，得到所述特征向量。

具体而言，融合位移卷积子网络为预先训练完成的神经网络，其输入只有一个入口，所以需要将多项特征映射统一输入至融合位移卷积子网络，输出一个特征向量。融合位移卷积子网络至少包括一个位移图卷积块，位移图卷积块同分支位移卷积子网络中的位移图卷积块结构相同，此处就不再过多赘述。

参考图4所示的融合位移卷积子网络，共包括有六个位移图卷积块(Shift-GCN)。所以在步骤S3中，将骨骼关键点特征(Cartesian Coordinates)、球坐标系的骨骼关键点特征(Spherical Coordinates)、速度特征(Velocity)以及骨架特征(Bone)四项骨骼数据特征分别对应的特征映射输入至六个位移图卷积块(Shift-GCN)构造的主流中，最后，将主流的输出特征映射全局平均为表示输入的多项骨骼数据特征的特征向量。

同时，引入部分注意力机制(Part-wise Attention，PartAtt)，用于强调不同骨骼在主流中整个动作序列中的重要性。注意力机制是机器学习中的一种数据处理方法，广泛应用在自然语言处理、图像识别及语音识别等各种不同类型的机器学习任务中，在此处就不做过多赘述。

在步骤S4中，利用全连接层根据所述特征向量进行识别得到所述目标对象的行为信息。

在本公开的一个实施例中，全连接层(Fully Connected Layer，FC)在整个卷积神经网络中起到“分类器”的作用，能够将特征向量映射到样本标记空间来确定最终动作类，即行为信息。

下面，同样使用消融实验来说明本公开提供的早期融合的多输入分支体系结构模型的技术效果。消融实验统一用NTU RDB+D 60X-view，设计对比实验。

其中，“3-stream”即使用笛卡尔坐标系的骨骼关键点特征、速度特征以及骨架特征3项特征进行行为识别；“4-stream”即使用笛卡尔坐标系的骨骼关键点特征、球坐标系的骨骼关键点特征、速度特征以及骨架特征4项特征进行行为识别。

ResGCN即使用基础单元块ResGCN构建的基础位移图卷机网络模型；Shift-GCN即本公开提出的将早期融合架构(MIB)和Shift-GCN block进行整合后的位移图卷机网络模型。

表3 3项输入特征下不同模型的计算量和精度对比

表3示出了使用3项输入特征下ResGCN模型和Shift-GCN模型的计算量和精度对比。参考图3所示，虽然Shift-GCN模型的精度从96.0％下降到95.8％，但计算量却从18.52G骤降到2.89G。

其中，FLOPs是指Floating-point Operations Per Second，即每秒10亿次的浮点运算数，常作为GPU性能参数。

表4 4项输入特征下不同模型的计算量和精度对比

表4示出了使用4项输入特征下ResGCN模型和Shift-GCN模型的计算量和精度对比。参考图4所示，Shift-GCN模型的精度从96.2％下降到96.0％，但计算量从20.32G骤降到2.96G。

因此，综合图3和图4示出的计算结果，将早期融合架构(MIB)和Shift-GCN block的整合后，虽然精度下降0.2点，但是计算量降低了6倍以上。

基于上述方法，在整体架构方面，为了综合考虑准确性和复杂性，本公开构建了一个早期融合的多输入分支体系结构模型(MIBSD-GCN)，在模型的早期融合多个输入分支，在多个特征分支串联后应用一个主流。该体系结构不仅保留了丰富的输入特性，而且显著地抑制了模型的复杂性和冗余，使得训练过程更容易收敛。

而在单元模块选择方面，为了平衡精度和复杂性，优化整个模型，选择具有非局部空间位移操作和自适应时间位移操作的位移图卷积块作为网络结构的单元块来代替重正则图卷积。由于位移运算和轻量级逐点卷积的巧妙结合，使得位移图卷积的计算复杂度比常规的图卷积网络减轻多倍以上。

因此，从整体架构和单元模块都进行改进，将高性能的早期融合架构(MIB)和Shift-GCN单元块进行整合，取其各自优势，即在早期融合的多分支结构中，嵌入轻量化的位移图卷积网络，从网络结构和单元模块的两个角度都极大程度的减少了冗余计算，很好地兼顾了精度和复杂度地问题，从而得到了一个在精度和计算量上都表现优异的模型。

在本公开的一个实施例中，所述方法还包括对早期融合的多输入分支体系结构模型进行模型训练得到分支位移卷积子网络、融合位移卷积子网络以及全连接层。

图6示意性示出本公开示例性实施例中一种模型训练方法的流程示意图，参考图6所示，所述模型训练方法包括：

步骤S61，获取骨骼数据训练集以及所述骨骼数据训练集的行为标签；

步骤S62，根据所述骨骼数据训练集构建原始输入图，并对所述原始输入图进行边删除得到目标输入图；

步骤S63，基于所述目标输入图利用所述分支位移卷积子网络、所述融合位移卷积子网络以及所述全连接层进行识别得到识别行为信息；

步骤S64，将所述识别行为信息与所述行为标签进行比对，以修改所述分支位移卷积子网络、所述融合位移卷积子网络以及所述全连接层的模型参数。

具体来说，其训练过程与普通的神经网络训练过程大体相同，都是利用真实的行为标签对数据训练集进行训练，通过将识别行为信息与行为标签进行比对来训练得到模型中的各项参数，最终得到训练好的模型。

与现有技术有所区别的是，在步骤S62中，并不是直接利用输入图进行行为识别，而是在训练过程中引入了边删除(DropEdge)机制。

在非局部位移图卷积中，输入图中所有节点相互连接，不同节点之间的连接强度相同。随着节点间连接数量的增加，连接关系变得更加复杂，从而导致计算结果的过度拟合和过度平滑变得更加严重。因此，通过边删除机制，实际生成原始图形的不同随机变形副本，增加了输入数据的随机性和多样性，从而更好地防止过拟合。此外，边删除在图卷积中被视为消息传递缩减器删除某些边会使节点连接更加稀疏，从而在某种程度上避免了过度平滑，

因此，本公开提出了一种位移图卷积中的边删除操作。

在非局部位移图操作时，给定空间骨骼特征图，第i通道的移动距离为i对骨骼关键点数目N取模，移出通道用于填充相应的移入通道。图7示意性示出本公开示例性实施例中一种普通非局部位移图操作示意图。其中图7(a)示出的是节点1经过非局部位移的位移图，图7(b)示出的节点1非局部位移过程示意图，图7(c)示出的非局部位移后的位移特征图。

考虑到非局部位移图操作是有向操作，因此将整个位移图视为有向图，所有边视为有向边。当计划删除从一个节点到另一个节点的边时，我们只需要停止从移出节点到移入节点的位移操作，并将移入通道保持在其在特征图上的原始值，而不是被填充为移出通道的值。

图8示意性示出本公开示例性实施例中一种带边删除的非局部位移图操作示意图。参考图8所示，从节点3到节点1和节点6到节点1的边被删除，因此在与节点3到节点1和节点6到节点1相对应的移入通道中，特征图保持原值，无需进行位移操作。图8(a)示出的是带边删除的非局部位移的位移图，图8(b)示出的是带边删除非局部位移过程示意图，其中都标示了被删除的边，即“×”符号对应的边，图8(c)示出的是带边删除的非局部位移后的位移特征图。

和普通的非局部位移图卷积一样，将位移图操作于点卷积操作串联，就构成了带边删除机制的位移图卷积模块。值得注意的是，边删除机制仅在训练期间有效，在验证和测试时，不使用边删除策略。

在本公开的一个实施例中，在步骤S62中进行边删除时，还需要确定删除边。可以有两种方式，一种是随机边删除策略，另一种是自适应注意引导的边删除策略。

具体地，对于第一种随机边删除策略，所述对所述原始输入图进行边删除得到目标输入图，包括：

步骤S6211，根据所述原始输入图中的位移关系构建原始邻接矩阵；

步骤S6212，基于所述原始邻接矩阵和预设的随机边保留率计算所述目标输入图对应的目标邻接矩阵。

进一步地，在步骤S6211中，与任何普通的图卷积一致，首先使用邻接矩阵A_shit来表示有向图中的位移关系。A_shift是一个矩阵，其元素A_shift＝{a_ij|i＝1,...,N,j＝1,...N}表示相应节点之间的位移关系。其中，v_i表示移入节点和v_j表示移出节点。如果存在从v_i到v_j的边保持连接，则表示为v_j→v_i，因此，矩阵中的元素可以表示如下：

非局部位移图中A_shift的所有元素都是1。

在步骤S6212中，当随机边删除策略起作用时，非局部位移图在每个训练模型的阶段会随机丢弃一定比例的边。形式上，随机将邻接矩阵中N×N×(1-p)的非零元素强制为零，其中是N×N为边的总数，p是随机边保留率，即边被保留的概率，是一个预设值，1-p则为随机边删除率。

由此可计算A_drop，A_drop是由原始边的随机大小子集展开的稀疏矩阵，即表示删除掉的边。采用A_shift-drop表示生成的邻接矩阵，那么其计算关系可以表示如下：

A_shift-drop＝A_shift-A_drop (5)

A_shift-drop控制是否在非局部位移图卷积的相应节点之间执行位移操作。如果A_shift-drop中的元件为1，则执行v_j→v_i正常位移操作，否则，不进行位移操作，特征图上对应v_j→v_i的位移通道保持原始值。

具体而言，相比在同一训练批次使用相同的A_shift-drop，我们更愿意通过逐层独立计算获得，表示为A^l _shift-drop。这种逐层边删除模式带来了原始数据的更多随机性和变形，并带来比批处理边删除模式更高的性能。

对于第二种自适应注意引导的边删除策略，所述对所述原始输入图进行边删除得到目标输入图，包括：

步骤S6221，根据所述原始输入图中的位移关系构建注意力模板邻接矩阵；

步骤S6222，基于所述注意力模板邻接矩阵以及预设的自适应边删除参数计算所述原始输入图各边的边保留概率；

步骤S6223，根据所述边保留率获取所述目标输入图对应的目标邻接矩阵。

具体来说，在非局部位移图卷积中，不同节点之间的连接强度是相同的，所有边被丢弃的概率也是相同的。然而在实际的动作识别中，每一条边的重要性是不同的。因此，在进行边删除时希望将对动作识别有更大贡献的边以更高的概率保留，而贡献较少的边以更高的概率丢弃。

基于这种思想，提出了一种自适应注意引导的边删除机制，使重要边缘具有更高的采样概率。概率计算方法如下所示：

P^l＝d·tanh(k·M^l _A)+(1-d) (6)

其中，P^l是边保留矩阵，M^l _A是注意力模板邻接矩阵，d是预设的自适应边删除参数(Attention-guided drop parameter)，用来控制边删除的概率区间，k是尺度参数。

P^l和M^l _A是跟A_shift一样尺寸的矩阵，P^l中的值表示边被保留的概率，M^l _A为注意力模板邻接矩阵，是一个可以学习的注意力模板，为了得到注意力区域的分布，通常隐含地假设激活的绝对值表示一个单位的重要性，所以我们遵循这一假设，并通过平均与边缘对应的通道的绝对值来生成M^l _A。

基于上述公式(6)的约束，根据计算的边保留概率进行边删除，将保留边的概率控制在[1-2*d,1]区间内，通过概率分布为P^l的伯努利分布的样本来获得最终边删除之后的结果。

下面，同样使用消融实验来说明本公开中模型中引入边删除机制的技术效果。消融实验依旧采用NTU RDB+D 60X-view，设计对比实验。

其中，Batch-wise删除策略是在每个训练批次按照概率随机扔掉一些边，Layer-wise删除策略是在每层按照概率随机扔掉一些边。

需要说明的是，随机边删除策略下，这两种方式都可以，而自适应注意引导的边删除策略下，只能按照每层进行删除，“-”则表示不使用边删除策略。

表5随机边删除策略不同随机边删除率的精度比较

参考表5所示，以随机边删除率为0作为基准，当随机边删除率增加时，不论是Batch-wise还是Layer-wise策略，其模型精度都有所上升。并且对于同样的随机边删除率，Layer-wise的精度更优于Batch-wise。

表6随机边删除策略不同随机边删除率的精度比较

表6中，以自适应边删除参数为0作为基准，当自适应边删除参数增加时，模型精度也有了上升。

因此，参考表5和表6，可以明显看出，在随机DropEdge策略中，Layer-wise优于Batch-wise，而Attention-guided的DropEdge要优于随机DropEdge策略，它们都优于未使用DropEdge策略的模型。

基于上述方法，考虑到本方案中在早期融合架构MIB中嵌入非本地的Shift-GCN单元块，连接关系变复杂，进而导致过拟合和过平滑的风险变高，所以在模型训练的过程中引入边删除机制，在一定程度上增强了数据，使GCN更稀疏，信息传递更集中，从而减轻过拟合和过平滑的风险。

尤其是自适应注意引导的边删除策略还能够利用可以学习的注意力模板，将对动作识别有更大贡献的边以更高的概率保留，而贡献较少的边以更高的概率丢弃，确保了模型的精度。

接下来，将本公开提供的技术方案与现有技术中已知的其他技术方案的模型识别效果进行对比，将结果填入表7以说明方案的优势。

表7不同网络模型的精度比较

参考图7所示，本申请提供的MIBSD-GCN相较于现有技术中的方法，在精度较高(如表7所示的96.6％)的前提下，有非常明显的计算量优势(如表7所示的2.96G)。

需要说明的是，本申请中的实验效果仅是示例性说明，并不能限制本公开。

本公开的一个实施例中，以采用办公楼宇采集的图像数据进行行为识别为例。用深度摄像头采集数据，指定的帧率FPS＝30进行数据采样，按照150帧(即5秒)为一个分段。在每一个视频分段中提取每一帧的3D骨骼点关节点坐标。

图9分别示出三个连续时刻下骨骼关键点的示意图，图9(a)为0s时的骨骼关键点示意图，图9(b)为5s时的骨骼关键点示意图，图9(c)为5s时的骨骼关键点示意图10s时的骨骼关键点示意图。

获取到骨骼关键点序列之后，将其转化为笛卡尔坐标系的骨骼关键点特征、球坐标系的骨骼关键点特征、速度特征以及骨架特征四项骨骼数据特征，利用早期融合的多输入分支体系结构模型进行识别分析，得到最终的动作信息，其动作类别为“跌倒”。

本公开提供的行为识别方法主要解决现有技术方案复杂高且准确率不足的问题，增强模型的实用性，以提升自动化行为识别的系统性能与自动化处理任务的占比。主要的贡献总结如下：

(1)设计了一种早期融合的多输入分支体系结构模型，从四个独立的时空特征序列中获取输入，包括笛卡尔坐标系中的骨骼关节点、球坐标系中的骨骼关节点、速度和骨架特征。特别是在输入分支中加入了新颖的球坐标系中的骨骼关节点，并证明了该方法的有效性。

(2)将由位移图运算和轻量级逐点卷积组成的位移图卷积块嵌入到早期融合的多输入分支网络中，以降低单位图卷积模块的计算量。

(3)提出了位移图卷积中的边删除操作规则和自适应注意力引导的边删除策略来防止过拟合和过平滑。

该方法可以依附智能视频分析平台服务系统，应用于诸多业务场景，包括但不限于养老社区监护、智能楼宇监控、智能视觉交互等需要高精度的自动化行为识别和处理场景。例如在养老/大健康监护系统中，可及时准确预测养老社区中存在的风险行为，如：跌倒、老人被虐等，以便老人能及时得到医疗救护，减少老人发生危险和事故的概率；在智能人机交互系统中，可以识别人体交互行为，无接触式执行特定指令，使人机交互更加智能化；在保险双录质检系统中，可以识别特定质检规定行为，实现自动审核，提升业务效率，减少人工成本。

图10示意性示出本公开示例性实施例中一种行为识别装置的组成示意图，如图10所示，该行为识别装置1000可以包括获取模块1001、分支模块1002、融合模块1003以及识别模块1004。其中：

获取模块1001，用于获取目标对象在预设时间内的多项骨骼数据特征；

分支模块1002，用于使用分支位移卷积子网络对所述多项骨骼数据特征进行分支处理得到多项特征映射；

融合模块1003，用于通过融合位移卷积子网络将所述多项特征映射进行主流融合得到特征向量；

识别模块1004，用于利用全连接层根据所述特征向量进行识别得到所述目标对象的行为信息。

根据本公开的示例性实施例，所述获取模块1001用于获取摄像头按照预设帧率集采集的预设时间内的图像数据；检测每一帧所述图像数据中所述目标对象的骨骼关键点以得到所述骨骼关键点序列；对所述骨骼关键点序列进行特征处理得到所述多项骨骼数据特征；其中，所述多项骨骼数据特征包括第一坐标系的骨骼关键点序列特征、第二坐标系的骨骼关键点特征、速度特征和骨架特征中的至少两项。

根据本公开的示例性实施例，所述分支模块1002用于将各项骨骼数据特征并行输入至与所述骨骼数据特征对应的预先训练好的所述分支位移卷积子网络，得到各项骨骼数据特征分别对应的特征映射；其中，所述分支位移卷积子网络利用批归一化层、位移图卷积初始块以及至少一个位移图卷积块依次串联构建而成。

根据本公开的示例性实施例，所述融合模块1003用于将所述多项特征映射统一输入至预先训练好的所述融合位移卷积子网络，得到所述特征向量；其中，所述融合位移卷积子网络利用至少一个位移图卷积块依次串联构建而成。

根据本公开的示例性实施例，所述位移图卷积块包括空间位移运算模块、空间逐点卷积模块、时间位移运算模块和时间逐点卷积模块。

根据本公开的示例性实施例，所述行为识别装置1000还可以包括训练模块，所述训练模块用于获取骨骼数据训练集以及所述骨骼数据训练集的行为标签；根据所述骨骼数据训练集构建原始输入图，并对所述原始输入图进行边删除得到目标输入图；基于所述目标输入图利用所述分支位移卷积子网络、所述融合位移卷积子网络以及所述全连接层进行识别得到识别行为信息；将所述识别行为信息与所述行为标签进行比对，以修改所述分支位移卷积子网络、所述融合位移卷积子网络以及所述全连接层的模型参数。

根据本公开的示例性实施例，所述训练模块还包括边删除单元，所述边删除单元用于根据所述原始输入图中的位移关系构建原始邻接矩阵；基于所述原始邻接矩阵和预设的随机边保留率计算所述目标输入图对应的目标邻接矩阵；或者根据所述原始输入图中的位移关系构建注意力模板邻接矩阵；基于所述注意力模板邻接矩阵以及预设的自适应边删除参数计算所述原始输入图各边的边保留概率；根据所述边保留概率获取所述目标输入图对应的目标邻接矩阵。

上述的行为识别装置1000中各模块的具体细节已经在对应的行为识别方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的存储介质。图11示意性示出本公开示例性实施例中一种计算机可读存储介质的示意图，如图11所示，描述了根据本公开的实施方式的用于实现上述方法的程序产品1100，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如手机上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。图12示意性示出本公开示例性实施例中一种电子设备的计算机系统的结构示意图。

需要说明的是，图12示出的电子设备的计算机系统1200仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图12所示，计算机系统1200包括中央处理单元(Central Processing Unit，CPU)1201，其可以根据存储在只读存储器(Read-Only Memory，ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(Random Access Memory，RAM)1203中的程序而执行各种适当的动作和处理。在RAM 1203中，还存储有系统操作所需的各种程序和数据。CPU1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(Input/Output，I/O)接口1205也连接至总线1204。

以下部件连接至I/O接口1205：包括键盘、鼠标等的输入部分1206；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1207；包括硬盘等的存储部分1208；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1210上，以便于从其上读出的计算机程序根据需要被安装入存储部分1208。

特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1209从网络上被下载和安装，和/或从可拆卸介质1211被安装。在该计算机程序被中央处理单元(CPU)1201执行时，执行本公开的系统中限定的各种功能。

需要说明的是，本公开实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本公开还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种行为识别方法，其特征在于，包括：

获取目标对象的多项骨骼数据特征；

使用分支位移卷积子网络对所述多项骨骼数据特征进行分支处理得到多项特征映射；

通过融合位移卷积子网络将所述多项特征映射进行主流融合得到特征向量；

利用全连接层根据所述特征向量进行识别得到所述目标对象的行为信息。

2.根据权利要求1所述的行为识别方法，其特征在于，所述获取目标对象的多项骨骼数据特征，包括：

获取摄像头按照预设帧率集采集的预设时间内的图像数据；

检测每一帧所述图像数据中所述目标对象的骨骼关键点以得到所述骨骼关键点序列；

对所述骨骼关键点序列进行特征处理得到所述多项骨骼数据特征；其中，所述多项骨骼数据特征包括第一坐标系的骨骼关键点序列特征、第二坐标系的骨骼关键点特征、速度特征和骨架特征中的至少两项。

3.根据权利要求1所述的行为识别方法，其特征在于，所述使用分支位移卷积子网络对所述多项骨骼数据特征进行分支处理得到多项特征映射，包括：

将各项骨骼数据特征并行输入至与所述骨骼数据特征对应的预先训练好的所述分支位移卷积子网络，得到各项骨骼数据特征分别对应的特征映射；其中，所述分支位移卷积子网络利用批归一化层、位移图卷积初始块以及至少一个位移图卷积块依次串联构建而成。

4.根据权利要求1所述的行为识别方法，其特征在于，所述通过融合位移卷积子网络将所述多项特征映射进行主流融合得到特征向量，包括：

将所述多项特征映射统一输入至预先训练好的所述融合位移卷积子网络，得到所述特征向量；其中，所述融合位移卷积子网络利用至少一个位移图卷积块依次串联构建而成。

5.根据权利要求3或4任一项所述的行为识别方法，其特征在于，所述位移图卷积块包括空间位移运算模块、空间逐点卷积模块、时间位移运算模块和时间逐点卷积模块。

6.根据权利要求1所述的行为识别方法，其特征在于，所述方法还包括对所述分支位移卷积子网络、所述融合位移卷积子网络以及所述全连接层进行模型训练，所述模型训练包括：

获取骨骼数据训练集以及所述骨骼数据训练集的行为标签；

根据所述骨骼数据训练集构建原始输入图，并对所述原始输入图进行边删除得到目标输入图；

基于所述目标输入图利用所述分支位移卷积子网络、所述融合位移卷积子网络以及所述全连接层进行识别得到识别行为信息；

将所述识别行为信息与所述行为标签进行比对，以修改所述分支位移卷积子网络、所述融合位移卷积子网络以及所述全连接层的模型参数。

7.根据权利要求6所述的行为识别方法，其特征在于，所述对所述原始输入图进行边删除得到目标输入图，包括：

根据所述原始输入图中的位移关系构建原始邻接矩阵；

基于所述原始邻接矩阵和预设的随机边保留率计算所述目标输入图对应的目标邻接矩阵；或者

根据所述原始输入图中的位移关系构建注意力模板邻接矩阵；

基于所述注意力模板邻接矩阵以及预设的自适应边删除参数计算所述原始输入图各边的边保留概率；

根据所述边保留概率获取所述目标输入图对应的目标邻接矩阵。

8.一种行为识别装置，其特征在于，包括：

获取模块，用于获取目标对象在预设时间内的多项骨骼数据特征；

分支模块，用于使用分支位移卷积子网络对所述多项骨骼数据特征进行分支处理得到多项特征映射；

融合模块，用于通过融合位移卷积子网络将所述多项特征映射进行主流融合得到特征向量；

识别模块，用于利用全连接层根据所述特征向量进行识别得到所述目标对象的行为信息。

9.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如权利要求1至7任一项所述的行为识别方法。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至7任一项所述的行为识别方法。