CN112464807A

CN112464807A - 视频动作识别方法、装置、电子设备和存储介质

Info

Publication number: CN112464807A
Application number: CN202011351589.1A
Authority: CN
Inventors: 吴臻志; 马欣
Original assignee: Beijing Lynxi Technology Co Ltd
Current assignee: Beijing Lynxi Technology Co Ltd
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-03-09
Also published as: WO2022111506A1

Abstract

本申请公开了一种视频动作识别方法、装置、电子设备和存储介质，属于神经网络技术领域。其中，视频动作识别方法，包括：获取目标视频片段；对所述目标视频片段中的图像帧进行差分处理，以得到差分图像信息序列，所述差分图像信息序列包括至少一帧差分图像信息；将所述差分图像信息序列输入视频动作识别网络，以确定所述目标视频片段的动作识别结果。本申请实施例能够提升视频动作识别过程中的计算速度。

Description

视频动作识别方法、装置、电子设备和存储介质

技术领域

本申请属于神经网络技术领域，具体涉及一种视频动作识别方法、装置、电子设备和存储介质。

背景技术

对拍摄视频中的动作进行识别，在视频监控以及用户交互中具有良好的应用前景。

在相关技术中，在进行动作识别时，具有计算量大、计算速度慢等缺陷。

发明内容

本申请实施例的目的是提供一种视频动作识别方法、装置、电子设备和存储介质，能够解决相关技术中的视频动作识别方法存在的计算速度慢的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种视频动作识别方法，所述方法包括：

获取目标视频片段；

对所述目标视频片段中的图像帧进行差分处理，以得到差分图像信息序列，所述差分图像信息序列包括至少一帧差分图像信息；

将所述差分图像信息序列输入视频动作识别网络，以确定所述目标视频片段的动作识别结果。

第二方面，本申请实施例提供了一种视频动作识别装置，所述装置包括：

获取模块，用于获取目标视频片段；

差分模块，用于对所述目标视频片段中的图像帧进行差分处理，以得到差分图像信息序列，所述差分图像信息序列包括至少一帧差分图像信息；

识别模块，用于将所述差分图像信息序列输入视频动作识别网络，以确定所述目标视频片段的动作识别结果。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

在本申请实施例中，获取目标视频片段；对所述目标视频片段中的图像帧进行差分处理，以得到差分图像信息序列，所述差分图像信息序列包括至少一帧差分图像信息；将所述差分图像信息序列输入视频动作识别网络，以确定所述目标视频片段的动作识别结果。这样，视频动作识别网络基于差分图像信息序列进行动作识别，减少了视频动作识别网络的计算量，能够提升视频动作识别过程中的计算速度。

附图说明

图1是本申请实施例提供的一种视频动作识别方法的流程图；

图2是能够应用本申请实施例提供的一种视频动作识别方法的视频动作识别网络的结构示意图之一；

图3是能够应用本申请实施例提供的一种视频动作识别方法的视频动作识别网络的结构示意图之二；

图4是本申请实施例提供的一种视频动作识别装置的结构图；

图5是本申请实施例提供的一种电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的视频动作识别方法、视频动作识别装置、电子设备以及可读存储介质进行详细地说明。

在相关技术中，可以通过以下方式进行视频动作识别：

方式一：通过时空双流网络结构(其又可以称之为：Two Stream Network)预测视频动作。

该时空双流网络结构包括两个分支，其中，一个分支网络根据输入的单帧图像，提取图像信息，即做图像分类。另一个分支网络根据输入的连续10帧光流(optical flow)运动场，提取帧与帧之间的运动信息，该两个分支的网络结构相同，且输出层的激励函数同为softmax函数，即采用softmax函数进行预测。最后用直接平均或支持向量机(SupportVector Machine，SVM)的方式融合两分支网络的结果。

在该实施方式中，需要预先计算视频图像的光流并进行保存，该光流的数据量较大，因而需要较大的存储空间。

因此，该时空双流网络具有以下缺点：

缺点一：时空双流网络的训练过程复。

一方面，由于其需要分别对两个分支进行训练，因此训练过程复杂，且训练时间长；另一方面，由于一个视频片段中的光流可能会沿某个特别方向位移，所以在训练过程中，需要预先将光流减去所有光流向量的平均值。

缺点二：在预测视频动作的过程中，因计算量大而造成识别视频动作的结果的速度慢。

在应用过程中，同样需要通过光流模型将视频转化为光流，并采用时空双流网络对转化后的光流进行计算，基于光流具有数据量大的特征，采用时空双流网络对转化后的光流进行计算时，将存在计算量大的缺陷，从而造成识别视频动作的结果的速度慢。

缺点三：仅能够应用于对图像或者段视频中的动作识别。

由于时空双流网络仅仅操作一帧(空间网络)或者操作短片段中的单堆帧(时间网络)，因此对时间上下文的访问是有限的，从而不能够实现对于长范围时间结构的建模。

方式二：通过三维卷积神经网络(3D Convolutional Neural Networks，3D CNN)预测视频动作。

该方式下，将视频划分成多个固定长度的片段，然后分别提取每一视频片段的运动信息。该3D CNN应用于视频动作识别时，由于3D CNN的参数量很大，训练变得更困难，且需要更多的训练数据，因此，该3D CNN的训练过程复杂且耗时长。

方式三：通过卷积长短期记忆网络(Convolutional Long Short-Term Memory，ConvLSTM)预测视频动作。

本方式下，通过CNN网络提取视频中每帧图像的特征，然后采用LSTM网络挖掘帧图像的特征之间的时序关系。但是，由于LSTM能捕获的长距离依赖程度有限，且该网络模型相较于时空双流网络和3D卷积网络更加难以训练，且训练速度更慢，因此，该ConvLSTM的方法在视频分析中用的并不多。

方式四：时间分段网络(Temporal Segment Networks，TSN)。

与时空双流网络相同的，TSN也是由空间流卷积网络和时间流卷积网络构成。但不同于two-stream采用单帧或者单堆帧，TSN使用从整个视频中稀疏地采样一系列短片段，每个片段都将给出其本身对于行为类别的初步预测，从这些片段的“共识”来得到视频级的预测结果。而且，在TSN的学习过程中，需要通过迭代更新模型参数来优化视频级预测的损失值。

TSN实质上为对时空双流网络的改进网络，其存在与时空双流网络相同的缺陷，即训练过程复和计算过程慢。

针对上述相关技术中的缺陷，本申请实施例通过预先对视频片段的帧图像进行差分处理，以得到二维的差分图像信息，并通过对该差分图像信息进行特征提取，以及基于提取的特征进行线性加权和处理的方式，确定视频中的动作识别结果，可以简化模型结构，且减少视频动作识别过程中的计算量，从而能够提升视频动作识别过程的计算速度。

请参阅图1，是本申请实施例提供的一种视频动作识别方法的流程图，如图1所示，该方法可以包括以下步骤：

步骤101、获取目标视频片段。

在一些可选的实施例中，上述目标视频片段可以通过摄像头等视频采集装置采集得到。另外，在视频采集装置采集到的视频的时间长度较长的过程中，可以对该视频进行分割，以划分为多段预设时间长度的视频，例如：4s(秒)、5s等，在此对预设时间长度不作具体限定，此时，上述目标视频片段可以包括上述多段预设时间长度的视频中的部分或者全部。

步骤102、对所述目标视频片段中的图像帧进行差分处理，以得到差分图像信息序列，所述差分图像信息序列包括至少一帧差分图像信息。

其中，上述差分图像信息可以是指差分处理后的差分图像，或者是该差分图像进行处理后的图像信息，例如，可以是根据差分图像进行二值化处理后得到的图像帧，其中，二值化后的图像帧中，各像素的值为二值数据，例如，1或0。

在差分图像信息中的像素值为二值数据时，相较于具有多种取值的像素差值，二值数据的数据复杂程度更低，从而能够简化视频动作识别网络的计算复杂程度，可以应用于通过脉冲神经网络构建的视频动作识别网络，并且，能够提高视频动作识别网络的训练速度以及推理速度。

在一些可选的实施例中，上述差分处理可以理解为：所述目标视频片段中包括多帧按照时序排列的图像帧，通过逐个地对相邻的两个或者多个图像进行图像数据差分处理，并在遍历所述目标视频片段中的每一个图像帧之后，得到所述目标视频片段的差分图像信息序列。

例如：假设视频片段包括图像帧：1、2、3、4，对相邻的两个图像帧进行图像数据差分处理，则上述差分处理可以是：图像帧1的像素值分别减去图像帧2中对应的像素值，图像帧2的像素值分别减去图像帧3中对应的像素值，以及图像帧3的像素值分别减去图像帧4中对应的像素值，从而通过对视频片段中的相邻图像帧进行差分处理能够得到多个依次排列的差分图像，可以根据差分图像，确定上述差分图像信息序列。

优选的，上述L可以等于2，以对相邻的两个图像帧进行差分处理，以发现相邻的两个图像帧之间的动作差异，当然，在一些可选的实施中，上述L可以取2、3、4等大于或者等于2的整数中的任一个，在此不做具体限定。

作为一种可选的实施方式，所述对所述目标视频片段中的图像帧进行差分处理，以得到差分图像信息序列，包括：

将所述目标视频片段转化为按时序排列的图像帧；

分别对所述图像帧进行灰度处理，并分别对所述灰度处理后的图像帧中相邻的L个图像帧进行差分处理，得到至少一帧差分图像，其中，所述L为大于或者等于2的整数；

分别生成各帧差分图像对应的差分图像信息，以根据至少一帧差分图像信息，确定差分图像信息序列，其中，所述差分图像信息包括所述像素增强信息和所述像素减弱信息。

举例来说，假设灰度处理后的图像帧A与图像帧B进行差分处理，得到差分图像。生成各帧差分图像对应的差分图像信息可以理解为根据差分图像中的差分值，生成包括像素增强信息以及像素减弱信息的差分图像信息。

例如，该差分图像包括多个差分值，可以将大于或等于第一阈值的差分值确定为像素增强值，将差分图像中小于或等于第二阈值的差分值确定为像素减弱值。其中，像素增强值可以是指增强的像素值。像素减弱值可以是指减弱的像素值。像素增强值和像素减弱值可以理解为动作边缘数据。

其中，所述像素增强信息可以理解为：根据差分图像中的像素增强值确定的图像通道。相应的，所述像素减弱信息可以理解为：根据差分图像中的像素减弱值确定的图像通道。

本实施方式中，通过对图像帧进行灰度处理，可以将彩色图像帧转化为灰度图像，以在特征提取和分析过程中，对不必要的色彩特征进行分析，从而能够减少视频动作识别过程中的数据计算量。通过动作边缘数据生成差分图像信息，并基于该差分图像信息进行动作识别，能够减少识别过程中数据占用的存储空间，并提高识别速度。

进一步的，所述差分图像包括多个差分值，其中，所述生成各帧差分图像对应的差分图像信息，包括：

确定所述多个差分值中的像素增强值以及像素减弱值；

根据所述像素增强值，生成所述像素增强信息；

根据所述像素减弱值，生成所述像素减弱信息。

本实施方式中，根据差分值生成像素增强信息以及像素减弱信息，以分别将该像素增强信息和像素减弱信息输入至视频动作识别网络，从而实现为视频动作识别网络提供双通道二维数据。

这样，相较于现有技术中，需要预先提取多个图像帧的光流数据，并对该光流数据进行3D卷积处理过程中，存在的计算量大、特征提取精度不高等缺陷，本申请实施例能够基于像素增强信息和像素减弱信息简便的提取差分图像之间的动作差异，能够简化识别差分图像的动作的复杂程度。

在一些可选的实施中，上述目标视频片段的差分图像信息序列中，各差分图像信息的差分值可以是模拟信息或者数字信息，且该差分图像信息中的差分值可以划分为像素增强值和像素减弱值，该像素增强值和像素减弱值可以根据模拟信息或者数字信息的取值确定。例如：在目标视频片段的差分值为模拟信息序列的情况下，将大于等于第一阈值(例如：+5)的模拟信息值确定为像素增强值，将小于等于第二阈值(例如：-5)的模拟信息值确定为像素减弱值。

除了上述模拟信息序列之外，还可以通过将上述差分处理后，得到的差分图像进行二值化处理，以得到像素值为二值数据的差分图像信息。

在一些可选实施方式中，所述确定差分图像信息序列，包括：

将差分值序列转化为数字信息序列，即二值数据，该二值数据能够应用于模型结构更加简单的脉冲神经网络(Spiking Neural Network，SNN)。

在一些可选实施方式中，差分图像包括N个差分值，所述像素增强信息中包括与所述N个差分值分别对应的N个像素值，所述像素减弱信息中包括与所述N个差分值分别对应的N个像素值，所述N为大于1的整数；

其中，所述根据所述像素增强值，生成所述像素增强信息，包括：

将与所述像素增强值对应的第一像素值确定为1，将N个像素值中除所述第一像素值的像素值确定为0，以得到所述像素增强信息；

其中，所述根据所述像素减弱值，生成所述像素减弱信息，包括：

将与所述像素减弱值对应的第二像素值确定为1，将N个像素值中除所述第二像素值的像素值确定为0，以得到所述像素减弱信息。

本实施方式中，将差分图像转化为像素增强信息和像素减弱信息，在应用于SNN神经网络模型的应用场景下，能够为SNN神经网络模型提供双通道二维数据，以简化SNN神经网络模型的计算复杂程度。

当然，在一些实施中，也可以将差分处理后得到的差分图像(模拟信息)序列入至视频动作识别网络，以在该视频动作识别网络中的批标准化层等进行标准化处理，其同样能够实现根据差分图像信息序列，确定所述目标视频片段的动作识别结果，在此不作具体限定。

在一些可选的实施方式中，所述分别对所述灰度处理后的图像帧中相邻的L个图像帧进行差分处理，得到至少一帧差分图像，包括：

分别对所述灰度处理后的图像帧中相邻的L个图像帧进行差分处理，以得到至少一帧差分图像，其中，每帧差分图像包括N个差分值，所述像素增强信息中包括与所述N个差分值分别对应的N个像素值，所述像素减弱信息中包括与所述N个差分值分别对应的N个像素值，所述N为大于1的整数；

在所述N个差分值中的第一差分值大于或等于第一阈值的情况下，确定所述像素增强信息中与所述第一差分值对应的像素值等于1，并确定所述像素减弱信息中与所述第一差分值对应的像素值等于0；

在所述N个差分值中的第二差分值小于或等于第二阈值的情况下，确定所述像素增强信息中与所述第二差分值对应的像素值等于0，并确定所述像素减弱信息中与所述第二差分值对应的像素值等于1；

在所述差分值序列中的第三差分值位于所述第一阈值和所述第二阈值之间的情况下，确定所述像素增强信息中与所述第三差分值对应的像素值等于0，并确定所述像素减弱信息中与所述第三差分值对应的像素值等于0。

在实施中，上述差分值为模拟信息，若所述像素增强信息中的像素值等于1，则表示该像素有增强，若所述像素增强信息中的像素值等于0，则表示该像素无增强(可以是无变化或者有减弱)；若所述像素减弱信息中的像素值等于1，则表示该像素有减弱，若所述像素减弱信息中的像素值等于0，则表示该像素无减弱(可以是无变化或者有增强)。

相较于模拟信息号，转化为数字信号后的差分值能够简化视频识别网络的数据处理过程，并可以应用于基于脉冲神经网络构建的视频识别网络，从而提升视频识别网络的运行效率。

进一步的，上述像素增强信息通过像素增强通道传输至视频识别网络，上述像素减弱信息通过像素减弱通道传输至视频识别网络中。

即通过图像差分处理能够将三通道的RGB图像转化为两通道的图像，从而简化数据复杂程度。另外，通过差分处理能够发现图像的帧间关系，便于对差分图像进行进行特征提取时，能够更加容易的得出视频动作特征，从而提升视频动作识别的速度。

需要说明的是，在实施中，还可以通过在像素增强信息中添加第一标识，在所述像素减弱信息中添加第二标识，以将上述像素增强信息和上述像素减弱信息共同传输至视频识别网络中后，由所述视频识别网络根据上述第一标识和第二标识划分上述像素增强信息和上述图像减弱信息，在此不作具体限定。

当然，在计算力足够的应用场景下，也可以不对图像帧进行灰度处理，而是直接对相邻的多个图像帧进行差分处理，以得到差分图像信息，在此不作具体限定。

在一些可选的实施方式中，差分图像信息还可以包括全0通道，例如，差分图像信息包括像素增强信息、像素减弱信息以及全0通道。

步骤103、将所述差分图像信息序列输入视频动作识别网络，以确定所述目标视频片段的动作识别结果。

其中，视频动作识别网络可以是任意训练好的用于动作识别的神经网络。

在一种可能的实现方式中，视频动作识别网络基于脉冲神经网络构建，输入的视频动作识别网络可以是根据目标视频片段确定的差分图像信息序列，该差分图像信息序列包括至少一帧差分图像信息。其中，一帧差分图像信息可以包括两个图像通道，分别为像素增强信息和像素减弱信息，每个图像通道中可以包括多个像素，像素值可以为0或1。其中，像素增强信息中像素值为1的像素可以理解为增强像素，像素值为0的像素为非增强像素。像素减弱信息中像素值为1的像素可以理解为减弱像素，像素值为0的像素为非减弱像素。

另外，上述通过所述视频动作识别网络提取所述差分图像信息的特征值，可以是视频动作识别网络采用卷积泄漏积分发放模型提取差分图像信息的特征值，且该特征值可以包括时序特征值和空间特征值。

在一些可选的实施例中，视频动作识别网络，可以提取视频片段的特征值，并在对所述特征值进行加权处理之后，可以得出与多个预设动作标签分别对应的多个标签值，则上述确定所述目标视频片段的动作识别结果可以是确定所述目标视频片段的动作识别结果为所述多个标签值中取值最大的目标标签对应的预设动作。

其中，标签值的取值越大，即表示视频中的动作与该标签值对应的预设动作越靠近。

在实际应用中，视频中的动作可能并不能够与一个预设动作完全匹配，因此，往往得出的视频动作结果中可以包括多个取值相互接近，或者多个取值大于预设阈值的标签值，此时，上述确定所述目标视频片段的动作识别结果，也可以是：确定视频动作与该多个取值分别对应的预设动作接近。

例如：如图2所示，是本方法实施例提供的可应用于本申请实施例提供的视频动作识别方法中的视频动作识别网络的结构示意图。如图2所示，该视频动作识别网络包括：卷积泄漏积分发放模块10和全连接层模块20，所述通过所述视频动作识别网络提取所述差分图像信息的特征值，并对所述特征值进行加权处理，以确定所述目标视频片段的动作识别结果，包括：

通过所述卷积泄漏积分发放模块10提取所述差分图像信息的特征值，并通过所述全连接层模块20对所述特征值进行加权处理，以确定所述目标视频片段的动作识别结果。

作为一种可选的实施方式，如图2所示，所述卷积泄漏积分发放模块包括：卷积泄漏积分发放(例如，ConvLIF或ConvLIAF)层11、批标准化(Batch Normalization，BN)层12、线性整流(Rectified Linear Unit，ReLU)层13以及全局池化(其又可以称之为：AvgPooling)层14；

所述通过卷积泄漏积分发放模块10提取所述差分图像信息的特征值，包括：

通过卷积泄漏积分发放层11对所述差分图像信息进行时序卷积处理和泄漏积分发放处理，以分别提取所述目标视频片段的时序特征值和空间特征值，其中，所述差分图像信息的特征值包括所述时序特征值和所述空间特征值，卷积泄漏积分发放层11采用脉冲神经网络模型；

通过批标准化层12，对所述目标视频片段的特征值进行批标准化处理，其中，所述目标视频片段的特征值包括所述时序特征值和所述空间特征值；

通过线性整流层13，对所述批标准化处理后的特征值进行线性修正处理；

通过全局池化层14，对所述线性修正处理后的特征值进行平均池化处理。

在实施中，所述全连接层模块20获取所述平均池化处理后的特征数据进行加权求和处理，实现对各卷积泄漏积分发放模块10中提取的特征值重新组装成完整的特征图，以得出与该特征图对应的标签值，作为视频动作的识别结果。

在一些可选的实施例中，上述通过卷积泄漏积分发放层11对所述差分图像信息进行时序卷积处理和泄漏积分发放处理，以分别提取所述目标视频片段的时序特征值和空间特征值，可以通过以下过程实现：

将原始的LIF模型被描述成一个微分方程来展示神经元的动态特性，该原始的LIF模型的表达式可以如下：

其中τ是神经元的时间因子，V_reset是复位电位。Xi(t)是第i个神经元通过权重为W_i连接到当前神经元的输入信号(脉冲或无信号)。当V(t)达到某个阈值V_th时，会发出脉冲信号，并且V(t)会重置为其初始值V_reset，n表示神经元的总数。为了便于推导和训练，我们采用LIF在离散时间上的迭代版本，每次迭代过程可以包括以下步骤：

1)突触整合，其表达式为：

I^t＝Conv(X^t,W)

其中，I^t表示t时刻的突触整合，X^t代表突触前神经元的激活值，W指突触权重。突触整合可以采用全连接或卷积形式，上述公式中的Conv表示求卷积。

2)结合空间信息和时间信息，其表达式为：

其中

和

分别是指先前的膜电位和当前的膜电位。

3)阈值比较，发射脉冲，其表达式为：

其中F^t是发射信号。F^t＝1表示发射脉冲事件，若F^t＝0表示没有发射脉冲事件。

4)重置膜电势，其表达式为：

其中，

表示重置后的膜电势。

5)执行泄漏，其表达式为：

其中，α和β分别代表乘性衰减系数和加性衰减系数。

6)输出F^t。

另外，上述批标准化处理、线性修正处理以及全局池化处理与现有技术中的对应的处理方式相同，在此不再赘述。

本实施方式中，其中通过ConvLIAF层对连续的图像帧进行时序卷积处理；通过Batch Normalization层将输出特征值规范化，保证视频动作识别网络的稳定性，同时，在视频动作识别网络的训练过程中，还能够有效降低训练网络时可能出现过拟合的概率；通过RELU层增加神经网络各层之间的非线性关系；通过AvgPooling层，一方面，能够防止无用参数增加时间复杂度，另一方面，还增加了特征值的整合度。

在一些可选的实施例中，AvgPooling层可以选择使用时间分布(其又可以称之为：Time Distributed)层包装的AvgPooling 2D(二维)层，或者AvgPooling3D(三维)层，在此不做具体限定。

另外，除了上述卷积泄漏积分发放层11之外的批标准化层12、线性整流层13以及全局池化层14，以及全连接层模块中均可以采用人工神经网络(Artificial NeuralNetwork，ANN)，这样，视频动作识别网络，通过采用人工神经网络ANN与SNN融合的网络结构，能够使实现更好的时空域混合应用的处理能力。且SNN在精度要求不高但计算速度要求很高的场景下有差异化优势。SNN在很短的时间内的出错率即可接近收敛，同等情况下传统的CNN方法的用时会更长，这样，在将SNN应用于对时长较短的视频片段中的图像帧的特征处理时，该SNN的出错率接近收敛，且耗时更短；然后，利用精确度更高的ANN对SNN提取出的特征值进行进一步处理，以提升对特征值的处理能力。

需要说明的是，在实际应用中，根据视频动作识别网络的模型结构或者算法的不同，视频动作识别网络可以包括比如图2所示视频动作识别网络中更多或者更少的网络层，在此不作具体限定。

相较于传统的CNN方法，本申请实施例中，采用SNN模式的卷积泄漏积分发放层11，可用于识别具有有限数量的标记视频的动作(即所述视频动作识别网络的输出结果可以包括：与有限数量的动作标签一一对应的标签值，该标签值用于指示视频中的动作与对应的动作标签的相似度)。从原始视频数据中提取脉冲信息，同时保留不同帧之间的时间相关性，通过这种方法，在存储库中将视频中的大量动态活动概括为与标签对应的动作，这样，能够使采用ANN+SNN融合的视频动作识别网络能够兼具高效性和准确性，且由于减少了视频动作识别过程中的计算量和存储量，还能够降低该视频动作识别网络对存储量以及运算量的运行环境的需求，从而提升该视频动作识别网络的适用性。

在训练过程中，为了实现在所述视频动作识别网络中对各个动作标签对应的动作进行学习，可以通过以下过程对视频动作识别网络进行训练：

步骤1：拍摄预设动作。

本步骤中，可以对多个对象进行拍摄，且拍摄过程中每个对象分别执行上述预设动作，且每个预设动作的拍摄时间可以设置为预设时长。

例如：拍摄过程中，每个人分别作10个预设动作(左手臂转动、右手臂转动、左手弯曲等等)，且对每个人的每个动作分别拍摄20s。

步骤2：视频分段。

本步骤中，将上述每个预设动作的视频划分为多个片段，以增加样本数量。

例如：将上述20s时长的视频，平均划分为4个5s时长的视频片段。

优选的，考虑到拍摄过程中的拍摄时延和关闭时延的影响，可以将上述20秒的视频中前2s和最后2sd的拍摄内容丢弃，并将剩余的16s时长的视频划分为4个4s时长的视频片段。

这样，就能有效裁剪掉动作变换时带来的类别误差，确保样本有效。

步骤3：标记分类。

本步骤中，将不同预设动作的视频片段与不同的标签进行关联。

例如：第i个预设动作的4个视频片段分别可以标记为：i×5、i×5+1、i×5+2、i×5+3，其中，i可以取0-9中的任意至。

步骤4：将视频转换为图片。

本步骤中，可以采用视觉和机器学习软件库(OpenCV)将所有视频片段转换为图片。

当然，在具体实施中，还可以采用其他工具将视频转换为图片帧，在此不作具体限定。

步骤5：划分训练集和测试集。

在具体实施中，可以按照预设比例将步骤4中的图片帧作为样本，划分入训练集和测试集中，例如：将80％的样本作为训练集，将20％的样本作为测试集。当然，还可以按照其他比例将样本划分为训练集和测试集，在此不作具体限定。

步骤6：差分处理。

本步骤中，可以先对图片做尺寸调整(resize)处理，以减小并规范各图片的尺寸大小；然后将尺寸调整处理后的图片转换为灰度图片；最后，按对连续(即相邻)的图片做差分处理，根据差分处理的结果得到像素增强信息和像素减弱信息，并从像素增强通道传输该像素增强信息，以及从像素减弱通道传输该像素减弱信息。

这样，便可以将原来三通道的RGB图像数据变为现在的两通道图像数据。

在实际应用中，当连续两帧图像之间有运动物体发生相对移动时，差分图像信号将不全为0，当连续两帧图像之间没有运动物体发生相对移动时，差分图像信号为全0，这样，便实现了获取图像帧之间的关系。

最后，将上述差分处理后的差分图像信号分别通过像素增强通道和像素减弱通道输入至视频动作识别网络中进行训练，直至训练出的视频动作识别网络的准确率符合预设条件，或者直至上述样本全部训练完成。

作为一种可选的实施方式，为了避免视频动作识别网络在训练过程中过拟合，可以在视频动作识别网络中增加丢弃层，以按照预设概率将神经网络单元从网络中丢弃。

例如：如图3所示实施例中，在全连接层模块20包括：全连接层21和Dropout层22。该Dropout层22对神经网络单元按照一定的概率将其暂时从视频动作识别网络中丢弃，有效防止视频动作识别网络过拟合，并能够提高视频动作识别的训练速度。而全连接层21用于对卷积泄漏积分发放模块输出的特征进行一个加权求和处理，以得到动作标签值。

由上可知，本实施方式中，视频动作识别网络的训练过程基于二维的差分图像信息进行训练，且对于ANN层和SNN层无需分别进行训练，因此，该视频动作识别网络的训练过程简单，且训练耗时短。

作为一种可选的实施方式，如图3所示，所述卷积泄漏积分发放模块10的数量为至少两个，所述至少两个卷积泄漏积分发放模块10依次连接，以对所述差分图像信息进行多级特征提取；所述全连接层模块20的输入端连接于所述至少两个卷积泄漏积分发放模块10中的最后一级卷积泄漏积分发放模块10的输出端；

和/或

所述全连接层模块20的数量为至少两个，所述至少两个全连接层模块20依次连接，以对所述特征值进行多级线性处理；所述至少两个全连接层模块20中的最先一级全连接层模块20的输入端与所述卷积泄漏积分发放模块10的输出端连接。

如图3所示实施例中，仅以所述卷积泄漏积分发放模块10的数量为3个且全连接层模块20的数量为2个进行举例说明，在此，并不限定图像动作识别网络包括多个卷积泄漏积分发放模块10和一个全连接层模块20，图像动作识别网络包括一个卷积泄漏积分发放模块10和多个全连接层模块20，或者卷积泄漏积分发放模块10和全连接层模块20的数量为其他数量的情况。

本实施方式中，视频动作识别网络采用级联的多组卷积泄漏积分发放模块10和多组全连接层模块20，以对视频图像进行更深层次的特征提取和处理。

在本申请实施例中，获取目标视频片段；对所述目标视频片段中的图像帧进行差分处理，以得到差分图像信息；将所述差分图像信息输入视频动作识别网络，通过所述视频动作识别网络提取所述差分图像信息的特征值，并对所述特征值进行加权处理，以确定所述目标视频片段的动作识别结果。这样，视频动作识别网络仅需对二维的差分图像信息进行特征值提取，以得到图像帧之间的差异特征，并对该差异特征进行加权处理便可以得出目标视频片段的动作识别结果，而无需对图像帧的三维数据进行处理，从而减少了视频动作识别网络的计算量，能够提升视频动作识别过程中的计算速度。

需要说明的是，本申请实施例提供的视频动作识别方法，执行主体可以为视频动作识别装置，或者该视频动作识别装置中的用于执行视频动作识别方法的控制模块。本申请实施例中以视频动作识别装置执行加载视频动作识别方法为例，说明本申请实施例提供的视频动作识别装置。

请参阅图4，是本申请实施例提供的一种视频动作识别装置的结构图，如图4所示，该视频动作识别装置400可以包括：

获取模块401，用于获取目标视频片段；

差分模块402，用于对所述目标视频片段中的图像帧进行差分处理，以得到差分图像信息序列，所述差分图像信息序列包括至少一帧差分图像信息；

识别模块403，用于将所述差分图像信息序列输入视频动作识别网络，以确定所述目标视频片段的动作识别结果。

可选的，所述视频动作识别网络是根据脉冲神经网络构建的，所述差分图像信息中的像素值为二值数据。

可选的，所述视频动作识别网络包括卷积泄漏积分发放模块和全连接层模块，所述识别模块403，具体用于：

通过所述卷积泄漏积分发放模块提取所述差分图像信息序列的特征值，并通过所述全连接层模块对所述特征值进行加权处理，以确定所述目标视频片段的动作识别结果。

可选的，所述识别模块403，包括：

转化单元，用于将所述目标视频片段转化为按时序排列的图像帧；

差分处理单元，用于对所述图像帧进行灰度处理，并分别对所述灰度处理后的图像帧中相邻的L个图像帧进行差分处理，得到至少一帧差分图像，其中，所述L为大于或者等于2的整数；

确定单元，用于分别生成各帧差分图像对应的差分图像信息，以根据至少一帧差分图像信息，确定差分图像信息序列；

其中，所述差分图像信息包括像素增强信息和像素减弱信息。

可选的，所述差分图像包括多个差分值，其中，所述确定单元，包括：

第一确定子单元，用于确定所述多个差分值中的像素增强值以及像素减弱值；

第一生成子单元，用于根据所述像素增强值，生成所述像素增强信息；

第二生成子单元，用于根据所述像素减弱值，生成所述像素减弱信息。

可选的，差分图像包括N个差分值，所述像素增强信息中包括与所述N个差分值分别对应的N个像素值，所述像素减弱信息中包括与所述N个差分值分别对应的N个像素值，所述N为大于1的整数；

其中，所述第一生成子单元，具体用于：

其中，所述第二生成子单元，具体用于：

可选的，所述第一确定子单元，包括：

第一确定次子单元，用于将大于或等于第一阈值的差分值确定为所述像素增强值；

第二确定次子单元，用于将小于或等于第二阈值的差分值确定为所述像素减弱值。

可选的，所述卷积泄漏积分发放模块包括：卷积泄漏积分发放层、批标准化层、线性整流层以及全局池化层；

识别模块403，包括：

卷积泄漏积分发放单元，用于通过所述卷积泄漏积分发放层对所述差分图像信息进行时序卷积处理和泄漏积分发放处理，以分别提取所述目标视频片段的时序特征值和空间特征值，其中，所述差分图像信息的特征值包括所述时序特征值和所述空间特征值，所述卷积泄漏积分发放层采用脉冲神经网络模型；

批标准化单元，用于通过所述批标准化层，对所述目标视频片段的特征值进行批标准化处理，其中，所述目标视频片段的特征值包括所述时序特征值和所述空间特征值；

线性整流单元，用于通过所述线性整流层，对所述批标准化处理后的特征值进行线性修正处理；

全局池化单元，用于通过所述全局池化层，对所述线性修正处理后的特征值进行平均池化处理。

可选的，所述全连接层模块采用人工神经网络模型。

可选的，所述卷积泄漏积分发放模块的数量为至少两个，所述至少两个卷积泄漏积分发放模块依次连接，以对所述差分图像信息进行多级特征提取；所述全连接层模块的输入端连接于所述至少两个卷积泄漏积分发放模块中的最后一级卷积泄漏积分发放模块的输出端；

和/或

所述全连接层模块的数量为至少两个，所述至少两个全连接层模块依次连接，以对所述特征值进行多级线性处理；所述至少两个全连接层模块中的最先一级全连接层模块的输入端与所述卷积泄漏积分发放模块的输出端连接。

本申请实施例提供的视频动作识别装置的模型结构简单，在进行视频动作识别的过程中，具有数据量小的优点，从而能够减少视频动作识别过程中的计算量并提升计算效率。

本申请实施例中的视频动作识别装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，非移动电子设备可以为网络附属存储器(NetworkAttached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的视频动作识别装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的视频动作识别装置能够实现图1所示的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选的，如图5所示，本申请实施例还提供一种电子设备500，包括处理器501，存储器502，存储在存储器502上并可在所述处理器501上运行的程序或指令，该程序或指令被处理器501执行时实现上述视频动作识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要注意的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述视频动作识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述视频动作识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种视频动作识别方法，其特征在于，所述方法包括：

获取目标视频片段；

2.根据权利要求1所述的视频动作识别方法，其特征在于，所述视频动作识别网络是根据脉冲神经网络构建的，所述差分图像信息中的像素值为二值数据。

3.根据权利要求1所述的视频动作识别方法，其特征在于，所述视频动作识别网络包括卷积泄漏积分发放模块和全连接层模块，所述将所述差分图像信息序列输入视频动作识别网络，以确定所述目标视频片段的动作识别结果，包括：

4.根据权利要求1所述的视频动作识别方法，其特征在于，所述对所述目标视频片段中的图像帧进行差分处理，以得到差分图像信息序列，包括：

将所述目标视频片段转化为按时序排列的图像帧；

对所述图像帧进行灰度处理，并分别对所述灰度处理后的图像帧中相邻的L个图像帧进行差分处理，得到至少一帧差分图像，其中，所述L为大于或者等于2的整数；

分别生成各帧差分图像对应的差分图像信息，以根据至少一帧差分图像信息，确定差分图像信息序列；

5.根据权利要求4所述的视频动作识别方法，其特征在于，所述差分图像包括多个差分值，其中，所述生成各帧差分图像对应的差分图像信息，包括：

确定所述多个差分值中的像素增强值以及像素减弱值；

根据所述像素增强值，生成所述像素增强信息；

根据所述像素减弱值，生成所述像素减弱信息。

6.根据权利要求5所述的视频动作识别方法，其特征在于，差分图像包括N个差分值，所述像素增强信息中包括与所述N个差分值分别对应的N个像素值，所述像素减弱信息中包括与所述N个差分值分别对应的N个像素值，所述N为大于1的整数；

7.根据权利要求5所述的视频动作识别方法，其特征在于，所述确定所述多个差分值中的像素增强值以及像素减弱值，包括：

将大于或等于第一阈值的差分值确定为所述像素增强值；

将小于或等于第二阈值的差分值确定为所述像素减弱值。

8.根据权利要求3所述的视频动作识别方法，其特征在于，所述卷积泄漏积分发放模块包括：卷积泄漏积分发放层、批标准化层、线性整流层以及全局池化层；

所述通过所述卷积泄漏积分发放模块提取所述差分图像信息的特征值，包括：

通过所述卷积泄漏积分发放层对所述差分图像信息进行时序卷积处理和泄漏积分发放处理，以分别提取所述目标视频片段的时序特征值和空间特征值，其中，所述差分图像信息的特征值包括所述时序特征值和所述空间特征值，所述卷积泄漏积分发放层采用脉冲神经网络模型；

通过所述批标准化层，对所述目标视频片段的特征值进行批标准化处理，其中，所述目标视频片段的特征值包括所述时序特征值和所述空间特征值；

通过所述线性整流层，对所述批标准化处理后的特征值进行线性修正处理；

通过所述全局池化层，对所述线性修正处理后的特征值进行平均池化处理。

9.根据权利要求8所述的视频动作识别方法，其特征在于，所述全连接层模块采用人工神经网络模型。

10.根据权利要求3所述的视频动作识别方法，其特征在于，所述卷积泄漏积分发放模块的数量为至少两个，所述至少两个卷积泄漏积分发放模块依次连接，以对所述差分图像信息进行多级特征提取；所述全连接层模块的输入端连接于所述至少两个卷积泄漏积分发放模块中的最后一级卷积泄漏积分发放模块的输出端；

和/或

11.一种视频动作识别装置，其特征在于，所述装置包括：

获取模块，用于获取目标视频片段；

12.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-10中任一项所述的视频动作识别方法的步骤。

13.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-10中任一项所述的视频动作识别方法的步骤。