CN113111842B

CN113111842B - 一种动作识别方法、装置、设备及计算机可读存储介质

Info

Publication number: CN113111842B
Application number: CN202110455827.1A
Authority: CN
Inventors: 王岱崟; 杨昆霖; 侯军; 伊帅
Original assignee: Zhejiang Shangtang Technology Development Co Ltd
Current assignee: Zhejiang Shangtang Technology Development Co Ltd
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2023-06-27
Anticipated expiration: 2041-04-26
Also published as: CN113111842A

Abstract

本公开实施例公开了一种动作识别方法、装置、设备及计算机可读存储介质。该方法包括：对待识别的视频序列中的每帧图像的特征图进行空间编码，得到每帧图像的动作主体特征向量；对每帧图像的动作主体特征向量进行时序关联，得到每帧图像的动作主体时序特征向量；依据动作主体时序特征向量，对每帧图像的特征图进行特征增强，得到每帧图像的动作增强特征图；对视频序列包含的图像中的每帧图像的动作增强特征图进行动作识别，得到视频序列的动作识别结果。通过本公开，能够提高动作识别的准确度。

Description

一种动作识别方法、装置、设备及计算机可读存储介质

技术领域

本公开涉及人工智能领域中的计算机视觉技术，尤其涉及一种动作识别方法、装置、设备及计算机可读存储介质。

背景技术

动作识别是指利用计算机视觉技术对视频画面中的人物的动作进行识别与理解的过程，其可以广泛应用于虚拟现实交互、视频语义理解等应用中。动作识别可以借助于深度学习技术来实现，例如，通过卷积神经网络结合时序关联感知的方式，来实现动作识别。然而相关技术中，在动作识别，特别是时序关联感知时会引入大量的背景信息，使得时序关联感知的准确度较低，最终使得动作识别的准确度较低。

发明内容

本公开实施例提供一种动作识别方法、装置、设备及计算机可读存储介质，能够提高动作识别的准确度。

本公开实施例的技术方案是这样实现的：

本公开实施例提供一种动作识别方法，包括：

对待识别的视频序列中的每帧图像的特征图进行空间编码，得到所述每帧图像的动作主体特征向量；

对所述每帧图像的所述动作主体特征向量进行时序关联，得到所述每帧图像的动作主体时序特征向量；

依据所述动作主体时序特征向量，对所述每帧图像的所述特征图进行特征增强，得到所述每帧图像的动作增强特征图；

对所述视频序列包含的图像中的每帧图像的动作增强特征图进行动作识别，得到所述视频序列的动作识别结果。

本公开实施例提供一种动作识别装置，包括：

动作编码模块，用于对待识别的视频序列中的每帧图像的特征图进行空间编码，得到所述每帧图像的动作主体特征向量；

时序关联模块，用于对所述每帧图像的所述动作主体特征向量进行时序关联，得到所述每帧图像的所述动作主体时序特征向量；

特征增强模块，用于依据所述动作主体时序特征向量，对所述每帧图像的所述特征图进行特征增强，得到所述每帧图像的动作增强特征图；

动作识别模块，用于对所述视频序列包含的图像中的每帧图像的动作增强特征图进行动作识别，得到所述视频序列的动作识别结果。

本公开实施例提供一种动作识别设备，包括：

存储器，用于存储可执行动作识别指令；

处理器，用于执行所述存储器中存储的可执行动作识别指令时，实现上述的动作识别方法。

本公开实施例提供一种计算机可读存储介质，存储有可执行动作识别指令，用于引起处理器执行时，实现上述的动作识别方法。

本公开实施例提供的动作识别方法、装置、设备及计算机可读存储介质，采用本技术方案，会先对待识别的视频序列中的每帧图像的特征图先进行空间编码，得到能够定位出特征图中发生了动作的区域的动作主体特征向量，然后再将每帧图像的动作主体特征向量在时序上进行关联，得到能够对动作相关区域的在时序上的变化进行描述的动作主体时序特征向量，减少了在时序关联感知时对于背景信息的关注程度，接着利用动作主体时序特征向量，对特征图进行特征增强，以将动作识别的注意力聚焦在发生了动作的区域，提高动作识别的准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1是本公开实施例提供的动作识别方法的一个可选的流程示意图一；

图2是本公开实施例提供的时序关联的示意图；

图3是本公开实施例提供的动作区域位置图谱的示意图；

图4是本公开实施例提供的生成动作主体特征向量的过程示意图一；

图5是本公开实施例提供的动作识别方法的一个可选的流程示意图二；

图6是本公开实施例提供的在特征图上定位动作区域的示意图；

图7是本公开实施例提供的生成动作主体特征向量的过程示意图二；

图8是本公开实施例提供的动作识别方法的一个可选的流程示意图三；

图9是本公开实施例提供的对动作主体特征向量进行时序关联的过程示意图；

图10是本公开实施例提供的对特征图进行特征增强的示意图一；

图11是本公开实施例提供的对特征图进行特征增强的示意图二；

图12是本公开实施例提供的动作识别系统100的一个可选的架构示意图；

图13是本公开实施例提供的三个数据集的动作区域位置图谱的示意图；

图14为本公开实施例提供的动作识别装置的结构示意图；

图15为本公开实施例提供的动作识别设备的结构示意图。

具体实施方式

为了使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开作进一步地详细描述，所描述的实施例不应视为对本公开的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本公开实施例能够以除了在这里图示或描述的以外的顺序实施。

对本公开实施例进行进一步详细说明之前，对本公开实施例中涉及的名词和术语进行说明，本公开实施例中涉及的名词和术语适用于如下的解释。

1)人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取只是并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生成出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，设计领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

2)计算机视觉技术(Computer Vision，CV)计算机实际是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图像处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

3)机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结果使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本图像，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

计算机视觉技术作为人工智能技术中的分支，能够从视觉的角度来对图像或视频进行理解，从而为人类的日常生活提供相关服务。动作识别是计算机实际技术中的一项核心任务，其是指利用计算机视觉技术对视频画面中的人物的动作进行识别与理解的过程。动作识别可以广泛应用于虚拟现实交互、视频语义理解等应用中。

动作识别可以借助于深度学习技术来实现，例如，通过卷积神经网络结合时序关联感知的方式，来实现动作识别。相关技术中，在构建时序感知框架时，对于视频图像中的每一个像素点都是同等对待的，但是视频图像中总是有一定比例的区域与所要识别的动作无关，从而导致大量的背景信息被引入到动作识别，特别是时序关联的感知过程中，也就使得时序关联感知的准确度较低，进而动作识别的准确度较低。同时，相关技术中一般是利用高层语义信息来进行时序关联感知的，忽略了低层语义信息在时序关联感知中的作用，使得时序关联感知时的信息不够充分，进一步降低了时序关联感知的准确度，从而降低了动作识别的准确度较低。

本公开实施例提供一种动作识别方法，能够提高动作识别的准确度。本公开实施例提供的动作识别方法应用于动作识别设备。

下面说明本公开实施例提供的动作识别设备的示例性应用，本公开实施例提供的动作识别设备可以实施为AR眼镜、笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端(以下简称终端)，也可以实施为服务器。下面，将结合本公开实施例提供的动作识别设备的示例性应用和实施，说明本公开实施例提供的动作识别方法。

参见图1，图1是本公开实施例提供的动作识别方法的一个可选的流程示意图一，将结合图1示出的步骤进行说明。

S101、对待识别的视频序列中的每帧图像的特征图进行空间编码，得到每帧图像的动作主体特征向量。

本公开实施例是在对视频中的人物的动作进行识别的场景下实现的，例如，对视频中人物的跳舞动作的识别，对于视频中的人物摔倒动作的识别等。动作识别设备在录制或者是接收到原始视频时，可以先对原始视频进行抽帧、采样等预处理，从而得到包含多帧图像的待识别视频序列。然后，动作识别设备对待识别视频序列中的每帧图像进行特征抽取，得到每帧图像的特征图，再对每帧图像的特征图进行空间编码，所得到的编码结果就是每帧图像所对应的动作主体特征向量。需要说明的是，动作主体特征向量为表示动作主体的特征向量，从而得到每帧图像的动作主体特征向量，也就明确了每帧图像的动作主体。

在本公开的一些实施例中，动作识别设备可以对原始视频的所有视频帧进行抽取，得到待识别视频序列，如此，能够对原始视频所蕴含的所有信息都进行利用。在本公开的另一些实施例中，动作识别设备还能够按照预设抽帧间隔或者是预设时间间隔，从原始视频中抽取出视频帧，将抽取出的视频帧组成待识别视频序列，如此，能够减少动作识别时的计算量，加快处理速度。

在一些实施例中，动作识别设备在按照预设抽帧间隔或者预设时间间隔抽取出视频帧，得到待识别的视频序列之后，还可以从原始视频未被抽取的视频帧中挑选一些视频帧补入待识别的视频序列中。例如，当待识别的视频序列中包含人物的视频帧较少时，可以从原始视频中挑选一些包含人物的视频帧补入待识别视频序列中。在另一些实施例中，动作识别设备还可以根据待识别视频序列中视频帧的分布情况，从待识别视频的序列中删除一些视频帧，例如，将背景区域占画面总面积超过一定阈值的视频帧从待识别的视频序列中删除等。

可以理解的是，预设抽帧间隔是可以根据实际情况进行设定的，例如设置为10，或者设置为5等；预设实际间隔也是可以根据实际情况进行设定的，例如设置为1s，或者设置为0.5s等，本公开在此不作限定。

需要说明的是，动作识别设备是在多个通道上分别对每帧图像进行特征抽取的(每个通道都会有对应的卷积核)，从而所得到的特征图实质上是在多个通道上进行特征抽取之后所得到的特征图的统称，即每帧图像对应了不止一张特征图。动作识别设备可以通过卷积神经网络(Convolutional Neural Network，CNN)模型中的卷积层来对每帧图像进行特征抽取，由一个卷积核对应于一个特征抽取通道。

可以理解的是，动作识别设备在对每帧图像的特征图进行空间编码的顺序，与每帧图像的时序并没有必然的联系，即每帧图像的时序，并不会决定哪些帧的特征图是先进行空间编码，哪些帧的特征图是后进行空间编码的。也就是说，动作识别设备完全可以按照随机顺序，或者是并行对每帧图像的特征图进行空间编码。

S102、对每帧图像的动作主体特征向量进行时序关联，得到每帧图像的动作主体时序特征向量。

动作识别设备在得到动作主体特征向量之后，就会将每帧图像的动作主体特征向量在时序上进行关联，从而分析出每帧图像的动作主体在时序上的变化情况，得到每帧图像的动作主体时序特征向量。

动作识别设备在将每帧图像的动作主体特征向量在时序上进行关联时，实质上就是将时序关联挖掘的注意力集中在了动作主体，即将时序关联感知的注意力聚焦在画面中真正发生了动作的区域，以减少背景信息所在时序关联感知时产生的干扰，从而，所得到的动作主体时序特征向量仅会描述动作主体所在的区域的在时序上的变化，而忽略其他不相关的，时序关联感知就会更加准确。

示例性的，本公开实施例提供了时序关联的示意图，如图2所示，在针对每帧图像定位2-1出动作主体，得到动作主体特征向量之后，动作识别设备会在进行时序关联2-2时，实质上就是将这些动作主体所在的区域在时序上进行关联，关联关系可以表示为各个帧图像对应的动作主体所在的，即高亮部分的箭头关系。

可以理解的是，动作识别设备可以是逐一对每帧图像的动作主体特征向量进行时序关联，也可以是按照随机顺序对每帧图像的动作主体特征向量进行时序关联，还可以是并行(即同时处理)对每帧图像的动作时序特征向量进行时序关联，本公开在此不作限定。

也就是说，对每帧图像的动作主体特征向量进行时序关联的处理顺序，与每帧图像在时序上的顺序并没有必然的联系。

S103、依据动作主体时序特征向量，对每帧图像的特征图进行特征增强，得到每帧图像的动作增强特征图。

动作识别设备可以动作主体时序特征向量，来对每帧图像的特征图进行特征增强，使得每帧图像的特征图中的动作主体在进行动作识别时的影响相比于背景信息所在的区域进行动作识别时的影响更加显著，增强后的每帧图像的特征图，即为动作增强特征图。

可以理解的是，动作识别设备可以是直接将动作主体时序特征向量与每帧图像的特征图进行叠加，以实现特征增强，也可以是先对动作主体时序特征向量进行归一化等处理，将处理后动作主体时序特征向量，与每帧图像的特征图进行叠加，以实现特征增强，本公开在此不作限定。

S104、对视频序列包含的图像中的每帧图像的动作增强特征图进行动作识别，得到视频序列的动作识别结果。

动作识别设备在得到动作增强特征图之后，会对每帧图像的动作增强特征图进行分类识别，以明确动作主体的时序关联，从而判断出待识别的视频序列中所表达的是何种动作，得到动作识别结果。

需要说明的是，动作识别设备可以调用动作识别模型来对每帧图像的动作增强特征图进行识别，其中，动作识别模型是利用经过标注的包含不同动作的视频数据集训练好的模型，其可以是深度学习模型，例如卷积神经网络(Convolutional Neural Network，CNN)模型，也可以是浅层机器学习模型，例如支持向量机(Support Vector Machine，SVM)模型等。

本公开实施例中，动作识别设备会先对待识别的视频序列中的每帧图像的特征图先进行空间编码，得到能够定位出特征图中发生了动作的区域的动作主体特征向量，然后再将每帧图像的动作主体特征向量在时序上进行关联，得到能够对动作相关区域的在时序上的变化进行描述的动作主体时序特征向量，减少了在时序关联感知时对于背景信息的关注程度，接着利用动作主体时序特征向量，对特征图进行特征增强，以将动作识别的注意力聚焦在发生了动作的区域，提高动作识别的准确度。

在本公开的一些实施例中，对待识别视频序列中的每帧图像的特征图进行空间编码，得到每帧图像的动作主体特征向量，即S101的具体实现过程，可以包括：S1011-S1012，如下：

S1011、在待识别的视频序列中的每帧图像的特征图上定位动作区域，得到每帧图像的动作区域位置图谱。

在待识别的视频序列中，同时蕴含着外观信息和运动信息。动作识别设备可以通过对外观信息和运动信息进行编码，能够实现同时利用外观信息和运动信息来定位动作区域，即确定出动作主体所在的区域，得到动作区域位置图谱。

需要说明的是，动作区域位置图谱的各个区域位置的像素，实质上就是每帧图像的各个区域位置发生动作的概率，从而动作区域位置图谱对每帧图像的动作主体所在的区域进行了描述，如此，能够表明每帧图像中需要重点关注、发生了动作的区域，

示例性的，本公开实施例提供了动作区域位置图谱的示意图，如图3所示，视频帧3-11、3-12、3-13和3-14是待识别的视频序列中的视频帧图像，3-21、3-22、3-23和3-24上述视频帧图像各自对应的动作区域位置图谱(实际上的动作区域位置图谱仅为包含了高亮部分的蒙层，这里是为了直观显示出动作区域位置图谱所表征出的动作相关区域，将高亮部分的蒙层叠加在了视频帧图像中)，从动作区域位置图谱可以明确看出上述视频帧中的动作相关区域(图中的电池部分)。

可以理解的是，外观信息指的就是每帧图像中的各个物体的外形信息，其可以包括物体的形状、颜色、大小等信息；运动信息指的是待识别视频序列中的物体在空间上的位移、变化等信息。

S1012、依据动作区域位置图谱，对每帧图像的特征图进行动作区域的融合，得到每帧图像的动作主体特征向量。

动作识别设备得到每帧图像所对应的动作区域位置图谱之后，也就明确了每帧图像的动作相关区域，从而本步骤中，动作识别设备会将动作区域位置图谱的各个区域位置，与每帧图像的特征图的每个区域位置进行关联，即进行融合，以从每帧图像的特征图中，抽取出能够表示动作主体的特征向量，该特征向量即为动作主体特征向量。

需要说明的是，动作识别设备可以依据动作区域位置图谱的各个区域位置的像素值(即各个区域位置发生动作的概率值)，从每帧图像的特征图中，挑选出发生动作概率较大的区域位置，将特征图中这些区域位置的特征值，作为动作主体特征向量。动作识别设备还可以依据动作区域位置图谱的各个区域位置的像素值在动作区域位置图谱所有区域位置的像素值之和的占比，从特征图中挑选出用于抽取特征值的区域位置，将此区域位置的特征值作为动作主体特征向量。

示例性的，本公开实施例提供了生成动作主体特征向量的过程示意图一，如图4所示，X_i(1≤i≤T)为每帧图像对应的特征图，动作识别设备先对X_i进行动作区域的定位4-1，得到每帧图像X_i所对应的动作区域位置图谱M_i，然后再基于M_i对X_i进行动作区域的融合4-2，就得到了每帧图像对应的动作主体特征向量S_i。

本公开实施例中，动作识别设备能够先从每帧图像的特征图中定位出动作区域，得到动作区域位置图谱，然后将动作区域位置图像和特征图进行动作区域的融合，得到每帧图像的动作主体特征向量，以便于后续生成动作主体时序特征向量。

参见图5，图5是本公开实施例提供的动作识别方法的一个可选的流程示意图二。在本公开的一些实施例中，在待识别的视频序列中的每帧图像的特征图上定位动作区域，得到与每帧图像的动作区域位置图谱，即S1011的具体实现过程，可以包括：S1011a-S1011b，如下：

S1011a、对待识别的视频序列中的每帧图像的特征图进行通道编码，得到每帧图像的通道压缩后的压缩特征图。

由于动作识别设备是在多个通道上对每帧图像进行特征抽取的，从而每帧图像的外观信息所对应的特征分散在各个通道所对应的特征图中。因此，在本公开实施例中，动作识别设备会相对每帧图像的特征图进行通道编码，通过通道编码将各个通道的特征图融合起来，即进行通道压缩，得到每帧图像所对应的压缩特征图，以实现分散在各个通道的外观信息对应的特征的集中。

可以理解的是，动作识别设备可以利用CNN模型的卷积层，来实现对特征图的通道编码。此时，为了能够对特征图中的所有特征值(特征值即为特征图的像素值)都能够保存，通道编码时的卷积层对应的卷积核的大小需要尽可能小，例如，将卷积核的大小设置为1×1；为了能够对各个通道的特征图进行融合，通道编码时卷积层对应的通道个数(即卷积核的个数)也应当少于每帧图像的特征图的通道数，例如，每帧图像的特征图的通道数为C时，可以将通道编码时的卷积层通道数设置为C/r(C/r大于1，r的数值可以根据实际情况进行设置，一般将r设置为16)，以实现各个通道的特征图的融合。

在另一些实施例中，动作识别设备还可以直接将每帧图像的各个通道的特征图进行叠加，以实现通道压缩。

S1011b、对每帧图像的压缩特征图与相邻帧图像的压缩特征图差值，进行特征编码，得到每帧图像的动作区域位置图谱。

特征编码包含了运动信息的编码和外观信息的编码。动作识别设备对每帧图像对应的压缩特征图和相邻帧图像的压缩特征图的差值进行运动信息的编码和外观信息的编码，以将每帧图像的运动信息的特征和外观信息的特征，包含在每帧图像的动作区域位置图谱之中。

需要说明的是，动作识别设备在对每帧图像对应的压缩特征图进行运动信息的编码时，需要借助于每帧图像在时序上的相邻帧图像所对应的压缩特征图来实现；动作识别设备在对每帧图像对应的压缩特征图进行外观信息的编码时，只需要对每帧图像自身的压缩特征图进行处理即可。

本公开实施例中，动作识别设备能够先对每帧图像的特征图进行通道压缩，然后对每帧图像的压缩特征图与其的相邻帧图像的压缩特征图之间的差值进行特征编码，如此，就可以确定出每帧图像的动作主体所在的区域，得到动作区域位置图谱。

在本公开的一些实施例中，对每帧图像的压缩特征图与相邻帧图像的压缩特征图差值，进行特征编码，得到每帧图像的动作区域位置图谱，即S1011b的具体实现过程，可以包括：S201-S203，如下：

S201、对每帧图像的相邻帧图像对应的压缩特征图，与每帧图像对应的压缩特征图的差值，进行卷积处理，得到运动信息特征图。

本步骤实质上是对运动信息的编码。动作识别设备先依据待识别的视频序列的时序，为每帧图像获取对应的相邻帧图像，然后计算相邻帧图像所对应的压缩特征图和每帧图像对应的压缩特征图的差值，接着对差值进行深度可分离卷积处理，卷积结果即为运动信息的编码结果，从而得到了运动信息特征图。

需要说明的是，相邻帧图像可以为每帧图像的下一帧图像，也可以为每帧图像的上一帧图像，本公开实施例在此不作限定。

动作识别设备深度可分离卷积的卷积核的尺寸，可以设置为1×1，也可以设置为3×3，还可以根据实际需求设置为其他值，本公开在此不作限定。

S202、对每帧图像对应的压缩特征图进行卷积处理，得到外观信息特征图。

本步骤实质上是对外观信息的编码。动作识别设备对每帧图像对应的压缩特征图进行深度可分离卷积，将卷积结果作为外观信息的编码结果，就得到了外观信息特征图。

S203、将运动信息特征图和外观信息特征图进行融合，得到动作区域位置图谱。

最后，动作识别设备将运动信息的编码结果和外观信息的编码结果进行融合，即将运动信息特征图和外观信息特征图进行融合，所得到的融合结果就是空间特征图。

可以理解的是，动作识别设备可以通过求和的方式实现融合，也可以通过相乘的方式实现融合，本公开在此不作限定。

示例性的，本公开实施例提供了一种特征编码的计算公式，参见式(1)：

其中，t为帧的时序，

为每帧图像的压缩后的特征图，/>

为相邻帧图像对应的压缩后的特征图，即/>

为/>

的下一个帧图像的压缩后的特征图，/>

和/>

为深度可分离卷积核，/>

表示对相邻帧图像对应的压缩特征图和每帧图像的压缩特征图之间的差异求卷积，所得到的运动信息特征图，/>

表示对每帧图像的压缩特征图求卷积，所得到的外观信息特征图，V_t为每帧图像的动作区域位置图谱。

本公开实施例还提供了另一种空间编码的计算公式，如式(2)所示：

式(2)中的

表示每帧图像/>

的上一个帧图像，其余参数的含义于式(1)相同。

动作识别设备可以利用式(1)或式(2)中的任一个公式，来求出每帧图像的动作区域位置图谱。

需要说明的是，当t＝T时，也即到达待识别的视频序列中的最后一个帧时，式(1)已经失去了意义，此时，可以将V_T-1作为V_T。

本公开实施例中，动作识别设备可以对相邻帧图像对应的压缩特征图和每帧图像对应的压缩特征图的差值进行卷积，并对每帧图像对应的压缩特征图进行卷积，将所得到的运动信息特征图和外观信息特征图融合，得到动作区域位置图谱。

在本公开的一些实施例中，在对每帧图像对应的通道压缩后的特征图进行卷积处理，得到外观信息特征图之后，即在S202之后，该方法还可以包括：S204-S205，如下：

S204、将运动信息特征图和外观信息特征图进行融合，得到空间特征图。

S205、对空间特征图进行通道编码，得到动作区域位置图谱。

本公开实施例中，动作识别设备先将运动信息特征图和外观信息特征图融合，将融合所得到的特征图作为空间特征图，然后再通过通道编码，再次对空间特征图的通道进行压缩，以将不同通道的空间特征图，最终融合到一个通道中，从而实现对不同通道的运动信息的特征和外观信息的特征的聚合，得到每帧图像对应的动作区域位置图谱。

本公开实施例中的通道压缩所使用的卷积层的卷积核的大小需可以设置为1×1，也可以设置为3×3，卷积层的通道数(卷积核的个数)则设置为1(即将通道数从C/r变为1)。在另一些实施例中，动作识别设备还可以直接将各个通道的空间特征图叠加在一起，以再次实现通道压缩。

示例性的，本公开实施例提供了在特征图上定位动作区域的示意图，参见图6，待识别的视频序列中共有3帧图像，这3帧图像对应的特征图分别为X₁、X₂和X₃，其中，X₁、X₂和X₃的通道数均为C(即深度为C)。动作识别设备向对X₁、X₂和X₃进行通道编码6-1，即利用尺寸为1×1，深度为C/r的卷积层CM₁分别对X₁、X₂和X₃进行卷积操作，以得到压缩特征图。然后，动作识别设备对X_t+1与X_t(t取值范围为[1，3])的压缩特征图之间的差值(ME)进行卷积，对X_t的压缩特征图(AE)进行卷积，将所得到的运行信息特征图外观信息特征图进行融合，以完成空间编码6-2。动作识别设备再对融合的结果利用尺寸为3×3，深度为1的卷积层CM₂进行卷积，以再次进行通道编码6-3，得到动作区域位置图谱M₁、M₂和M₃。

本公开实施例中，动作识别设备先将外观信息特征图和运动信息特征图融合为空间特征图，最后对空间特征图进行通道压缩，以对不同通道的外观信息的特征和运动信息的特征融合到一个通道中，得到动作区域位置图谱，明确动作相关区域。

在本公开的一些实施例中，依据动作区域位置图谱，对每帧图像的特征图进行动作区域的融合，得到每帧图像的动作主体特征向量，即S1012的具体实现过程，可以包括：S1012a-S1012b，如下：

S1012a、对动作区域位置图像进行归一化处理。

S1021b、将归一化处理后的动作区域位置图谱与特征图融合，得到每帧图像的动作主体特征向量。

动作识别设备先利用动作区域位置图谱中每个区域位置的像素值，以及动作区域位置图谱的所有区域位置的像素值，来为每个区域位置计算出其为动作主体所在的区域的权重，这个计算过程即为归一化的过程。然后，动作识别设备将归一化处理后的动作区域位置图谱和特征图进行加权融合，就能够得到每帧图像所对应的动作主体特征向量。

在一些实施例中，动作识别设备对动作区域位置图谱进行归一化时，是将其的每个区域位置的像素值作为指数，将自然数e作为底数，进行指数运算，针对每个区域位置计算出指数运算结果，然后将所有区域位置的指数运算结果进行累加，得到指数累加和。接着，动作识别设备将每个区域位置的指数运算结果，与指数累加和进行相比，所得到的比值即为特征图的每个区域位置对应的动作关联区域权重。

在另一些实施例中，动作识别设备还可以直接将动作区域位置图谱中的每个区域位置的像素值，与所有区域位置的像素值的累加和相比，将所得到的比值作为每个区域位置对应的动作关联区域权重。

示例性的，本公开实施例提供了一种动作主体特征向量的公式，如式(3)所示：

其中，t代表帧的时序，

和/>

均表示动作区域位置图谱的每个区域位置的像素值，这里只是为了在公式中便于区分，用/>

和/>

分别来表示；/>

表示每帧图像的特征图的每个区域位置的像素值，S_t是每帧图像的动作主体特征向量。

可以理解的是，式(3)中动作关联区域权重的计算过程，与归一化函数Softmax的计算过程相类似，基于图6，参见图7，图7是本公开实施例提供了生成动作主体特征向量的过程示意图二，在图7中，动作识别设备可以对动作区域位置图谱M₁、M₂和M₃均输入进行Softmax进行计算，然后再通过融合7-1操作，得到每帧图像的动作主体特征向量，即S₁、S₂和S₃。

本公开实施例中，动作识别设备能够先对动作区域位置图谱进行归一化处理，然后再将归一化处理后的动作区域位置图谱与特征图的每个区域位置进行融合，将融合结果作为动作主体特征向量，以便于后续挖掘时序关联情况。

参见图8，图8是本公开实施例提供的动作识别方法的一个可选的流程示意图三。在本公开的一些实施例中，对每帧图像的动作主体特征向量进行时序关联，得到每帧图像的动作主体时序特征向量，即S102的具体实现过程，可以包括：S1021-S1023，如下：

S1021、获取每帧图像的动作主体特征向量与相邻帧图像的动作主体特征向量之间的相关度。

动作识别设备先对相邻帧图像中的动作主体特征向量，与每帧图像的动作主体特征向量进行相关，得到相邻图像中的动作主体特征向量与每帧图像的动作主体特征向量之间的相关度。

需要说明的是，相邻帧图像可以是每帧图像的前后的两帧图像，也可以是每帧图像的每帧图像的之前或之后的若干帧图像，例如每帧图像之前第3帧图像和每帧图像之后的第2帧图像，还可以是待识别视频序列中的第一帧图像和最后一帧图像等。当然，相邻帧图像，也可以是上述这些图像的集合，本公开在此不作限定。

在本公开中，相邻帧图像包括：视频序列中的所有帧图像或视频序列中与每帧图像相邻的预设数据量帧的图像。

可以理解的是，预设数量可以根据实际情况进行设置，例如，将预设数量设置为3，或者设置为8，本公开在此不作限定。

示例性的，本公开实施例提供了对动作主体特征向量进行时序关联的过程示意图。参见图9，以S₂为例，动作识别设备对每帧图像对应的动作主体特征向量S₂在时序上进行关联9-1时，例如，从S₁开始与S₂进行关联，直至将S₂与S_T进行关联，得到S’₂，从而针对每帧图像可以得到动作主体时序特征向量S’_i。

S1022、基于相关度对相邻帧图像的动作主体特征向量进行加权。

动作识别设备将相关度作为权重，对相邻帧图像的动作主体特征向量进行加权求和，加权求和所得到的结果即为主动作主体特征向量。

S1023、对加权后的相邻帧图像的主动作主体特征向量进行通道变换，得到每帧图像的动作主体时序特征向量。

最后，动作识别设备再利用通道变换函数，对所得到的主动作主体特征向量进行通道变换，将通道变换后的结果，作为每帧图像的动作主体时序特征向量。

示例性的，本公开实施例提供了计算动作主体时序特征向量的公式，参见式(4)：

其中，Ω_t′是每帧图像的动作主体特征向量，以及其相邻帧图像的动作主体特征向量所构成的集合，t′表示为与t时刻的帧图像相邻的帧图像所对应的时刻，即t时刻的相邻时刻，S_t′是相邻帧图像对应的动作主体特征向量，S_t是每帧图像对应的动作主体特征向量，

是通道变换函数，S′_t是每帧图像的动作主体时序特征向量，/>

即为主动作主体特征向量。其中，/>

是指每帧图像的动作主体特征向量和相邻帧图像的动作主体特征向量的相关度，其可以利用余弦相似度，或者欧式距离等来进行计算。

本公开实施例中，动作识别设备能够先对相邻帧图像的动作主体特征向量和每帧图像的动作主体特征向量在时序上进行相关，然后在将相关度作为权重，对相邻帧图像的动作主体特征向量进行加权求和，最后对加权求和所得到的主动作主体特征向量进行通道变换，从而明确的动作主体所在的区域在时序上的变化情况，得到动作主体时序特征向量。

在本公开的一些实施例中，所述相邻图像包括：视频序列中的所有帧图像或视频序列中与每帧图像相邻的预设数量帧的图像，在此情况下，对每帧图像的动作主体特征向量进行时序关联，得到每帧图像的所述动作主体时序特征向量，即S102的具体实现过程，可以包括：S301-S303，或S304-S306，如下：

S301、获取每帧图像的动作主体特征向量与所有帧图像的动作主体特征向量的相关度。

S302、基于相关度对所有帧图像的动作主体特征向量进行加权。

S303、对加权后的所有帧图像的主动作主体特征向量进行通道变换，得到每帧图像的动作主体时序特征向量。

当相邻帧图像为待识别的视频序列中的所有图像时，动作识别设备会将待识别视频序列中的所有图像的动作主体特征向量，均与每帧图像的动作主体特征向量进行时序上的相关，然后再对时序相关结果进行通道转换，从而实现对每帧图像的动作主体特征向量的在全局上的时序关联。

可以理解的是，动作识别设备对每帧图像的动作主体特征向量进行全局时序相关，相当于对每帧图像的动作主体特征向量进行非局部操作，从而，动作识别设备可以先对每帧图像的动作主体特征向量进行非局部操作，然后再对非局部操作所得到的结果进行通道转换，得到每帧图像的动作主体时序特征向量。

示例性的，本公开实施例提供了在全局上的时序关联的公式，如式(5)所示：

其中，S_t是每帧图像的动作主体特征向量，NL为非局部操作，

是通道变换函数，S′_t为每帧图像的动作主体时序特征向量。动作识别设备在得到上述参数的具体数值之后，就可以将上述参数的具体数值代入到式(5)中，得到每帧图像的动作主体时序特征向量。

S304、获取每帧图像的动作主体特征向量与预设数量帧的图像的动作主体特征向量的相关度。

S305、基于相关度对预设数量帧的图像的动作主体特征向量进行加权。

S306、对加权后的预设数量帧的图像的主动作主体特征向量进行通道变换，得到每帧图像的动作主体时序特征向量。

动作识别设备还能够将与每帧图像相邻的预设数量帧的图像的动作主体特征向量，以及每帧图像的动作主体特征向量相关，然后再与每帧图像相邻的预设数量帧的图像的动作主体特征向量进行加权求和，最后再对加权求和的结果进行通道变换，就完成了对动作主体特征向量在局部上的时序关联的过程，得到每帧图像的动作主体时序特征向量。

示例性的，本公开实施例提供了一种在局部上的时序关联的公式，如式(6)所示：

其中，k为预设数量的一半，即取每帧图像的前后k帧，就得到与每帧图像向量的预设数量帧图像，i为预设数量帧图像中的标号，

表示将与每帧图像相邻的预设数量帧图像的动作主体特征向量和每帧图像的动作主体特征向量相关，S_t+i表示与每帧图像相邻的预设数量帧图像的动作主体特征向量，/>

为通道函数，S′_t为每帧图像的动作主体时序特征向量。

本公开实施例中，动作识别设备可以依据相邻帧图像的情况，从全局时序关联和局部时序关联中，选择对每帧头像的动作主体特征向量进行时序关联的方式，从而能够从全局或局部的角度，来给出每帧图像的动作主体时序特征向量。

进一步的，在本公开的一些实施例中，对每帧图像的动作主体特征向量进行时序关联，得到每帧图像的动作主体时序特征向量，即S102的具体实现过程，可以包括：S307-S308，如下：

S307、获取每帧图像相邻的预设数量帧的图像的动作主体特征向量；

S308、对每帧图像的动作主体特征向量进行一维卷积处理，得到每帧图像的动作主体时序特征向量。

也就是说，每帧图像的动作主体特征向量的时序关联的过程，可以利用一维卷积来同步实现，即利用1D卷积来实现。动作识别设备利用一个一维的卷积核来对由每帧图像的动作主体特征向量所组成的矩阵进行卷积，就可以替代时序关联过程中的相关度求解、加权和通道变换的过程，得到每帧图像的动作主体时序特征向量，从而能够减少时序关联时的计算过程。

在此情况下，式(6)的计算过程，可以变为式(7)：

S′＝Conv1D(k)(S) (7)

其中，Conv1D为1D的卷积核，该卷积核的尺寸为k，k为预设数量的一半，S为每帧图像的动作主体特征向量所组成的矩阵，S′则为每帧图像的动作主体时序特征向量所组成的矩阵，此时，1D的卷积核是逐行卷积的。

本公开实施例中，动作识别设备可以将相关度求解、加权和通道变换合并为一维卷积过程，从而利用一维卷积来得到每帧图像的动作主体时序特征向量，减少在求解动作主体时序特征向量时的计算过程。

在本公开的一些实施例中，依据动作主体时序特征向量，对每帧图像的特征图进行特征增强，得到每帧图像的动作增强特征图，即S103的具体实现过程，可以包括：S1031或S1032，如下：

S1031、依据动作主体时序特征向量，对每帧图像的特征图进行特征增强，得到每帧图像的动作增强特征图。

动作识别设备会在得到每帧图像的动作时序特征向量时，将动作时序特征向量与每帧图像的特征图融合在一起，得到动作增强特征图，以使得每帧图像的特征图的动作主体所在的区域的时序变化情况更加明显。

可以理解的是，动作识别设备将动作时序特征向量与每帧图像的特征图融合时，可以将动作时序特征向量变换为特征图，然后将变换得到的特征图与每帧图像的特征图进行叠加；也可以是将动作时序特征向量直接与每帧图像的特征图进行相乘，从而实现融合。

示例性的，本公开实施例提供了对特征图进行特征增强的示意图一，参见图10，动作识别设备在对X_i定位动作区域10-1，然后依据动作区域位置图谱，对每帧图像的特征图进行动作区域的融合10-2，得到每帧图像对应的动作主体特征向量S_i，并对动作主体特征向量S_i在时序上进行关联10-3，得到动作主体时序特征向量S′_i之后，可以将S′_i与X_i通过相乘的方式进行融合，从而得到动作增强特征图10-4。

S1032、依据动作区域位置图谱和动作主体时序特征向量，对每帧图像的特征图进行特征增强，得到每帧图像的动作增强特征图。

除了上述方式之外，动作识别设备还可以同时利用动作区域位置图谱和动作主体时序特征向量，对每帧图像的特征图进行特征增强，从而得到对动作主体所在的区域和动作主体所在的区域在时序上的变化情况都能够体现的动作增强特征图。

可以理解的是，在本步骤中，动作识别设备可以先依据动作区域位置图谱，对动作主体时序特征向量还原为特征图的形式，然后将还原得到的特征图与每帧图像的特征图进行融合，得到动作增强特征图。动作识别设备还可以直接将动作区域位置图谱与动作主体时序特征向量相乘，将所得到的乘积与每帧图像的特征图进行融合，得到动作增强特征图。

示例性的，本公开实施例提供了对特征图进行特征增强的示意图二，参见图11，动作识别设备在对X_i定位动作区域11-1，然后依据动作区域位置图谱，对每帧图像的特征图进行动作区域的融合11-2，得到了每帧图像对应的动作主体特征向量S_i，并对动作主体特征向量S_i在时序上进行关联11-3，得到动作主体时序特征向量S′_i之后，可以对动作区域位置图谱M_i进行归一化11-4，利用归一化后的M_i与动作主体时序特征向量S′_i还原11-5为动作特征图S″_i，再将其与X_i融合，得到动作增强特征图11-6。

本公开实施例中，动作识别设备可以仅利用动作主体时序特征向量来对每帧图像的特征图进行增强，还可以同时利用动作区域位置图谱和动作主体特征向量，来对每帧图像的特征图进行增强，以便于后续利用增强后的动作增强特征图来进行动作识别。

在本公开的一些实施例中，依据动作主体时序特征向量，对每帧图像的特征图进行特征增强，得到每帧图像的动作增强特征图，即S103的具体实现过程，可以包括：S1033-S1034，如下：

S1033、对动作主体时序特征向量进行空间解码，得到动作特征图。

为了便于与每帧图像的特征图之间的计算，动作识别设备对每帧图像的动作主体时序特征向量进行空间解码，以将动作主体时序特征向量还原为特征图形式，所得到的特征图即为动作特征图。

S1034、将每帧图像的特征图和动作特征图进行融合，得到每帧图像的动作增强特征图。

接着，动作识别设备可以将每帧图像的特征图和动作特征图进行叠加，并将叠加之后的特征图，作为动作增强特征图。或者，动作识别设备可以将每帧图像的特征图和动作特征图进行相乘，将相乘所得的特征图，作为动作增强特征图。

在一些实施例中，对动作主体时序特征向量进行空间解码，得到动作特征图，即S1033的具体实现过程，可以包括：S1033a，如下：

S1033a、依据动作区域位置图谱，对动作主体时序特征向量进行空间解码，得到动作特征图。

示例性的，在动作区域位置图谱用M表示，动作主体时序特征向量用S′_i表示时，利用动作区域位置图谱对每帧图像动作主体时序特征向量进行空间解码的过程，可以表示为ASDe(S′_i，M)。

当然，动作识别设备还可以利用式(7)得到的S′(每帧图像的动作主体时序特征向量所组成的矩阵)，同步对每帧图像的动作主体时序特征向量空间解码，从而依据式(7)，对每帧图像动作主体时序特征向量进行空间解码的过程，可以表示为ASDe(S′，M)。

示例性的，在每帧图像动作主体时序特征向量进行空间解码表示为ASDe(S′，M)时，对每帧图像的特征图和动作特征图的融合可以如式(8)所示：

X′＝X+ASDe(S′，M) (8)

其中，X表示每帧图像的特征图，X′表示每帧图像的动作特征图。

本公开实施例中，动作识别设备可以利用动作区域位置图谱，将动作主体时序特征向量还原为动作特征图，以便于后续动作特征图与每帧图像的特征图进行融合，得到进行特征增强之后的动作增强特征图。

在本公开的一些实施例中，依据动作区域位置图谱，对动作主体时序特征向量进行空间解码，得到动作特征图，即S1033a的具体实现过程，可以包括：S401-S402，如下：

S401、对动作区域位置图谱进行激活，得到的激活位置图谱。

S402、基于动作主体时序特征向量与激活位置图谱相乘，得到动作特征图。

动作识别设备可以先将动作区域位置图谱输入到激活函数中，将激活函数的输出作为激活位置图谱，然后再将动作主体时序特征向量与激活位置图谱相乘，所得到的乘积结果即为动作特征图。

可以理解的时，动作识别设备可以将每帧图像对应的激活位置图谱，同步与动作主体时序特征向量来进行乘法运算，此时，对动作主体时序特征向量进行特征图还原过程，可以表示如式(9)所示：

ASDe(S′，M)＝S′×σ(M) (9)

其中，S′为每帧视频的动作主体时序特征向量所组成的矩阵，σ为激活函数，M为每帧图像的动作区域位置图谱。动作识别设备在得到上述参数的具体数值之后，就可以将上述参数的具体数值代入至式(9)中，从而同步实现对每帧图像的动作主体时序特征向量的空间解码过程，得到动作特征图。

在本公开的一些实施例中，依据动作区域位置图谱，对动作主体时序特征向量进行空间解码，得到动作特征图，即S1033a的具体实现过程，可以包括：S403-S404，如下：

S403、对动作区域位置图谱进行批归一化，得到归一化位置图谱；

S404、基于动作主体时序特征向量与归一化位置图谱求和，从而得到动作特征图。

动作识别设备可以先对动作区域位置图谱输入进行批归一化处理，然后将所得到的归一化位置图谱，与动作主体时序特征向量相加，所得到的和值结果即为动作特征图。

可以理解的时，动作识别设备可以将每帧图像对应的归一化图谱，同步与动作主体时序特征向量来进行相加，此时，对动作主体时序特征向量进行特征图还原过程，可以表示如式(10)所示：

ASDe(S′，M)＝S′+BN(M) (10)

其中，S′为每帧视频的动作主体时序特征向量所组成的矩阵，BN为批归一化处理，M为每帧图像的动作区域位置图谱。动作识别设备在得到上述参数的具体数值之后，就可以将上述参数的具体数值代入至式(10)中，从而同步实现对每帧图像的动作主体时序特征向量的空间解码，得到动作特征图。

本公开实施例中，动作识别设备可以基于对动作区域位置图谱进行激活所得到的激活位置图谱，实现对动作主体特征向量的空间解码，还可以基于对动作区域位置图谱进行批归一化所得到的归一化位置图谱，对动作主体特征向量的空间解码，从而丰富了对动作主体特征向量的空间解码的方式。

下面，将说明动作识别设备实施为服务器时的示例性应用。参见图12，图12是本公开实施例提供的动作识别系统100的一个可选的架构示意图。为实现支撑一个动作识别应用，终端400(示例性示出了终端400-1和终端400-2)通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

终端400用于录制原始视频，并通过网络将原始视频发送给服务器200。

服务器200对原始视频进行处理，得到待识别的视频序列，对待识别的视频序列中的每帧图像的特征图进行空间编码，得到与每帧图像对应的动作主体特征向量。然后，服务器200对每帧图像的动作主体特征向量进行时序关联，得到每帧图像的动作主体时序特征向量，再依据动作主体时序特征向量，对每帧图像的特征图进行特征增强，得到动作增强特征图。最后，服务器200对视频序列包含的图像中的每帧图像的动作增强特征图进行动作识别，得到视频序列的动作识别结果。

需要说明的是，在待识别的视频序列的每帧图像均通过卷积神经网络(Convolutional Neural Network，CNN)模型来实现时，可以将本公开实施例的时序感知处理过程(即从每帧图像的特征图进行动作相关编码至对每帧图像的特征图进行特征增强，得到动作时序关联特征图的过程)整合为一个网络模块，该网络模块可以插入到CNN模型中的任意一层。当该网络模块插入在CNN模型的低层时，待识别的视频序列中的每帧图像的特征图，就可以包含低层语义信息，从而，动作识别设备在进行动作识别时，不仅可以利用高层语义信息，还可以对低层语义信息进行利用，从而提高动作识别时对不同层级语义信息的利用程度，提高了动作识别的准确度。

在一些实施例中，服务器200可以将动作识别结果提供给终端400，以便于终端400依据动作识别结果进行下一步的处理，例如，动作识别结果为眨眼时打开换妆特效，动作识别为点头时打开雪花特效等。

下面，对本公开实施例在实际应用场景中的实现过程进行介绍。

本公开实施例是在对视频中的人物的动作进行识别的场景下实现的。在本公开实施例中，服务器(动作识别设备)会先构建以行动为中心的时间关系推理(Action-centricTemporal-relational Reasoning，ATR)模块(即将对每帧图像的特征图进行空间编码，依据对每帧图像的特征图进行时序关联，依据动作主体时序特征向量，对每帧图像的特征图进行特征增强，得到动作增强特征图的过程，整合为一个网络模块)，将ATR模块插入到CNN模型中，例如插入在时序分段模型(TSN)的所有残差块的最后一个批归一化(BatchNormalization，BN)层之后，从而得到动作识别模型。

在构建ATR模块时，首先对输入的维度为T×C×H×W(T为帧数，C为通道数，彩色视频为3通道，H为高度，W高度)的特征图X(X为特征图的统称，包含了每帧图像的特征图)进行串联的三步编码(定位动作区域)，得到动作区域位置图谱M(每帧图像对应的动作区域位置图谱)。更具体的，服务器是在首尾两步进行通道维度的编码(通道压缩)，并在中间步骤进行空间维度的编码(特征编码)。在首尾两步中用1×1的卷积将X的通道数分别从C变为C/r(第一次通道压缩时卷积层的通道数)和C/r变为1(第二次通道压缩时卷积层的通道数，r通常设置为16)，并在中间步骤利用式(1)进行空间维度的编码。

在得到动作区域位置图谱M之后，服务器会进一步根据式(3)，来对动作区域相关区域中的特征进行结合(对每帧图像的特征图进行动作区域的融合)，从而获取动作主体的特征向量S(每帧图像的动作主体特征向量)。

接着，服务器通过公式(4)来感知S的时序关联(得到每帧图像的动作主体时序特征向量)。服务器可以从全局时域的角度来感知(全局时序关联)：利用Non-local处理算子(非局部操作NL)并结合一个卷积核为1的一维卷积(通道转换

)来实现；服务器可以从局部时序的角度来感知，通过堆叠两个卷积核为3的一维卷积(Conv1D)来实现。

在对动作主体的特征向量S进行完时序关联感知之后，服务器按照式(10)，将S的时序关联还原回特征图，再将还原回的特征图与输入的特征图X进行融合，从而实现对X的时序关联感知能力的加强。

构建完ATR模块，并将其插入至CNN模型中，得到动作识别模型之后，服务器会将标注好的图片集输入到动作识别模型中，利用交叉熵损失函数对其进行训练的指导，从而得到训练好的动作识别模型。

最后，在实际应用中，服务器可以从需要进行动作识别的原始视频抽取出视频帧(待识别视频序列)，并将视频帧输入到训练好的动作识别模型中，以得到识别结果(动作识别结果)。

下面，利用Kinetics、Sth-V1和Sth-V2三个数据集，对本公开实施例的动作识别方法和相关技术中的动作识别方法进行效果对比。

参见图13，图13是本公开实施例提供的三个数据集的动作区域位置图谱的示意图。从图13可以看出，本公开实施例提供的ATR模块，对于Kinetics中的跳高动作13-1的区域、Sth-V2中的移除物体动作13-2的区域，以及对Sth-V1中的将物体相互靠近13-3动作的区域，都能够准确的标注出来。

表1提供了利用本公开实施例基于ATR模块的动作识别模型，和相关技术中的动作识别模型对于Sth-V1和Sth-V2这两个数据集的动作识别准确率对比。

表1

模型	帧数	Top-1	Top-5
				TSN(2018)	16	19.9	-
TRN_multiscale	8	34.4	48.8
				TSM(2019)	16	44.8	63.4
STM	8	49.2	64.2
				TEA	16	52.3	-
本公开	8	50.5	64.0
				本公开	16	53.9	65.4

表1对应的动作识别模型是在TSM模型的基础上增加了本公开实施例提供的ATR模块。从表1可以看出，当动作的帧数为8时，本公开的Top-1准确率和Top-5准确率明显都是高于相关技术中的TSN(2018)、TRN_multiscale、TSM(2019)、STM、和TEA等模型的；当动作的帧数为16时，本公开的Top-1准确率和Top-5准确率明显也高于相关技术中的TSN(2018)、TRN_multiscale、TSM(2019)、STM、和TEA等模型，并且，动作帧数越多，准确率越高，从而，本公开实施例提供的基于ATR模块的动作识别方法，在数据集Sth-V1和Sth-V2的识别准确度有着显著的提高。

表2提供了利用本公开实施例基于ATR模块的动作识别模型，和相关技术中的动作识别模型对于Kinetics数据集中的动作的识别准确率的对比。

表2

模型	帧数	Top-1
			R(2+1)D*	16	67.5
I3D*	64	75.7
			Nonlocal-50	32	76.5
SlowOnly-50	8	74.9
			本公开	8	76.3

表2对应的动作识别模型是在SlowOnly-R50模型的基础上增加了本公开实施例提供的ATR模块。从表2可以看出，当帧数均为8时，本公开的Top-1准确率要高于帧数同为8的SlowOnly-50模型，还高于帧数为64的I3D*模型，以及帧数为16的R(2+1)D*模型。而对于Nonlocal-50模型，虽然本公开的Top-1没有其Top-1高，但是由于Nonlocal-50模型的帧数为32，基于帧数越多识别越准确的思路，本公开的基于ATR模块的动作识别方法在帧数仅为8时，就达到了与Nonlocal-50模型类似的识别效果，当本公开的基于ATR模块的动作识别方法处理帧数进一步提高时，Top-1的准确度还会提升，从而，本公开实施例提供的基于ATR模块的动作识别方法在Kinetics数据集的识别准确度有着显著的提高。

由上述可知，服务器通过对每帧图像的特征图进行串联的三步编码，使得服务器能够自适应定位出动作相关区域，然后对动作相关区域进行时序关联，从而提高时序关联感知的能力，提高了动作识别精度。

本公开还提供一种动作识别装置，图14为本公开实施例提供的动作识别装置的结构示意图；如图14所示，动作识别装置1包括：

动作编码模块11，用于对待识别的视频序列中的每帧图像的特征图进行空间编码，得到所述每帧图像的动作主体特征向量；

时序关联模块12，用于对所述每帧图像的所述动作主体特征向量进行时序关联，得到所述每帧图像的动作主体时序特征向量；

特征增强模块13，用于依据所述动作主体时序特征向量，对所述每帧图像的所述特征图进行特征增强，得到所述每帧图像的动作增强特征图；

动作识别模块14，用于对所述视频序列包含的图像中的每帧图像的动作增强特征图进行动作识别，得到所述视频序列的动作识别结果。

在本公开的一些实施例中，所述动作编码模块11，还用于在所述待识别的视频序列中的所述每帧图像的特征图上定位动作区域，得到所述每帧图像的动作区域位置图谱；依据所述动作区域位置图谱，对所述每帧图像的所述特征图进行动作区域的融合，得到所述每帧图像的动作主体特征向量。

在本公开的一些实施例中，所述动作编码模块11，还用于对所述待识别的视频序列中的每帧图像的特征图进行通道编码，得到所述每帧图像的通道压缩后的压缩特征图；对所述每帧图像的压缩特征图与相邻帧图像的压缩特征图差值，进行特征编码，得到所述每帧图像的所述动作区域位置图谱。

在本公开的一些实施例中，所述动作编码模块11，还用于对所述每帧图像的相邻帧图像对应的压缩特征图，与所述每帧图像对应的压缩特征图的差值，进行卷积处理，得到运动信息特征图；对所述每帧图像对应的压缩特征图进行卷积处理，得到外观信息特征图；将所述运动信息特征图和所述外观信息特征图进行融合，得到所述动作区域位置图谱。

在本公开的一些实施例中，所述动作编码模块11，还用于将所述运动信息特征图和所述外观信息特征图进行融合，得到空间特征图；对所述空间特征图进行通道编码，得到所述动作区域位置图谱。

在本公开的一些实施例中，所述动作编码模块11，还用于对所述动作区域位置图谱进行归一化处理；将归一化处理后的动作区域位置图谱与所述特征图融合，得到所述每帧图像的所述动作主体特征向量。

在本公开的一些实施例中，所述时序关联模块12，还用于获取所述每帧图像的动作主体特征向量与相邻帧图像的动作主体特征向量之间的相关度，其中，所述相邻帧图像包括：所述视频序列中的所有帧图像或所述视频序列中与所述每帧图像相邻的预设数量帧的图像；基于所述相关度对所述相邻帧图像的动作主体特征向量进行加权；对加权后的所述相邻帧图像的主动作主体特征向量进行通道变换，得到所述每帧图像的所述动作主体时序特征向量。

在本公开的一些实施例中，所述时序关联模块12，还用于获取与所述每帧图像相邻的所述预设数量帧的图像的动作主体特征向量；对所述每帧图像的动作主体特征向量进行一维卷积处理，得到所述每帧图像的所述动作主体时序特征向量。

在本公开的一些实施例中，所述特征增强模块13，还用于依据所述动作主体时序特征向量，对所述每帧图像的所述特征图进行特征增强，得到所述每帧图像的动作增强特征图；或者，依据所述动作区域位置图谱和所述动作主体时序特征向量，对所述每帧图像的所述特征图进行特征增强，得到所述每帧图像的动作增强特征图。

在本公开的一些实施例中，所述特征增强模块13，还用于对所述动作主体时序特征向量进行空间解码，得到动作特征图；将所述每帧图像的所述特征图和所述动作特征图进行融合，得到所述每帧图像的动作增强特征图。

在本公开的一些实施例中，所述特征增强模块13，还用于依据动作区域位置图谱，对所述动作主体时序特征向量进行空间解码，得到所述动作特征图。

在本公开的一些实施例中，所述特征增强模块13，还用于对所述动作区域位置图谱进行激活，得到激活位置图谱；基于所述动作主体时序特征向量与所述激活位置图谱相乘，得到所述动作特征图。

在本公开的一些实施例中，所述特征增强模块13，还用于对所述动作区域位置图谱进行批归一化，得到归一化位置图谱；基于所述动作主体时序特征向量与所述归一化位置图谱求和，得到所述动作特征图。

本公开实施例还提供一种动作识别设备，图15为本公开实施例提供的动作识别设备的结构示意图，如图15所示，动作识别设备2包括：显示屏21、存储器22和处理器23，其中，显示屏21、存储器22和处理器23通过总线24连接；存储器22，用于存储可执行计算机程序；处理器23，用于执行存储器22中存储的可执行计算机程序时，结合显示屏21，实现本公开实施例提供的方法，例如，本公开实施例提供的动作识别方法。

本公开实施例提供一种计算机可读存储介质，存储有可执行动作识别指令，用于引起处理器23执行时，实现本公开实施例提供的方法，例如，本公开实施例提供的动作识别方法。

在本公开的一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在本公开的一些实施例中，可执行动作识别指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行动作识别指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，HyperText Markup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行动作识别指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本公开的实施例而已，并非用于限定本公开的保护范围。凡在本公开的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本公开的保护范围之内。

Claims

1.一种动作识别方法，其特征在于，包括：

对待识别的视频序列中的每帧图像的特征图进行空间编码，得到所述每帧图像的动作主体特征向量；所述动作主体特征向量是根据每帧图像的特征图中，各区域的发生动作概率确定的；

依据通过所述动作主体时序特征向量得到的动作特征图，对所述每帧图像的所述特征图进行特征增强，得到所述每帧图像的动作增强特征图；

2.根据权利要求1所述的方法，其特征在于，所述对待识别的视频序列中的每帧图像的特征图进行空间编码，得到所述每帧图像的动作主体特征向量，包括：

在所述待识别的视频序列中的所述每帧图像的特征图上定位动作区域，得到所述每帧图像的动作区域位置图谱；

依据所述动作区域位置图谱，对所述每帧图像的所述特征图进行动作区域的融合，得到所述每帧图像的动作主体特征向量。

3.根据权利要求2所述的方法，其特征在于，所述在所述待识别的视频序列中的所述每帧图像的特征图上定位动作区域，得到所述每帧图像的动作区域位置图谱，包括：

对所述待识别的视频序列中的每帧图像的特征图进行通道编码，得到所述每帧图像的通道压缩后的压缩特征图；

对所述每帧图像的压缩特征图与相邻帧图像的压缩特征图差值，进行特征编码，得到所述每帧图像的所述动作区域位置图谱。

4.根据权利要求3所述的方法，其特征在于，所述对所述每帧图像的压缩特征图与相邻帧图像的压缩特征图差值，进行特征编码，得到所述每帧图像的所述动作区域位置图谱，包括：

对所述每帧图像的相邻帧图像对应的压缩特征图，与所述每帧图像对应的压缩特征图的差值，进行卷积处理，得到运动信息特征图；

对所述每帧图像对应的压缩特征图进行卷积处理，得到外观信息特征图；将所述运动信息特征图和所述外观信息特征图进行融合，得到所述动作区域位置图谱。

5.根据权利要求4所述的方法，其特征在于，在所述对所述每帧图像对应的压缩特征图进行卷积处理，得到外观信息特征图之后，所述方法还包括：

将所述运动信息特征图和所述外观信息特征图进行融合，得到空间特征图；

对所述空间特征图进行通道编码，得到所述动作区域位置图谱。

6.根据权利要求2所述的方法，其特征在于，所述依据所述动作区域位置图谱，对所述每帧图像的所述特征图进行动作区域的融合，得到所述每帧图像的动作主体特征向量，包括：

对所述动作区域位置图谱进行归一化处理；

将归一化处理后的动作区域位置图谱与所述特征图融合，得到所述每帧图像的所述动作主体特征向量。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述对所述每帧图像的所述动作主体特征向量进行时序关联，得到所述每帧图像的动作主体时序特征向量，包括：

获取所述每帧图像的动作主体特征向量与相邻帧图像的动作主体特征向量之间的相关度，其中，所述相邻帧图像包括：所述视频序列中的所有帧图像或所述视频序列中与所述每帧图像相邻的预设数量帧的图像；

基于所述相关度对所述相邻帧图像的动作主体特征向量进行加权；

对加权后的所述相邻帧图像的动作主体特征向量进行通道变换，得到所述每帧图像的所述动作主体时序特征向量。

8.根据权利要求7所述的方法，其特征在于，所述对所述每帧图像的所述动作主体特征向量进行时序关联，得到所述每帧图像的动作主体时序特征向量，包括：

获取与所述每帧图像相邻的所述预设数量帧的图像的动作主体特征向量；

对所述每帧图像的动作主体特征向量进行一维卷积处理，得到所述每帧图像的所述动作主体时序特征向量。

9.根据权利要求1至6任一项所述的方法，其特征在于，所述依据通过所述动作主体时序特征向量得到的动作特征图，对所述每帧图像的所述特征图进行特征增强，得到所述每帧图像的动作增强特征图，包括：

对所述动作主体时序特征向量进行空间解码，得到动作特征图；

将所述每帧图像的所述特征图和所述动作特征图进行融合，得到所述每帧图像的动作增强特征图。

10.根据权利要求9所述的方法，其特征在于，所述对所述动作主体时序特征向量进行空间解码，得到动作特征图，包括：

依据动作区域位置图谱，对所述动作主体时序特征向量进行空间解码，得到所述动作特征图。

11.根据权利要求10所述的方法，其特征在于，所述依据动作区域位置图谱，对所述动作主体时序特征向量进行空间解码，得到所述动作特征图，包括：

通过激活函数，对所述动作区域位置图谱进行激活，得到激活位置图谱；

基于所述动作主体时序特征向量与所述激活位置图谱相乘，得到所述动作特征图。

12.根据权利要求10所述的方法，其特征在于，所述依据动作区域位置图谱，对所述动作主体时序特征向量进行空间解码，得到所述动作特征图，包括：

对所述动作区域位置图谱进行批归一化，得到归一化位置图谱；

基于所述动作主体时序特征向量与所述归一化位置图谱求和，得到所述动作特征图。

13.一种动作识别装置，其特征在于，包括：

动作编码模块，用于对待识别的视频序列中的每帧图像的特征图进行空间编码，得到所述每帧图像的动作主体特征向量；所述动作主体特征向量是根据每帧图像的特征图中，各区域的发生动作概率确定的；

时序关联模块，用于对所述每帧图像的所述动作主体特征向量进行时序关联，得到所述每帧图像的动作主体时序特征向量；

特征增强模块，用于依据通过所述动作主体时序特征向量得到的动作特征图，对所述每帧图像的所述特征图进行特征增强，得到所述每帧图像的动作增强特征图；

14.一种动作识别设备，其特征在于，包括：

存储器，用于存储可执行动作识别指令；

处理器，用于执行所述存储器中存储的可执行动作识别指令时，实现权利要求1至12中任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，存储有可执行动作识别指令，用于引起处理器执行时，实现权利要求1至12中任一项所述的方法。