CN111401174B

CN111401174B - 一种基于多模态信息融合的排球群体行为识别方法

Info

Publication number: CN111401174B
Application number: CN202010154331.6A
Authority: CN
Inventors: 毋立芳; 付亨; 简萌; 徐得中; 袁元
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-03-07
Filing date: 2020-03-07
Publication date: 2023-09-22
Anticipated expiration: 2040-03-07
Also published as: CN111401174A

Abstract

一种基于多模态信息融合的排球群体行为识别方法应用于计算机视觉群体行为识别领域。由于在体育分析，自动视频监控系统，人机交互应用，视频推荐系统等方面的广泛应用，群体行为识别任务备受关注。对于多人场景中的群体行为识别，目标之间以及目标和运动模式之间的关系建模能够提供有判别力的视觉线索。本发明旨在利用将图像目标间的关系以及运动模式作为多模态信息引入，然后利用序列模型GRU对这些信息进行有效编码和全局推理。最后，基于注意力机制，从时域角度整合了推断模块的得到的信息并获取最终结果。该方法实现了针对排球数据集中的群体行为识别，并通过测试验证了方法可行性，具有重要应用价值。

Description

一种基于多模态信息融合的排球群体行为识别方法

技术领域

本发明应用于计算机视觉群体行为识别领域，具体涉及光流特征提取，表观特征提取、循环神经网络、注意力机制等数字图像处理与深度学习技术。该方法以排球广播体育视频作为输入图像，通过深度模型提取目标图像的表观特征、运动模式特征和关系特征，然后使用循环神经网络以及注意力机制进行特征融合，汇总多模态信息结果后实现了多人群体的行为识别任务。

背景技术

群体行为识别是一个综合性的分析任务，在体育智能分析，自动视频监控，人机交互应用，视频推荐系统等方面应用广泛，因此备受关注。为了使计算机智能地理解多人场景中发生的行为，所设计的模型不仅需要描述每个目标在情景中的个体行为，还需要推断他们的群体行为。其中如何准确捕捉人物之间相应的关系并执行关系推断的能力对于理解多人群体行为至关重要。然而，对人物之间的关系进行建模是一个很有挑战性的任务，因为我们通常只关注个体行为和群体行为，而没有充分利用潜在的交互信息。因此我们期望从表观特征和相对位置以及运动模式信息推断参与目标人员之间的关系。因此，当我们为群体行为理解设计有效的深度模型时，需要整合这些重要线索执行推断。

发明内容

为了实现排球群体行为识别的功能，提出了一种基于多模态信息融合的群体行为识别方案，方法流程如图1所示。该方法以排球比赛视频图像作为输入，各模块对视频图像完成特征提取和特征分析，最终输出系统所识别出的排球群体性为类别。具体来说，该方法首先根据群体行为的标签，选取排球比赛广播视频序列中关键帧前后的部分图像，其图像素材均来自于“Volleyball”公开数据集；然后根据目标图像中各个体的位置标注信息，通过使用已训练的深度卷积神经网络模型提取各目标个体(球员)的表观特征，其中个体位置的标注信息也由该数据集提供；接着使用光流提取网络模型对相邻两帧的图像进行光流提取获得光流图，在对光流图进行量化处理后将其送入训练好的深度网络，获得图像场景的运动模式表达特征；随后对各目标个体的矩形框坐标提取的几何信息，基于各目标的几何信息和表观特征使用注意力机制对关系特征进行建模和表达；之后使用循环神经网络序列模型GRU对多模态信息进行有效编码和全局推理，将上述特征融合；最后基于注意力机制，从时域角度整合了推断模块的得到的信息并获取最终识别结果。本方法总体框架如图2所示，主要设计应用了以下几个模块：表观特征提取模块、关系特征提取模块、运动模式特征提取模块、全局推理模块和时域融合模块。通过这些模块的协同处理，提取出视频图像中所包含的多种模态有效信息并有效结合，从而实现了排球比赛群体行为识别的功能。

本方法各主要模块的发明内容如下：

1.表观特征提取模块

第一个模块是表观特征提取模块，这一模块的功能是提取图像中各目标个体的表观特征作为一种多模态信息。这一模块根据目标图像中各个体的位置标注信息，通过使用已训练的深度卷积神经网络模型提取各目标个体(球员)的表观特征。图像表观特征是基于卷积神经网络对图像RGB信息分布抽象提取而成的用于表达图像语义信息的特征。作为多模态信息的重要组成部分，表观特征在识别群体行为中发挥着重要作用。

首先使用已训练的深度卷积神经网络模型从排球视频图像中提取全图特征，然后应用Mask-RCNN算法模型中的RoI-Align机制处理每个参与目标个体(actor)的候选框(bounding box)与全图特征的对应关系，从而完成各目标个体的特征提取。之后，使用全连接层对特征进行向量对齐，通过全连接层以获得每个目标个体的D维表观特征向量。例如，在视频某一帧中目标个体数为N，则本方法中使用N×D维度(N为目标的数量，D为关系特征大小)的矩阵来表示所有目标的特征向量。该模块流程框架如图3所示。

2.关系特征提取模块

第二个模块是关系特征提取模块，这一模块的功能是提取图像中各目标个体的关系特征作为新模态的信息。首先使用边界框目标回归(bounding box regression target)公式对图像中各目标矩形框的几何坐标提取几何信息特征，然后对所提取的几何位置信息使用Relation Network算法模型中的关系建模方法对几何信息以及表观信息进行关系建模和特征表达。目标间关系特征基于目标间的大小关系以及几何位置关系，通过一系列非线性变换以及注意力机制提取出特征。其作为多模态信息的重要组成部分，关系特征通过嵌入表观特征的方法起到了特征加强作用。

为了构建目标之间的关系表达，这一部分在Relation Network算法模型中对于关系特征表达的基础上进行了修改。首先基于边界框目标回归公式将图像中任意两个目标间的几何特征嵌入到K维度(K为高维空间维度系数)的高维空间进行表达，其中目标个体的几何位置标注由公开数据集“Volleyball”提供。之后将维度为K的高维几何信息与表观特征信息结合，通过权重训练的操作执行了一系列非线性变换。非线性操作限制了具有一定几何关系的物体关系，具体变换过程如具体实施方式所示。最后，与表观特征提取模块相似，每两个目标之间的关系表达被输出成为N×D维度(N为目标的数量，D为关系特征大小)的特征矩阵。该模块流程框架如图4所示。

3.运动模式特征提取模块

第三个模块是运动模式特征提取模块，这一模块的功能是提取出图像的运动模式特征作为一种新模态的信息。将目标图像的光流量化图送入训练好的残差网络分类模型，所得特征为对整个图像场景的运动模式进行特征表达。图像运动模式特征是基于图像时序变化而抽象提取出的特征，用于表达目标图像的运动信息以及目标之间的运动关系，也是多模态信息的重要组成部分。

首先，使用光流提取网络PWC-NET对选取的相邻视频图像进行光流图提取，得到用于表达图像运动的光流图像。然后，对光流图进行量化处理，将其用于像素运动程度的数值映射到范围0-255的颜色空间，获得量化光流图。最后，将量化光流图送入训练好的深度分类模型，获得图像场景的运动模式表达特征.最终输出维度为N×D的特征向量。该模块流程如图5所示。

4.全局推理模块

第四个模块是全局推理模块，其功能是将上述模块所提取的多模态特征信息整合。将多模态信息送入已训练完成的循环神经网络序列模型GRU，实现对这些信息的有效编码和全局推理，将目标个体表观特征、关系特征以及图像运动模式特征进行融合。

为了融合多种特征使其便于理解群体行为，我们引入了GRU模型面向成对的关系信息进行建模。GRU作为一个有效的记忆单元可以记住长时信息，GRU Cell可以选择忽略与当前运动表达不相关的目标状态的某些部分，或者使用多模态信息来增强目标状态的某些部分。

本方法中提出一组特征融合模块Optical flow-GRU(简称Opt-GRU)和Relation-GRU，用来编码不同的特征来传递消息，从而实现语义信息全局推理的功能。首先，汇总多模态信息，将各种特征信息表观特征fa、关系特征fr和运动模式特征fopt在N通道上进行竖向拼接变形，以符合GRU的输入格式。然后，使用表观特征fa作为两个GRU的隐藏单元输入以用于关系推理，并分别对Relation-GRU和Opt-GRU输入关系特征提取模块和运动模式特征提取模块所各自输出的多模态特征信息fr和fopt，使用平均池化操作融合两个GRU所输出的特征向量。最后，还需要一次最大值池化操作，得到聚合整理的帧级别(frame-level)的全局信息特征。使得视频中每一帧图像得到维度为D的全局推理特征。该模块具体流程如图6所示。

5.时域融合模块

第五个模块是时域融合模块，其功能是以时域的角度对视频各帧特征进行融合。该模块通过注意力机制的算法，从时域角度整合了全局推理模块所得到的信息，并输出最终识别结果

根据上述模块得到了视频中某一帧的多模态特征，然而对于一段时序视频而言，时域信息也非常重要。由于视频中的每一帧在时域中对整个事件的贡献是不同的，因此在本发明中利用帧的语义信息，将帧级别(frame-level)的特征进一步整合时域信息来形成序列级别(sequential-level)的特征。

在上述模块中，将选取好的部分排球视频图像以此送入，分别提取其表观特征、关系特征以及运动模式特征，在全局推理模块中使用GRU模型可以获得全局推理特征。对于一个排球群体性为，视频中每一帧均可由此获得帧级别的全局特征。本发明将同一群体事件下所得到的全部全局特征输入到注意力层(attention layer)，这里我们遵循的self-Attention的参数设置，将帧级别(frame-level)的特征降维融合成序列级别(sequential-level)的特征。最后，将融合特征送入训练好的分类网络层(Softmax Layer)中，最终输出排球群体行为识别的结果。该模块流程如图7所示。

通过上述各模块的有效搭配，共同完成了排球比赛视频的群体行为识别任务。将选取好的排球比赛视频图像及其个体标注框作为输入，表观特征提取模块对其进行个体特征提取，输出每张图像每个个体的表观特征；关系特征提取模块以个体表观特征和个体矩形框作为输入，输出用于表现个体间交互关系的关系特征；运动模式特征提取模块以视频图像作为输入，输出用于表现图像全局运动状态的运动模式特征；之后通过全局推理模块和时域融合模块依次对个体表观特征、关系特征以及运动模式特征进行特征融合，结合融合后的特征进行分析，最终输出排球群体行为识别的结果。

附图说明

图1为排球群体行为识别方案流程；

图2为排球群体行为识别方案总体框架；

图3为表观特征提取模块框架；

图4为关系特征提取模块框架；

图5为运动模式特征提取模块框架；

图6为全局推理模块框架；

图7为时域融合模块框架；

图8为排球群体行为视频帧标注示例；

图9为排球比赛视频RGB原图及其光流图示例；

图10为排球群体行为分类结果示例图。

具体实施方式

讲述各个模块的模型是怎么训练得来的

本发明提出了一种基于多模态信息融合的排球群体行为识别方法。基于“Volleyball”数据集所提供的标注，其群体事件可分为以下8个类别：左侧一传(l_pass)、左侧二传(l_set)、左侧扣球(l_spike)、左侧得分(l_winpoint)、右侧一传(r_pass)、右侧二传(r_set)、右侧扣球(r_spike)、右侧得分(r_winpoint)。

该发明的具体实施步骤如下：

1.表观特征提取模块

表观特征作为识别群体行为的多模态特征之一，是重要的组成部分。本发明使用resnet-50残差网络模型作为该模块的骨干网络，配合使用roi-align方法来处理不同位置的目标。

在Volleyball数据集中，每个视频序列由21张有球员位置标注的比赛视频帧组成，数据集中提供每个球员目标的矩形框标注，在训练网络模型的时候只采用关键帧之前的5帧以及之后的4帧，共计十帧图像。使其作为一个排球群体性为事件的源识别图像。

在训练提取表观特征的深度网络过程中，选用了resnet-50作为骨干网络，保证特征提取有效性的同时也减小了计算开销。骨干网络对目标图像提取了多尺度特征后使用roi-align的处理算法来整合不同目标个体(actor)的位置坐标信息，使模型在这里分别得到各球员的表观特征。最后使用最大值池化的方法整合各目标个体(actor)的特征，将整合后的特征使用softmax层进行分类。在训练过程中，骨干网络的emb_features参数设置为2048，表观特征尺寸设置为1024；

用于训练的数据参照volleyball官方给定的训练、验证、测试集进行划分，共训练200轮，学习率设置为0.00001，

在提取特征的过程中，对应个别图像帧中actor数目不一致的现象，设计了补齐的方法，用于提取维度相同的表观特征。即在目标个数少于N的图像中，在Volleyball数据集中N为12，使用已有目标中长边最大的候选框按顺序依次复制补齐。然后使用训练好的模型对其进行特征提取，并离线保存。最终实现了每张图片中12*1024维度的表观特征提取。

2.关系特征提取模块

关系特征用于表示目标个体(actor)之间的关系，作为加强表观特征的一种多模态信息。为了构建actor-actor之间的关系表达，这一部分基于表示关系的基础网络模型“Relation Network”进行了改进。

在Volleyball数据集中，每一帧图像中包括每个球员目标(actor)的位置坐标信息，以此通过表观特征提取模块获得了各个球员的表观特征f_A。在本模块中，通过边界框目标回归公式(bounding box regression target)将坐标信息转化为高位空间表达，定义其作几何特征f_G。原始标注为每个目标个体(actor)的4维矩形框(bounding box)信息，将其通过下面的公式(1)嵌入到64维度的高维空间下，用于表示目标框之间的几何信息。假设有N个目标，表示对于第i个与第j个目标之间的几何关系表示为：

f_G表示几何特征，x，y，w，h分别表示矩形框的左上角横纵坐标以及矩形框的宽和高。公式中的脚标i和j表示目标的编号。

对于排球事件视频中的每一帧，得到N个目标个体(actor)的表观特征f_A几何特征f_G。全部目标个体(actor)的关系特征f_R(i)的计算如下：

公式(2)中的关系特征f_R是目标个体(actor)表观特征的加权和，表示第j个目标的表观特征，通过权重W_V进行线性变换，该权重通过与后续模块共同训练学习求得。关系权重w^ij来表示来自i和j目标间的影响，表达如下：

公式(3)中外观权重由公式(4)计算所得，几何权重/>由公式(5)计算所得，而和/>的计算方式与公式(4)(5)一致，角标中i、j、k表示来自第i、第j、第k个的目标，k代表几何特征的大小，/>此处表示第j个目标对于k维度内的归一化。

公式(4)中W_k和W_q分别是映射表观特征和/>到子空间的权重矩阵，该权重通过与后续模块共同训练学习求得。公式中⊙表示按位乘法(element-wise)运算,即向量的对应位相乘。d_k代表投影后的特征尺寸。公式(5)中，函数/>表示公式(1)的计算过程，f_g代表矩形框的四维坐标，W_G表示学习权重，该权重通过与后续模块共同训练学习求得。

综上所述，先将2个目标个体(actor)间的几何特征嵌入到64维空间进行高维表达，表示为N*N*K维度的几何特征f_G(N为actor的数量，K为几何特征大小)。嵌入的特征通过W_G转换到标量权重，然后执行一个非线性操作。非线性操作限制了具有一定几何关系的物体之间的关系。最后，每个actor的关系表达被整形成为D维度大小的关系特征f_R。N设置为12，K设置为64，d_k设置为64，D设置为1024。得到12*1024的关系特征表达。

其中，几何特征f_G根据目标框数值提前进行提取，保存成离线文件便于后续计算，提取几何特征f_R中需要训练的参数W_V、W_G、W_k和W_q部分同全局推理模块和时域融合模块共同进行训练所得，不做单独参数训练。

3.运动模式特征提取模块

运动模式特征是用于加强表观特征的另一种重要多模态信息。排球比赛视频原图以及光流图对应示例由图9所示。

在这一模块中首先利用在UCF101数据集上预训练好的光流提取网络PWC-Net对排球视频提取对应的光流图，并保存输出结果。输出光流图像需要选用相邻两帧来计算获得，使用关键帧前后共10帧图像用于识别，相应地需要在第10帧后额外补充一帧以获得相同数量的光流图，以便于后续计算。根据对输出光流图的观察和统计，将其运动信息数值以[-20，20]为规定范围进行过滤，位于该范围以外的运动信息分别量化为-20和20，从而达到滤除噪声信息的目的。然后将[-20,20]范围内的数值进行等比例缩放，映射至[0，255]的颜色表达空间中，计算过程如公式4所示。其中V_o为光流图所对应的运动信息，O_min代表光流信息的取值最小值，为-20，O_max代表光流信息的取值最大值，为20，N取值为256。

之后将量化后的光流图送入卷积神经网络resnet50，并配合softmax分类网络，以行为识别为分类结果对模型进行训练。不同于传统三通道RGB图像，量化后的光流图像为两通道，所以对于其中第一层卷积层需将卷积核通道参数将3修改为2，以适配光流图的输入。然后配合使用adam优化器进行分类训练。之后针对每个目标个体(actor)，将这些全局运动模式特征逐一进行局部提取，得到分类模型并保存输出的特征。最终实现提取1024维度大小的运动模式特征，得到12*1024维度的特征向量。该特征在后续模块中用于目标间运动关系全局推断。

4.全局推理模块

这一模块是针对上述所获得的个体级别(actor-level)的特征进行特征融合，以获得帧级别(frame-level)的特征。对于每个目标节点，交互的关键是对来自于运动表达以及其它节点的信息传递进行编码。使用GRU作这一模块的核心部件。

GRU单元有两个重要组成部分，重置门(reset)和更新门(update)，其公式表达如下：

r＝σ(U_r·concat(x,h_t)) (6)

z＝σ(U_z·concat(x,h_t)) (7)

其中σ是sigmoid激活函数，concat表示两个向量的拼接操作，U_r和U_z是可学习的权重矩阵，该权重通过与后续模块共同训练学习求得。。h_t是之前的隐藏层状态。输入x和h_t有相同的维度。采用的激活单元(activation unit)h_t+1表达如下：

其中tanh是激活函数，U_x和V分别表示输入和上一时刻隐层到待选状态的连接权重矩阵，该权重通过与后续模块共同训练学习求得。⊙表示按位乘法(element-wise)，即向量的对应位相乘。在上述表达中，记忆单元(cell)允许隐藏状态通过重置门移除任何后来发现与输入无关的信息。另一方面，记忆单元能够控制来自于以前状态传递到当前隐藏状态的信息的数量，从而允许通过更新门进行更有效的表达。

提出了Optical flow-GRU(简称opt-GRU)和Relation-GRU，用来编码上述的两种特征来传递消息。Opt-GRU把作为节点的目标个体(actor)表观特征fa作为初始隐藏状态，并且将目标个体(actor)的运动模式特征作为输入；Relation-GRU也使用表观特征f_A作为初始隐藏状态，且将目标个体(actor)的关系模态特征作为输入；

得到了特征的综合表达h_t+1。在这一部分，使用了average-pooling的方法进行融合：

其中是opt-GRU的输出，/>表示relation-GRU的输出。h_t+1为融合了两个GRU输出信息的整合向量。最后，还需要一次最大值池化操作，得到聚合整理的帧级别(frame-level)的全局信息特征。使得视频中每一帧图像得到维度为1024的全局推理特征。

其中，提取综合表达特征h_t+1中需要训练的参数U_r、U_z、U_x和V部分同关系特征提取模块和时域融合模块共同进行训练所得，不做单独参数训练。

5.时域融合模块

首先给定一组帧特征作为节点(node)特征，h＝{h₁,h₂…h_n}，其中n是节点的数量。为了获得足够的表达能力将输入特征转换为高级特征h′，需要一种可进行参数训练的线性转换。使用权重矩阵W的共享线性变换应用于每个节点：

a_i＝softmax(tanh(Wh_i)) (11)

其中，a_i代表注意力分布系数，W代表学习权重，该权重通过训练学习求得。h_i代表节点特征，tanh是激活函数，softmax代表归一化指数函数。h′代表输出的高级特征。

之后应用softmax分类网络进行最终分类。整个模型的分类利用标准交叉熵损失函数(cross-entropy loss)完成训练，最终实现排球群体行为的识别任务。

对关系特征提取模块、全局推理模块和时域融合模块进行共同建模训练，使用排球群体行为标签作为监督进行权重参数学习。训练过程使用adam优化器，训练设置100轮，学习率设置为0.001。在本方法的参数设置中，模型于第45轮训练时可以收敛取得93％的最佳识别准确率。

Claims

1.一种基于多模态信息融合的排球群体行为识别方法，其特征在于，设计应用了以下几个模块：表观特征提取模块、关系特征提取模块、运动模式特征提取模块、全局推理模块和时域融合模块；

将选取好的排球比赛视频图像及其个体标注框作为输入，表观特征提取模块对其进行个体特征提取，输出每张图像每个个体的表观特征；关系特征提取模块以个体表观特征和个体矩形框作为输入，输出用于表现个体间交互关系的关系特征；运动模式特征提取模块以视频图像作为输入，输出用于表现图像全局运动状态的运动模式特征；之后通过全局推理模块和时域融合模块依次对个体表观特征、关系特征以及运动模式特征进行特征融合，结合融合后的特征进行分析，最终输出排球群体行为识别的结果；

各模块的内容如下：

1).表观特征提取模块

第一个模块是表观特征提取模块，提取图像中各目标个体的表观特征作为一种多模态信息；这一模块根据目标图像中各个体的位置标注信息，通过使用已训练的深度卷积神经网络模型提取各目标个体即球员的表观特征；个体表观特征是基于卷积神经网络对图像RGB信息分布抽象提取而成的用于表达图像语义信息的特征；

首先使用已训练的深度卷积神经网络模型从排球视频图像中提取全图特征，然后应用Mask-RCNN算法模型中的RoI-Align机制处理每个参与目标actor的候选框boundingbox与全图特征的对应关系，从而完成各目标个体的特征提取；之后，使用全连接层对特征进行向量对齐，通过全连接层以获得每个目标个体的D维表观特征向量；

在视频某一帧中目标个体数为N，则使用N×D维度的矩阵来表示所有目标的特征向量；其中N为目标的数量，D为关系特征大小；

2).关系特征提取模块

第二个模块是关系特征提取模块，提取图像中各目标个体的关系特征作为新模态的信息；首先使用边界框目标回归bounding box regression target公式对图像中各目标矩形框的几何坐标提取几何信息特征，然后对所提取的几何位置信息使用Relation Network算法模型中的关系建模方法对几何信息以及表观信息进行关系建模和特征表达；目标间关系特征基于目标间的大小关系以及几何位置关系，通过一系列非线性变换以及注意力机制提取出特征；

首先基于边界框目标回归公式将图像中任意两个目标间的几何特征嵌入到K维度的高维空间进行表达，其中目标个体的几何位置标注由公开数据集“Volleyball”提供；之后将高维表达的几何信息与表观特征信息结合，通过权重训练的操作执行了一系列非线性变换；每两个目标之间的关系表达被输出成为D维度的特征向量；

3).运动模式特征提取模块

第三个模块是运动模式特征提取模块，提取出图像的运动模式特征作为一种新模态的信息；将目标图像的光流量化图送入训练好的残差网络分类模型，所得特征是对整个图像场景的运动模式进行表达的特征向量；

首先，使用光流提取网络PWC-NET对选取的相邻视频图像进行光流图提取，得到用于表达图像运动的光流图像；然后，对光流图进行量化处理，将其用于表示像素运动程度的数值映射到范围0-255的颜色空间，获得量化光流图；最后，将量化光流图送入训练好的深度分类模型，获得图像场景的运动模式表达特征.最终每张图像输出维度为D的特征向量；

4).全局推理模块

第四个模块是全局推理模块，其功能是将上述模块所提取的多模态特征信息整合；将多模态信息送入已训练完成的循环神经网络序列模型GRU，实现对这些信息的有效编码和全局推理，将个体表观特征、关系特征以及图像运动模式特征进行融合；

提出一组特征融合模块Opticalflow-GRU简称Opt-GRU和Relation-GRU，用来编码不同的特征来传递消息，从而实现语义信息全局推理的功能；首先，汇总多模态信息，将表观特征f_A、关系特征f_R和运动模式特征f_O进行竖向拼接变形，以符合GRU的输入格式；然后，使用表观特征f_A作为两个GRU模块的隐藏单元输入以用于关系推理，并分别对Relation-GRU和Opt-GRU输入关系特征提取模块和运动模式特征提取模块所各自输出的多模态特征信息，使用平均池化操作融合两个GRU所输出的特征向量；最后，还需要一次最大值池化操作，得到聚合整理的帧级别frame-level的全局信息特征；使得视频中每一帧图像得到维度为D的全局推理特征；

5).时域融合模块

第五个模块是时域融合模块，以时域的角度对视频各帧特征进行融合；该模块通过注意力机制的算法，从时域角度整合了全局推理模块所得到的信息，并输出最终识别结果

将选取好的部分排球视频图像依次送入，分别提取其表观特征、关系特征以及运动模式特征，在全局推理模块中使用GRU模型获得全局推理特征；对于一个排球群体行为，视频中每一帧均可由此获得帧级别的全局特征；将同一群体事件下所得到的全部全局特征输入到注意力层attentionlayer，这里遵循的self-attention的参数设置，将帧级别frame-level的特征降维融合成序列级别sequential-level的特征；最后，将融合特征送入训练好的分类网络层Softmax Layer中，最终输出排球群体行为识别的结果。

2.根据权利要求1所述的方法，其特征在于，具体实施步骤如下：

基于“Volleyball”数据集所提供的标注，其群体事件分为以下8个类别：左侧一传l_pass、左侧二传l_set、左侧扣球l_spike、左侧得分l_winpoint、右侧一传r_pass、右侧二传r_set、右侧扣球r_spike、右侧得分r_winpoint；

1).表观特征提取模块

在Volleyball数据集中，每个视频序列由21张有球员位置标注的比赛视频帧组成，数据集中提供每个球员目标的矩形框标注，在训练网络模型的时候只采用关键帧之前的5帧以及之后的4帧，共计十帧图像；使其作为一个排球群体行为事件的源识别图像；

在训练提取表观特征的深度网络过程中，选用了resnet-50作为骨干网络，保证特征提取有效性的同时也减小了计算开销；骨干网络对目标图像提取了多尺度特征后使用roi-align的处理算法来整合不同目标个体的位置坐标信息，使模型在这里分别得到各球员的表观特征；最后使用最大值池化的方法整合各目标个体的特征，将整合后的特征使用softmax层进行分类；在训练过程中，骨干网络的emb_features参数设置为2048，表观特征尺寸设置为1024；

用于训练的数据参照volleyball官方给定的训练、验证、测试集进行划分，共训练200轮，学习率设置为0.00001；

在提取特征的过程中，对应个别图像帧中actor数目不一致的现象，设计了补齐的方法，用于提取维度相同的表观特征；即在目标个数少于N的图像中，在Volleyball数据集中N为12，使用已有目标中长边最大的候选框按顺序依次复制补齐；然后使用训练好的模型对其进行特征提取，并离线保存；实现了每张图片中12*1024维度的表观特征提取；

2).关系特征提取模块

在Volleyball数据集中，每一帧图像中包括每个球员目标actor的位置坐标信息，以此通过表观特征提取模块获得了各个球员的表观特征f_A；在本模块中，通过边界框目标回归公式bounding box regression target将坐标信息转化为高位空间表达，定义其作几何特征f_G；原始标注为每个目标个体的4维矩形框bounding box信息，将其通过下面的公式(1)嵌入到64维度的高维空间下，用于表示目标框之间的几何信息；假设有N个目标，表示对于第i个与第j个目标之间的几何关系表示为：

f_G表示几何特征，x，y，w，h分别表示矩形框的左上角横纵坐标以及矩形框的宽和高；公式中的脚标i和j表示目标的编号；

对于排球事件视频中的每一帧，得到N个目标个体的表观特征f_A几何特征f_G；全部目标个体的关系特征f_R(i)的计算如下：

公式(2)中的关系特征f_R是目标个体表观特征的加权和，表示第j个目标的表观特征，通过权重W_V进行线性变换，该权重通过与后续模块共同训练学习求得；关系权重w^ij来表示来自i和j目标间的影响，表达如下：

公式(3)中外观权重由公式(4)计算所得，几何权重/>由公式(5)计算所得，而/>和/>的计算方式与公式(4)(5)一致，角标中i、j、k表示来自第i、第j、第k个的目标，k代表几何特征的大小，/>此处表示第j个目标对于k维度内的归一化；

公式(4)中W_k和W_q分别是映射表观特征和/>到子空间的权重矩阵，该权重通过与后续模块共同训练学习求得；公式中⊙表示按位乘法element-wise运算,即向量的对应位相乘；d_k代表投影后的特征尺寸；公式(5)中，函数/>表示公式(1)的计算过程，f_g代表矩形框的四维坐标，W_G表示学习权重，该权重通过与后续模块共同训练学习求得；

综上所述，先将2个目标个体间的几何特征嵌入到64维空间进行高维表达，表示为N*N*K维度的几何特征f_G,N为actor的数量，K为几何特征大小；嵌入的特征通过W_G转换到标量权重，然后执行一个非线性操作；非线性操作限制了具有一定几何关系的物体之间的关系；最后，每个actor的关系表达被整形成为D维度大小的关系特征f_R；N设置为12，K设置为64，d_k设置为64，D设置为1024；得到12*1024的关系特征表达；

其中，几何特征f_G根据目标框数值提前进行提取，保存成离线文件便于后续计算，提取几何特征f_R中需要训练的参数W_V、W_G、W_k和W_q部分同全局推理模块和时域融合模块共同进行训练所得，不做单独参数训练；

3).运动模式特征提取模块

在这一模块中首先利用在UCF101数据集上预训练好的光流提取网络PWC-Net对排球视频提取对应的光流图，并保存输出结果；输出光流图像需要选用相邻两帧来计算获得，使用关键帧前后共10帧图像用于识别，相应地需要在第10帧后额外补充一帧以获得相同数量的光流图，以便于后续计算；根据对输出光流图的观察和统计，将其运动信息数值以[-20，20]为规定范围进行过滤，位于该范围以外的运动信息分别量化为-20和20，从而达到滤除噪声信息的目的；然后将[-20,20]范围内的数值进行等比例缩放，映射至[0，255]的颜色表达空间中，计算过程如公式(4)所示；其中V_o为光流图所对应的运动信息，O_min代表光流信息的取值最小值，为-20，O_max代表光流信息的取值最大值，为20，N取值为256；

之后将量化后的光流图送入卷积神经网络resnet50，并配合softmax分类网络，以行为识别为分类结果对模型进行训练；不同于传统三通道RGB图像，量化后的光流图像为两通道，所以对于其中第一层卷积层需将卷积核通道参数将3修改为2，以适配光流图的输入；然后配合使用adam优化器进行分类训练；之后针对每个目标个体，将这些全局运动模式特征逐一进行局部提取，得到分类模型并保存输出的特征；最终实现提取1024维度大小的运动模式特征，得到12*1024维度的特征向量；该特征在后续模块中用于目标间运动关系全局推断；

4).全局推理模块

这一模块是针对上述所获得的个体级别actor-level的特征进行特征融合，以获得帧级别frame-level的特征；对于每个目标节点，交互的关键是对来自于运动表达以及其它节点的信息传递进行编码；使用GRU作这一模块的核心部件；

GRU单元有两个重要组成部分，重置门reset和更新门update，其公式表达如下：

r＝σ(U_r·concat(x，h_t)) (6)

z＝σ(U_z·concat(x，h_t)) (7)

其中σ是sigmoid激活函数，concat表示两个向量的拼接操作，U_r和U_z是可学习的权重矩阵，该权重通过与后续模块共同训练学习求得；h_t是之前的隐藏层状态；输入x和h_t有相同的维度；采用的激活单元activation unith_t+1表达如下：

其中tanh是激活函数，U_x和V分别表示输入和上一时刻隐层到待选状态的连接权重矩阵，该权重通过与后续模块共同训练学习求得；⊙表示按位乘法element-wise，即向量的对应位相乘；在上述表达中，记忆单元cell允许隐藏状态通过重置门移除任何后来发现与输入无关的信息；另一方面，记忆单元能够控制来自于以前状态传递到当前隐藏状态的信息的数量，从而允许通过更新门进行更有效的表达；

提出了Opticalflow-GRU简称opt-GRU和Relation-GRU，用来编码上述的两种特征来传递消息；Opt-GRU把作为节点的目标个体表观特征fa作为初始隐藏状态，并且将目标个体的运动模式特征作为输入；Relation-GRU也使用表观特征f_A作为初始隐藏状态，且将目标个体的关系模态特征作为输入；

得到了特征的综合表达h_t+1；在这一部分，使用了average-pooling的方法进行融合：

其中是opt-GRU的输出，/>表示relation-GRU的输出；h_t+1为融合了两个GRU输出信息的整合向量；最后，还需要一次最大值池化操作，得到聚合整理的帧级别frame-level的全局信息特征；使得视频中每一帧图像得到维度为1024的全局推理特征；

其中，提取综合表达特征h_t+1中需要训练的参数U_r、U_z、U_x和C部分同关系特征提取模块和时域融合模块共同进行训练所得，不做单独参数训练；

5).时域融合模块

首先给定一组帧特征作为节点node特征，h＝{h₁，h₂…h_n}，其中n是节点的数量；为了获得足够的表达能力将输入特征转换为高级特征h′，需要一种可进行参数训练的线性转换；使用权重矩阵W的共享线性变换应用于每个节点：

a_i＝soffmax(tanh(Wh_i)) (11)

其中，a_i代表注意力分布系数，W代表学习权重，该权重通过训练学习求得；h_i代表节点特征，tanh是激活函数，softmax代表归一化指数函数；h′代表输出的高级特征；

之后应用softmax分类网络进行最终分类；整个模型的分类利用标准交叉熵损失函数cross-entropy loss完成训练，最终实现排球群体行为的识别任务；

对关系特征提取模块、全局推理模块和时域融合模块进行共同建模训练，使用排球群体行为标签作为监督进行权重参数学习。