CN111639563B

CN111639563B - 一种基于多任务的篮球视频事件与目标在线检测方法

Info

Publication number: CN111639563B
Application number: CN202010419217.1A
Authority: CN
Inventors: 华璟; 王腾
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2023-07-18
Anticipated expiration: 2040-05-18
Also published as: CN111639563A

Abstract

本发明公开了一种基于多任务的篮球视频事件与目标在线检测方法，本发明利用深度卷积神经网络共享多任务权重，能以在线或离线的方式对篮球比赛视频进行事件检测和目标检测。基于多任务的混合损失函数将各自任务的损失分别反向传播到对应的分支，加快了各自任务分支学习的速度。将两种任务得到的损失依特定权重相加得到总体损失并反向传播，使得骨干网络学习到混合两种任务的潜在特征归纳方式。半监督伪标签挖掘扩充了训练数据，有效抑制了偏离事件高潮时刻生成的低质量事件预测框和偏离目标几何中心生成的低质量包围框。时空多尺度的网络结构充分利用了多步幅的时域信息，归纳出多尺度的历史特征，有效提高了事件检测的召回率和准确率。

Description

一种基于多任务的篮球视频事件与目标在线检测方法

技术领域

本发明属于视频事件检测和视频目标检测技术领域，具体涉及一种基于多任务的篮球比赛视频事件和目标在线检测方法。

背景技术

视频理解中，视频事件和目标检测是关键技术。随着通信技术、计算机技术的高速发展和体育产业的稳步增长，业余和专业体育比赛视频数据量呈爆炸式增长。体育比赛视频作为一类包含大量事件和目标的视频资源，具有非常广泛的受众群体和巨大的研究价值，也对视频数学的精细处理、归档和共享提出了更高的要求。近年来，基于卷积神经网络的深度学习和高性能并行计算设备的进步为这一需求提供了保障。

视频目标检测是为了准确检测出视频帧中出现的目标，这在人群监控、自动驾驶等方面具有重要意义。最简单的检测方法是使用普通的图片目标检测网络对每一帧视频进行检测，但是这样缺少对帧间时域信息的利用，在实际情况中帧与帧之间容易出现包围框的抖动和分类的突变。使用3D卷积、光流图、LSTM层、多流等方式可以很好地利用帧间时域信息，但是他们带来了非常多的计算量，对计算设备提出了很高的要求。

现有的视频事件检测研究工作主要通过离线处理的方式对比赛视频进行事件检测，缺乏在直播和转播等在线处理领域的实用性。现有的视频在线事件检测方式只对单独帧进行分类，缺乏对当前事件开始和结束时刻的预测。此外，现有的视频事件检测研究与视频目标检测研究分离度较高，对同一视频存在冗余计算，且事件检测缺少对目标位置和运动信息的利用。因此，目前仍然缺乏一种同时对篮球视频中事件和目标进行高效在线检测的方法。

发明内容

针对现有技术的以上缺陷和改进需求，本发明的目的是提供一种基于多任务共享卷积神经网络底层权重、可同时对篮球视频中事件和目标进行高效在线检测的方法。

为了达到上述目的，本发明通过以下技术方案来实现：一种基于多任务的篮球视频事件与目标在线检测方法，该方法包括如下步骤：

S1：基于多尺度的特征归纳和表达的神经网络构建：

骨干网络层为Resnet网络，在骨干网络层中添加时域置换模块；所述时域置换模块添加在Resnet网络中每个残差结构的非旁路的卷积前，在当前时刻将特征图中前通道替换为上一时刻缓存中存储的值，并将当前帧在该层网络特征图的前/>通道更新到缓存中，其中m＞1；

将网络的conv3_x层、conv4_x层、conv5_x层的输出作为特征金字塔网络的输入，得到五个不同尺度的时空特征F3-F7；

将最低分辨率的两层特征图F6、F7输入事件检测头，事件检测头分为两路，均经过4层卷积层和全局平均池化层，一路输出规模为1×1×C_e，C_e为事件种类数；另一路再分为两子路，一子路输出规模为1×1×2的事件开始和结束时间偏移，另一子路输出规模为1×1×1的事件高潮打分值；

将不同尺度大小的特征图F3-F7输入目标检测头，目标检测头分为两路，均经过4层卷积层，一路输出规模为H×W×C_o，C_o为目标种类数；另一路再分为两子路，一子路输出规模为H×W×4的回归框坐标，另一子路输出规模为H×W×1的目标中心打分值，H×W为前层输出的特征图分辨率；

S2：神经网络训练：

目标检测损失包括分类损失、回归损失和半监督中心偏移损失，将这些损失依特定权重相加，得到总目标检测损失；

事件检测损失包括分类损失、回归损失和半监督高潮偏移损失，将这两种损失依特定权重相加，得到总事件检测损失；

对目标检测损失和事件检测损失进行单独计算，将各自任务的损失分别反向传播到对应的分支，加快各自任务分支学习速度；将两种任务得到的损失依特定权重相加，得到基于多任务的混合损失函数并同时反向传播，使得底层骨干网络学习到混合两种任务的潜在特征归纳方式；使用梯度下降最小化基于多任务的混合损失函数以求得最佳的网络模型参数。

S3：推理及结果处理：

使用训练好的神经网络通过多分支前向传播得到目标检测和事件检测结果；

对网络目标检测部分的输出，将目标分类得分与目标中心打分值相乘以抑制大量偏离中心的低质量回归框，得到最终的目标分类得分值，将最终得分值最高的分类作为该目标的分类；

对网络事件检测部分的输出，将事件分类得分与事件高潮打分值相乘以抑制大量偏离事件高潮的低质量回归段，得到最终的事件分类得分值，将最终得分值最高的分类作为当前帧对应的事件分类。

进一步地，添加时域置换模块后，第j层在时刻t的特征图计算公式为：

其中：F_i，t为第i层输出的时刻t的特征图，F_i，t-n为第i层输出的t-n时刻的特征图，f_conv为残差结构运算，f_concat为通道维度上的拼接操作，F_j，t为第j层得到的时刻t的输出，j为i后一层残差块的输入；

第j层在时刻t-n的特征图计算公式为：

其中：F_i，t-n为第i层输出的时刻t-n的特征图，F_i，t-2n为第i层输出的t-2n时刻的特征图，F_j，t-n为第j层得到的时刻t-n的输出；

在网络结构上展开，可得第k层输出的时刻t的特征图含有多个时间步幅信息，k为j后一层残差块的输入，第k层输出的时刻t的特征图计算方式为：

进一步地，所述得到五个不同尺度的时空特征F3-F7的过程具体为：

将Resnet网络的conv3_x层、conv4_x层、conv5_x层记为C3、C4、C5，分别对C3、C4、C5层进行卷积操作得到C3′、C4′、C5′，对C5′进行两次下采样，分别得到F6和F7，将C5′直接输出作为F5，将C5′上采样后与C4′相加，得到F4，将F4上采样后与C3′相加，得到F3，F3-F7构成金字塔特征图结构。

进一步地，对于五个不同尺度的时空特征F3-F7，将大小不同的目标分配到不同尺度大小的特征图F3-F7中进行检测，小目标主要在高分辨率的底层特征图中提取，通常为F3、F4层，大目标主要在较低分辨率的中高层特征图中提取，通常为F4-F7层，最低分辨率的两层特征图F6、F7连接事件检测头用于事件特征的表达和提取。

进一步地，对于获取的视频流，每隔n帧提取一张图像并转换为RGB色彩空间，将该图像保持纵横比重采样到短边为800像素大小并对重采样后的图片减去RGB三个通道上ImageNet的均值作为神经网络的输入。

进一步地，使用半监督伪标签挖掘方法扩充训练集，为间隔n帧标注的标签补充剩余帧的目标检测伪标签，具体为：使用SOTA的行人重识别模型提取帧内目标的特征表达，对两间隔帧内的特征向量进行多目标相似度匹配，相似度计算公式为：其中/>O_t为t时刻帧内目标的特征向量集合，O_t+n为t+n时刻帧内目标的特征向量集合，/>分别为集合中的特征向量；若cosθ_i，j≥threshold，则认为是同一人的标注框，该对匹配成功；当两间隔帧内匹配成功的目标比例P_success超过阈值T时，即认为两帧匹配成功，对成功的配对框使用线性插值方法计算无标签帧对应的框大小和位置，由此得到中间缺失帧的伪标签；若小于等于阈值T，则不进行伪标签标注；匹配成功的目标比例计算方式为：/>其中，O_success为t时刻帧和t+n时刻帧匹配成功的目标对数，O_t、O_t+n与前式意义相同。

进一步地，使用半监督伪标签挖掘方法扩充训练集，为有效抑制偏离事件高潮时刻生成的低质量事件预测框，通过计算当前时刻t在本事件开始和结束时间中相对高潮时刻的接近程度，得到高潮打分值伪标签，计算公式为：其中T_b ^*为高潮时刻距离本事件开始时刻的时长，T_l ^*为本时刻距离包含本时刻的事件开始时刻的时长，T_f ^*为高潮时刻距离本事件结束时刻的时长，T_r ^*为本时刻距离包含本时刻的事件结束时刻的时长；真实高潮时刻对应的伪标签值为1，构造得到的伪标签值大小在本事件内的时间轴上从高潮点向两边非线性递减，直至与事件开始和结束时间重合，重合点标签均为0。

进一步地，使用半监督伪标签挖掘方法扩充训练集，为有效抑制偏离目标几何中心生成的低质量预测框，计算当前位置相对本位置包含的标定框几何中心点的接近程度，得到目标中心打分值伪标签，计算公式为：其中left^*为当前位置距离标注框左侧的距离，right^*为当前位置距离标注框右侧的距离，top^*为当前位置距离标注框顶部的距离，bottom^*为当前位置距离标注框低部的距离，ε为调节值分布的参数；真实几何中心的伪标签值为1+ε，构造得到的伪标签值大小在本目标标定框内从几何中心向四周呈放射状递减，直至到达标定框上的标签为0+ε。

进一步地，目标检测损失L_object计算公式如下：

其中：N_{pos_obj}表示目标正样本数，c_x，y是坐标(x，y)处特征点预测的目标类别，是坐标(x，y)处特征点标注的实际目标类别，α、β为权重参数，b_x，y是坐标(x，y)处特征点对应的目标预测框参数，/>是坐标(x，y)处特征点对应的目标标注框参数，r_x，y是坐标(x，y)处特征点预测的目标中心打分值，/>是坐标(x，y)处特征点伪标签标注的目标中心打分值，L_cls为交叉熵分类损失函数，L_reg为GIOU损失函数，L_ctr为二元损失函数；

事件检测损失L_event计算公式如下：

其中：N_{pos_ev}表示事件正样本数，e_t是时刻t对应的帧预测的事件类别，是时刻t对应的帧标注的实际类别，γ、δ为权重参数，l_t为预测的当前时刻t距离事件开始时刻的时长，r_t为预测的当前时刻t距离事件结束时刻的时长，l^*为标注的高潮时刻距离事件开始时刻的时长，r^*为标注的高潮时刻距离事件结束时刻的时长，t^*为标注的高潮时刻，以相对整个视频开头的偏移量计，h_t是时刻t对应的帧预测的高潮打分值，/>是时刻t对应的帧伪标签标注的高潮打分值，L_cls为交叉熵分类损失函数，L_hot为二元损失函数，L_reg为检测出的事件跨度与真实标注在时间轴上的交并比，计算公式为：

总损失计算公式为：L_total＝L_object+λL_event，其中λ为权重参数。

进一步地，所述步骤S3中，对网络目标检测部分的输出，将回归框坐标的四个参数换算成常用的标定框对角两点坐标形式，不同尺度特征图中的坐标点(x，y)对应的原图坐标计算公式为：其中s为当前特征图相对原图缩小的倍数；对于回归出的预测框，使用NMS对预测框进行抑制；

对网络事件检测部分的输出，若最终的事件得分值小于阈值则进行抑制，认为当前无事件；在线处理时，连续三帧大于阈值则判定当前事件发生；离线处理时，对时间轴上重叠的事件进行去重和归并。

本发明与现有技术相比，具有以下优点：本发明方法利用深度卷积神经网络共享多任务权重，能以在线或离线的方式对篮球比赛视频进行事件检测和目标检测。基于多任务的混合损失函数将各自任务的损失分别反向传播到对应的分支，加快了各自任务分支学习的速度，提高了各自分支检测的能力。此外，将两种任务得到的损失依特定权重相加，得到总体损失并反向传播，使得底层骨干网络学习到混合了两种任务的潜在特征归纳方式。半监督伪标签挖掘扩充了训练数据，并有效抑制了偏离事件高潮时刻生成的低质量事件预测框和偏离目标几何中心生成的低质量包围框，提高了目标检测的准确性，减少了事件检测的误警率。时空多尺度的网络结构充分利用了多步幅的时域信息，归纳出多尺度的历史特征，小目标主要在高分辨率的底层特征图中提取，大目标主要在较低分辨率的中高层特征图中提取，最低分辨率的两层特征图由于归纳了全局运动信息，有效提高了事件检测的召回率和准确率。

附图说明

图1是本发明实施例基于多任务的篮球视频事件与目标在线检测方法的流程示意图；

图2是本发明实施例基于多任务的篮球视频事件与目标在线检测方法的神经网络结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

如图1所示，本申请提出的一种基于多任务的篮球视频事件与目标在线检测方法，包括如下步骤：

S1：基于多尺度的特征归纳和表达的神经网络构建，如图2所示，骨干网络层为Resnet-50网络。

S1.1为充分利用多步幅的时域信息，归纳多尺度的历史特征以提取时域信息，在骨干网络层中添加时域置换模块，增强了网络在时间维度上的学习能力，提高了目标检测的稳定度和事件检测的准确性。由于时域置换模块添加在Resnet的残差结构前或旁路(shortcut)上会破坏空域信息，所以选择在Resnet网络中每个残差结构的非旁路的卷积前添加时域置换模块，即每次将特征图中前通道替换为上次(上一时刻)缓存中存储的值，并将当前帧在该层网络特征图的前/>通道更新到缓存中，其中m大于1，第j层在时刻t的特征图计算公式为：

其中：F_i，t为第i层输出的时刻t的特征图，F_i，t-n为第i层输出的t-n时刻的特征图，f_conv为残差结构运算，f_concat为通道维度上的拼接操作，F_j，t为第j层得到的时刻t的输出，j为i后一层残差块的输入。类似的，在时间上展开，可求得第j层在时刻t-n的特征图，计算公式为：

其中：F_i，t-n为第i层输出的时刻t-n的特征图，F_i，t-2n为第i层输出的t-2n时刻的特征图，F_j，t-n为第j层得到的时刻t-n的输出。

因此，在网络结构上展开，可得第k层输出的时刻t的特征图含有多个时间步幅信息，k为j后一层残差块的输入，第k层输出的时刻t的特征图计算方式为：

S1.2将Resnet网络的conv3_x阶段层、conv4_x阶段层、conv5_x阶段层分别记为C3、C4、C5，为充分利用多尺度的空域信息，将C3、C4、C5层进行特征融合，融合方法为分别对C3、C4、C5层进行卷积操作(对C3、C4、C5层的输出应用1×1卷积)，得到C3′、C4′、C5′，对C5′进行两次下采样，分别得到F6和F7，将C5′直接输出作为F5，将C5′上采样后与C4′相加，得到F4，将F4上采样后与C3′相加，得到F3，F3计算方式为：F3＝f_up(f_up(C5′)+C4′)+C3′；其中f_up为上采样方法，F4、F5、F6、F7不再赘述。F3-F7构成金字塔特征图结构，该金字塔特征图有利于多个尺度特征的表达。

将大小不同的目标分配到不同尺度大小的特征图中进行检测，小目标主要在高分辨率的底层特征图中提取(通常为F3、F4层)，大目标主要在较低分辨率的中高层特征图中提取(通常为F4-F7层)，最低分辨率的两层特征图F6、F7由于归纳了全局运动信息，具有潜在的高层次语义，连接事件检测头用于事件特征的表达和提取。

S1.3使用事件检测头和目标检测头得到多任务的输出。

事件检测头的输入为经过若干层卷积的特征图F6、F7，事件检测头分为两路，均经过4层卷积层和全局平均池化层，一路输出规模为1×1×C_e，C_e为事件种类数；另一路再分为两子路，一子路输出规模为1×1×2的事件开始和结束时间偏移，另一子路输出规模为1×1×1的事件高潮打分值。全局平均池化层使得网络可以适应不同分辨率的视频输入，对不同分辨率视频具有很好的鲁棒性，计算公式为：为事件分类输出的特征图，/>为事件分类未处理前的特征图，H×W为前层输出的特征图分辨率，C_e为前层输出的特征图通道数，即事件类别数，同理/>为事件高潮打分值输出的特征图，/>为事件开始和结束回归预测输出的时刻偏移。

目标检测头的输入为经过若干层卷积的特征图F3、F4、F5、F6、F7，目标检测头也分为两路，均经过4层卷积，一路输出规模为H×W×C_o，C_o为目标种类数；另一路再分为两子路，一子路输出规模为H×W×4的回归框坐标，另一子路输出规模为H×W×1的目标中心打分值，H×W为前层输出的特征图分辨率。

S2：神经网络训练

对于获取到的视频流，每隔n帧提取一张图像并转换为RGB色彩空间，将该图像保持纵横比重采样到短边为800像素大小并对重采样后的图片减去RGB三个通道上ImageNet的均值作为神经网络的输入。以网络输入800×1024大小的帧为例，网络的C3、C4、C5输出层大小分别为100×128，50×64，25×32，通道数分别为512、1024、2048。将C3、C4、C5层的输出作为FPN网络即特征金字塔网络的输入并融合下采样和上采样，骨干网络得到5个不同尺度的时空特征F3-F7，大小分别为100×128，50×64，25×32，13×16，7×8。使用半监督伪标签挖掘方法扩充训练的输入数据，并使用Adam优化器梯度下降最小化基于多任务的混合损失函数。

S2.1半监督伪标签挖掘扩充训练集

为有效增广训练数据，为原本间隔n帧标注的标签补充剩余帧的目标检测伪标签。使用SOTA的行人重识别(ReID)模型提取帧内目标的特征表达，每个目标得到4096维向量，对两间隔帧内的特征向量进行多目标相似度匹配，相似度计算公式为：其中/>O_t为t时刻帧内目标的特征向量集合，O_t+n为t+n时刻帧内目标的特征向量集合，/>分别为集合中的特征向量。若cosθ_i，j≥threshold，则认为是同一人的标注框，该对匹配成功。当两间隔帧内匹配成功的目标比例P_success超过阈值T时，即认为两帧匹配成功，对成功的配对框使用线性插值方法计算无标签帧对应的框大小和位置，由此得到中间缺失帧的伪标签；若小于等于阈值T，则不进行伪标签标注。匹配成功的目标比例计算方式为：/>其中，O_success为t时刻帧和t+n时刻帧匹配成功的目标对数，0_t、O_t+n与前式意义相同。

同时，为有效抑制偏离事件高潮时刻生成的低质量事件预测框，通过计算当前时刻t在本事件开始和结束时间中相对高潮时刻的接近程度，得到高潮打分值伪标签，伪标签计算公式为：其中T_b ^*为高潮时刻距离本事件开始时刻的时长，T_l ^*为本时刻距离包含本时刻的事件开始时刻的时长，T_f ^*为高潮时刻距离本事件结束时刻的时长，T_r ^*为本时刻距离包含本时刻的事件结束时刻的时长，根号运算使hotness标签衰减先缓后陡，总体上减少了半监督的惩罚。因此，真实高潮时刻对应的伪标签值为1，构造得到的伪标签值大小在本事件内的时间轴上从高潮点向两边非线性递减，直至与事件开始和结束时间重合，重合点标签均为0，有效抑制了偏离事件高潮时刻生成的低质量事件预测。

为有效抑制偏离目标几何中心生成的低质量预测框，计算当前位置相对本位置包含的标定框几何中心点的接近程度，得到位置打分值(即目标中心打分值)伪标签，计算公式为：其中left^*为当前位置距离标注框左侧的距离，right^*为当前位置距离标注框右侧的距离，top^*为当前位置距离标注框顶部的距离，bottom^*为当前位置距离标注框低部的距离，ε为调节值分布的参数。因此，真实几何中心的伪标签值为1+ε，构造得到的伪标签值大小在本目标标定框内从几何中心向四周呈放射状递减，直至到达标定框上的标签为0+ε，有效抑制了偏离目标几何中心生成的低质量预测框。

S2.2最小化基于多任务的混合损失函数

目标检测损失L_object包括分类损失、回归损失和半监督中心偏移损失，将这些损失依特定权重相加，得到总目标检测损失。事件检测损失L_event包括分类损失、回归损失和半监督高潮偏移损失，将这两种损失依特定权重相加，得到总事件检测损失。

对目标检测损失和事件检测损失进行单独计算，将各自任务的损失分别反向传播到对应的分支，加快了各自任务分支学习的速度，提高了各自分支检测的能力。此外，将两种任务得到的损失依特定权重相加，得到总体损失并同时反向传播，使得底层骨干网络学习到混合了两种任务的潜在特征归纳方式。

目标检测损失L_object计算公式如下：

其中：N_{pos_obj}表示目标正样本数，c_x，y是坐标(x，y)处特征点预测的目标类别，是坐标(x，y)处特征点标注的实际目标类别，α、β为权重参数，b_x，y是坐标(x，y)处特征点对应的目标预测框参数，/>是坐标(x，y)处特征点对应的目标标注框参数，r_x，y是坐标(x，y)处特征点预测的目标中心打分值，/>是坐标(x，y)处特征点伪标签标注的目标中心打分值，L_cls为交叉熵分类损失函数，L_reg为GIOU损失函数，L_ctr为二元损失函数。

事件检测损失L_event计算公式如下：

其中：N_{pos_ev}表示事件正样本数，e_t是时刻t对应的帧预测的事件类别，是时刻t对应的帧标注的实际类别，γ、δ为权重参数，l_t为预测的当前时刻t距离事件开始时刻的时长，r_t为预测的当前时刻t距离事件结束时刻的时长，l^*为标注的高潮时刻距离事件开始时刻的时长，r^*为标注的高潮时刻距离事件结束时刻的时长，t^*为标注的高潮时刻，以相对整个视频开头的偏移量计，h_t是时刻t对应的帧预测的高潮打分值，/>是时刻t对应的帧伪标签标注的高潮打分值，L_cls为交叉熵分类损失函数，L_hot为二元损失函数，L_reg为检测出的事件跨度与真实标注在时间轴上的交并比，计算公式定义为：

综上，总损失计算公式为：L_total＝L_object+λ_Levent，其中λ为权重参数，L_object为上述目标检测损失，L_event为上述事件检测损失。

训练时使用梯度下降最小化基于多任务的混合损失函数L_total以求得最佳的网络模型参数。

S3：推理及结果处理

使用训练好的神经网络通过多分支前向传播得到目标检测和事件检测结果。

对网络目标检测部分的输出，将物体分类得分与中心打分值centerness相乘以抑制大量偏离中心的低质量回归框，得到最终的目标分类得分值，将最终得分值最高的分类作为该目标的分类。将回归框坐标的四个参数换算成常用的标定框对角两点坐标形式。不同尺度特征图中的坐标点(x，y)对应的原图坐标计算公式为：其中s为当前特征图相对原图缩小的倍数。对于回归出的预测框，使用NMS对预测框进行抑制。

对网络事件检测部分的输出，将事件分类得分与事件高潮打分值hotness相乘以抑制大量偏离事件高潮的低质量回归段，得到最终的事件分类得分值，将最终得分值最高的分类作为当前帧对应的事件分类。若最终得分值小于阈值，则进行抑制，认为当前无事件。在线处理时，连续三帧大于阈值则判定当前事件发生。离线处理时，对时间轴上重叠的事件进行去重和归并。

以上所述仅是本发明优选的实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明构思的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明所保护范围内。

Claims

1.一种基于多任务的篮球视频事件与目标在线检测方法，其特征在于，包括如下步骤：

S1：基于多尺度的特征归纳和表达的神经网络构建：

骨干网络层为Resnet网络，在骨干网络层中添加时域置换模块；所述时域置换模块添加在Resnet网络中每个残差结构的非旁路的卷积前，在当前时刻将特征图中前通道替换为上一时刻缓存中存储的值，并将当前帧在网络特征图的前/>通道更新到缓存中，其中m＞1；

将最低分辨率的两层特征图F6、F7输入事件检测头，事件检测头分为两路，均经过4层卷积层和全局平均池化层，一路输出规模为1×1_e，C_r为事件种类数；另一路再分为两子路，一子路输出规模为1×1×2的事件开始和结束时间偏移，另一子路输出规模为1×1×1的事件高潮打分值；

将不同尺度大小的特征图F3-F7输入目标检测头，目标检测头分为两路，均经过4层卷积层，一路输出规模为H×W_o，C_o为目标种类数；另一路再分为两子路，一子路输出规模为H×W×4的回归框坐标，另一子路输出规模为H×W×1的目标中心打分值，HW为前层输出的特征图分辨率；

S2：神经网络训练：

对目标检测损失和事件检测损失进行单独计算，将各自任务的损失分别反向传播到对应的分支，加快各自任务分支学习速度；将两种任务得到的损失依特定权重相加，得到基于多任务的混合损失函数并同时反向传播，使得底层骨干网络学习到混合两种任务的潜在特征归纳方式；使用梯度下降最小化基于多任务的混合损失函数以求得最佳的网络模型参数；

S3：推理及结果处理：

2.根据权利要求1所述的一种基于多任务的篮球视频事件与目标在线检测方法，其特征在于，添加时域置换模块后，第j层在时刻t的特征图计算公式为：

其中：F_i,t为第i层输出的时刻t的特征图，F_i,t-n为第i层输出的t-n时刻的特征图，f_conv为残差结构运算，f_concat为通道维度上的拼接操作，F_j,t为第j层得到的时刻t的输出，j为i后一层残差块的输入；

第j层在时刻t-n的特征图计算公式为：

其中：F_i,t-n为第i层输出的时刻t-n的特征图，F_i,t-2n为第i层输出的t-2n时刻的特征图，F_j,t-n为第j层得到的时刻t-n的输出；

3.根据权利要求1所述的一种基于多任务的篮球视频事件与目标在线检测方法，其特征在于，所述得到五个不同尺度的时空特征F3-F7的过程具体为：

4.根据权利要求1所述的一种基于多任务的篮球视频事件与目标在线检测方法，其特征在于，对于五个不同尺度的时空特征F3-F7，将大小不同的目标分配到不同尺度大小的特征图F3-F7中进行检测，小目标主要在高分辨率的底层特征图中提取，通常为F3、F4层，大目标主要在较低分辨率的中高层特征图中提取，通常为F4-F7层，最低分辨率的两层特征图F6、F7连接事件检测头用于事件特征的表达和提取。

5.根据权利要求1所述的一种基于多任务的篮球视频事件与目标在线检测方法，其特征在于，对于获取的视频流，每隔n帧提取一张图像并转换为RGB色彩空间，将该图像保持纵横比重采样到短边为800像素大小并对重采样后的图片减去RGB三个通道上ImageNet的均值作为神经网络的输入。

6.根据权利要求1所述的一种基于多任务的篮球视频事件与目标在线检测方法，其特征在于，使用半监督伪标签挖掘方法扩充训练集，为间隔n帧标注的标签补充剩余帧的目标检测伪标签，具体为：使用SOTA的行人重识别模型提取帧内目标的特征表达，对两间隔帧内的特征向量进行多目标相似度匹配，相似度计算公式为：其中/>O_t+n，O_t为t时刻帧内目标的特征向量集合，O_t+n为t+n时刻帧内目标的特征向量集合，/> 分别为集合中的特征向量；若cosθ_i,j≥threshold，则认为是同一人的标注框，该对匹配成功；当两间隔帧内匹配成功的目标比例P_success超过阈值T时，即认为两帧匹配成功，对成功的配对框使用线性插值方法计算无标签帧对应的框大小和位置，由此得到中间缺失帧的伪标签；若小于等于阈值T，则不进行伪标签标注；匹配成功的目标比例计算方式为：/>其中，O_success为t时刻帧和t+n时刻帧匹配成功的目标对数，O_t、O_t+n与前式意义相同。

7.根据权利要求1所述的一种基于多任务的篮球视频事件与目标在线检测方法，其特征在于，使用半监督伪标签挖掘方法扩充训练集，为有效抑制偏离事件高潮时刻生成的低质量事件预测框，通过计算当前时刻t在本事件开始和结束时间中相对高潮时刻的接近程度，得到高潮打分值伪标签，计算公式为：其中T_b ^*为高潮时刻距离本事件开始时刻的时长，T_l ^*为本时刻距离包含本时刻的事件开始时刻的时长，T_f ^*为高潮时刻距离本事件结束时刻的时长，T_r ^*为本时刻距离包含本时刻的事件结束时刻的时长；真实高潮时刻对应的伪标签值为1，构造得到的伪标签值大小在本事件内的时间轴上从高潮点向两边非线性递减，直至与事件开始和结束时间重合，重合点标签均为0。

8.根据权利要求1所述的一种基于多任务的篮球视频事件与目标在线检测方法，其特征在于，使用半监督伪标签挖掘方法扩充训练集，为有效抑制偏离目标几何中心生成的低质量预测框，计算当前位置相对本位置包含的标定框几何中心点的接近程度，得到目标中心打分值伪标签，计算公式为：其中left^*为当前位置距离标注框左侧的距离，right^*为当前位置距离标注框右侧的距离，top^*为当前位置距离标注框顶部的距离，bottom^*为当前位置距离标注框低部的距离，ε为调节值分布的参数；真实几何中心的伪标签值为1，构造得到的伪标签值大小在本目标标定框内从几何中心向四周呈放射状递减，直至到达标定框上的标签为0。

9.根据权利要求1所述的一种基于多任务的篮球视频事件与目标在线检测方法，其特征在于，目标检测损失L_object计算公式如下：

其中：N_{pos_obj}表示目标正样本数，c_x,y是坐标(x,y)处特征点预测的目标类别，是坐标(x,y)处特征点标注的实际目标类别，α、β为权重参数，b_x,y是坐标(x,y)处特征点对应的目标预测框参数，/>是坐标(x,y)处特征点对应的目标标注框参数，r_x,y是坐标(x,y)处特征点预测的目标中心打分值，/>是坐标(x,y)处特征点伪标签标注的目标中心打分值，L_cls为交叉熵分类损失函数，L_reg为GIOU损失函数，L_ctr为二元损失函数；

事件检测损失L_event计算公式如下：

其中：N_{pos_ev}表示事件正样本数，e_t是时刻t对应的帧预测的事件类别，是时刻t对应的帧标注的实际类别，γ、δ为权重参数，l_t为预测的当前时刻t距离事件开始时刻的时长，_t为预测的当前时刻t距离事件结束时刻的时长，l^*为标注的高潮时刻距离事件开始时刻的时长，r^*为标注的高潮时刻距离事件结束时刻的时长，^*为标注的高潮时刻，以相对整个视频开头的偏移量计，h_t是时刻t对应的帧预测的高潮打分值，/>是时刻t对应的帧伪标签标注的高潮打分值，L_cls为交叉熵分类损失函数，L_hot为二元损失函数，L_reg为检测出的事件跨度与真实标注在时间轴上的交并比，计算公式为：

10.根据权利要求1所述的一种基于多任务的篮球视频事件与目标在线检测方法，其特征在于，所述步骤S3中，对网络目标检测部分的输出，将回归框坐标的四个参数换算成常用的标定框对角两点坐标形式，不同尺度特征图中的坐标点(x,y)对应的原图坐标计算公式为：其中s为当前特征图相对原图缩小的倍数；对于回归出的预测框，使用NMS对预测框进行抑制；