CN111898703B

CN111898703B - 多标签视频分类方法、模型训练方法、装置及介质

Info

Publication number: CN111898703B
Application number: CN202010820972.0A
Authority: CN
Inventors: 王子愉; 姜文浩; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2023-11-10
Anticipated expiration: 2040-08-14
Also published as: CN111898703A

Abstract

本申请提供一种多标签视频分类方法、模型训练方法、装置及介质，涉及人工智能技术领域，该模型训练方法用于减少训练视频分类模型过程中的计算量。该分类视频模型包括特征构造模块和分类模块，特征构造模块的参数矩阵的秩和分类模块的参数矩阵的秩均小于样本每个样本视频帧的样本特征向量的维度，利用特征构造模块确定样本特征矩阵中与视频标签分类相关的特征，获得第一特征矩阵；利用各视频标签对应的分类模块确定第一特征矩阵与视频标签的相关度，获得属于各视频标签的概率；调整特征构造模块的参数矩阵，和每个视频标签对应的分类模块的参数矩阵，直至各视频标签对应的视频分类模型收敛，获得各视频标签的已训练的视频分类模型。

Description

多标签视频分类方法、模型训练方法、装置及介质

技术领域

本申请涉及计算机技术领域，尤其涉及人工智能技术领域，提供一种多标签视频分类方法、模型训练方法、装置及介质。

背景技术

为了便于用户查找自己想要观看的视频，目前大多数视频播放平台都会为各视频进行分类，比如按照视频标签库中的视频标签对视频进行分类。

目前，对视频分类的方法是提取视频的双线性池化特征，通过网络对双线性池化特征进行分类，获得视频对应的视频标签，但视频的双线性池化特征较多，导致训练网络过程中的计算量较大。

发明内容

本申请实施例提供一种多标签视频分类方法、模型训练方法、装置及介质，用于减少训练视频分类模型过程中的计算量。

一方面，提供了一种多标签视频分类模型训练方法，应用于训练每个视频标签对应的视频分类模型，每个视频标签对应的视频分类模型包括特征构造模块和分类模块，所述方法包括：

提取样本视频的样本特征矩阵；其中，所述样本视频标注了所属的真实视频标签，所述样本特征矩阵包括所述样本视频的多个样本视频帧中各样本视频帧的样本特征向量，所述特征构造模块的参数矩阵的秩和所述分类模块的参数矩阵的秩均小于样本视频帧的样本特征的维度；

通过所述特征构造模块，确定所述样本特征矩阵中与视频标签分类相关的特征，获得第一特征矩阵；

分别通过每个视频标签对应的分类模块，确定所述第一特征矩阵与视频标签的相关度，获得所述样本视频属于每个视频标签的概率；

根据所述样本视频属于每个视频标签的概率，以及所述样本视频所属的真实视频标签，调整所述特征构造模块的参数矩阵，以及每个视频标签对应的分类模块的参数矩阵，直至所述每个视频标签对应的视频分类模型收敛，获得每个视频标签对应的已训练的视频分类模型。

又一方面，提供一种多标签视频分类方法，包括：

提取待处理视频的目标特征矩阵；其中，所述目标特征矩阵包括所述待处理视频的多个目标视频帧中各目标视频帧的目标特征向量；

通过特征构造模块，确定所述目标特征矩阵中与视频标签分类相关的特征，获得第四特征矩阵；

分别通过每个视频标签对应视频标签分类模型中的分类模块，获得所述第四特征矩阵与视频标签的相关度，获得所述待处理视频属于每个视频标签的概率；其中，每个视频标签对应的视频分类模型包括所述特征构造模块和视频标签对应的分类模块，所述特征构造模块的参数矩阵的秩和分类模块的参数矩阵的秩均小于所述目标视频帧的目标特征向量的维度；

根据所述待处理视频属于每个视频标签的概率，确定所述待处理视频所属的视频标签。

在本申请实施例，提供一种多标签视频分类模型训练装置，所述装置用于训练每个视频标签对应的视频分类识别模型，每个视频标签对应的视频分类识别模型包括特征构造模块和分类模块，所述装置包括：

提取单元，用于提取样本视频的样本特征矩阵；其中，所述样本视频标注了所属的真实视频标签，所述样本特征矩阵包括所述样本视频的多个样本视频帧中各样本视频帧的样本特征向量，所述特征构造模块的参数矩阵的秩和所述分类模块的参数矩阵的秩均小于所述样本视频帧的样本特征向量的维度；

确定单元，用于通过所述特征构造模块，确定所述样本特征矩阵中与视频标签分类相关的特征，获得第一特征矩阵；

获得单元，用于分别通过每个视频标签对应的分类模块，确定所述第一特征矩阵与视频标签的相关度，获得所述样本视频属于每个视频标签的概率；

调整单元，用于根据所述样本视频属于每个视频标签的概率，以及所述视频所属的真实视频标签，调整所述特征构造模块的参数矩阵，以及每个视频标签对应的分类模块的参数矩阵，直至所述每个视频标签对应的视频分类识别模型收敛，获得每个视频标签对应的已训练的视频分类模型。

在一种可能的实施例中，所述确定模块具体用于：

利用所述特征构造模块，确定所述样本特征矩阵的转置中与视频标签分类相关的特征，获得第二特征矩阵；

根据所述第二特征矩阵，提取所述样本特征矩阵中的特征，获得第一特征矩阵。

在一种可能的实施例中，所述确定模块具体用于：

对所述第二特征矩阵进行稀疏处理；

根据稀疏处理后的矩阵，提取所述样本特征矩阵中的特征，获得第一特征矩阵。

在一种可能的实施例中，所述获得单元具体用于：

分别通过每个视频标签对应的分类模块，提取所述第一特征矩阵中各特征与对应的视频标签的相关度，获得每个视频标签对应的第三特征矩阵；

分别确定每个视频标签对应的第三特征矩阵的迹，并将每个第三特征矩阵的迹确定为所述样本视频属于对应的视频标签的概率。

在一种可能的实施例中，所述调整模块具体用于：

根据每个视频标签的概率与所述样本视频所属的真实视频标签之间的误差，确定每个视频标签对应的分类损失；

对所有视频标签对应的分类损失进行加权求和，获得视频分类的总损失；

根据所述总损失，调整所述特征构造模块，以及每个视频标签对应的分类模块，直至所述总损失满足目标损失，获得每个视频标签对应的已训练的视频分类模型。

在一种可能的实施例中，所述提取单元具体用于：

获得所述样本视频的多个样本视频帧中每个样本视频帧的样本特征向量；

排列提取出的多个样本特征向量，获得样本特征矩阵。

在本申请实施例中，提供一种多标签视频分类装置，该装置包括：

提取单元，用于提取待处理视频的目标特征矩阵；其中，所述目标特征矩阵包括所述待处理视频的多个目标视频帧中各目标视频帧的目标特征向量；

第一确定单元，用于通过特征构造模块，确定所述目标特征矩阵中与视频标签分类相关的特征，获得第四特征矩阵；

获得单元，用于分别通过每个视频标签对应视频标签分类模型中的分类模块，获得所述第四特征矩阵与视频标签的相关度，获得所述待处理视频属于每个视频标签的概率；其中，每个视频标签对应的视频分类模型包括所述特征构造模块和视频标签对应的分类模块，所述特征构造模块的参数矩阵的秩和分类模块的参数矩阵的秩均小于所述目标视频帧的目标特征向量的维度；

第二确定单元，用于根据所述待处理视频属于每个视频标签的概率，确定所述待处理视频所属的视频标签。

在一种可能的实施例中，所述第一确定单元具体用于：

利用所述特征构造模块，确定所述目标特征矩阵的转置中与视频标签分类相关的特征，获得第五特征矩阵；

根据所述第五特征矩阵，提取所述目标特征矩阵中的特征，获得第四特征矩阵。

在一种可能的实施例中，所述第一确定单元具体用于：

对所述第五特征矩阵进行稀疏处理；

根据稀疏处理后的矩阵，提取所述目标特征矩阵中的特征，获得第四特征矩阵。

在一种可能的实施例中，所述获得单元具体用于：

分别通过每个视频标签对应的分类模块，提取所述第四特征矩阵中各特征与视频标签对应的相关度，获得每个视频标签对应的第六特征矩阵；

分别确定每个视频标签对应的第六特征矩阵的迹，并将每个第六特征矩阵的迹确定为所述样本视频属于对应的视频标签的概率。

在一种可能的实施例中，所述第二确定单元具体用于：

将满足概率阈值的视频标签确定为所述待处理视频的视频标签。

在一种可能的实施例中，所述提取单元具体用于：

获得所述目标视频的多个目标视频帧中每个目标视频帧的目标特征向量；

排列提取出的多个目标特征向量，获得所述待处理视频的目标特征矩阵。

本申请实施例提供一种计算机设备，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现如一方面或又一方面中任一项所述的方法。

本申请实施例提供一种存储介质，所述存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如一方面或又一方面中任一项所述的方法。

由于本申请实施例采用上述技术方案，至少具有如下技术效果：

本申请实施例中涉及的视频分类模型包括特征构造模块和分类模块，特征构造模块和分类模块的参数矩阵的秩均小于样本视频帧的样本特征的维度，从而减少训练视频分类模型的计算量。且，多个视频标签可共享特征构造模块的模型参数，因此在训练每个视频标签对应的视频分类模型时，只需针对每个视频标签训练其对应的分类模块的参数矩阵即可，进一步地减少训练过程中的计算量。且，由于训练模型过程中的计算量减少，进而可以提高模型训练的效率。

附图说明

图1为相关技术提供的一种训练视频分类模型的过程示例图；

图2为本申请实施例提供的一种视频分类系统的架构示意图；

图3为本申请实施例提供的一种训练设备的结构示意图；

图4为本申请实施例提供的一种多标签视频分类方法的应用场景图；

图5为本申请实施例提供的一种视频的特征的示例图；

图6为本申请实施例提供的一种多标签视频分类模型训练方法的流程图；

图7为本申请实施例提供的一种多标签视频分类方法的流程图；

图8为本申请实施例提供的一种待处理视频的视频帧的示例图；

图9为本申请实施例提供的一种多标签视频分类模型训练装置的结构图；

图10为本申请实施例提供的一种多标签视频分类装置的结构图；

图11为本申请实施例提供的一种计算机设备的结构图。

具体实施方式

为了更好的理解本申请实施例提供的技术方案，下面将结合说明书附图以及具体的实施方式进行详细的说明。

为了便于本领域技术人员更好地理解本申请的技术方案，下面对本申请涉及的名词进行介绍。

人工智能(Artificial Intelligence,AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。本申请实施例涉及到训练神经网络以及使用神经网络的内容，具体将在下文中进行介绍。

卷积神经网络(Convolutional Neural Networks，CNN)：是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器，卷积过程可以看作是使用一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是：图像的某一部分的统计信息与其他部分是一样的。即在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置，都能使用同样的学习得到的图像信息。在同一卷积层中，可以使用多个卷积核来提取不同的图像信息，一般地，卷积核数量越多，卷积操作反映的图像信息越丰富。卷积核可以以随机大小的矩阵的形式初始化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

损失函数：在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高，就调整权重向量让它预测低一些，不断的调整，直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objectivefunction)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

视频：本申请中的视频泛指各类视频文件，包括但不限于短视频。

视频标签：对视频进行场景、对象、语音、文字等一种或多种维度进行分析识别，确定视频所属的分类标签。视频标签可通过文字、数字或其它形式中的一种或多种进行表示。一个视频的视频标签包括一个或多个。

维度：是指某组数据的尺寸大小，比如向量的维度或矩阵的尺寸。向量的维数例如向量A{a1,a2…an}，那么向量A的维数为n。

尺寸：是指矩阵的大小，比如矩阵M为m行n列的矩阵，那么M的尺寸可以表示为m*n。

低秩近似：是指将矩阵分解为多个矩阵的乘积，且分解后的矩阵的秩小于分解前的矩阵的秩。

例如，矩阵S∈R^M*N，S的低秩近似可以表示为S＝UV，U∈R^M*L，V∈R^M*L，将矩阵S分解为矩阵U和矩阵V的乘积，由于L远小于N和M，因此用矩阵U和矩阵V的乘积来近似矩阵W，从而有效地减少了计算量。

对于模型的参数矩阵而言，参数矩阵中两个线性相关的向量可以理解为这两组参数映射的隐藏特征及其相近，因此本申请实施例中引入低秩近似的思想，以其中的一组参数进行替换，即对该参数矩阵进行分解，从而降低计算量。

视频分类：本申请是指确定视频所属的视频标签，实质上属于一个多分类任务，即需要确定视频属于多个视频标签中各视频标签的概率。而确定视频属于每个视频标签的概率视为一个二分类任务。

矩阵的秩：矩阵的秩是极大无关组中所含向量的个数。在线性代数中，一个矩阵A的列秩是A的线性独立的纵列的极大数，通常表示为r(A)、rk(A)或rank A。在线性代数中，一个矩阵A的列秩是A的线性独立的纵列的极大数目。行秩是A的线性无关的横行的极大数目。一个矩阵的秩即为矩阵的行秩、或矩阵的列秩。

矩阵的迹：是指矩阵中对角线上的元素的和，且矩阵进行相似变换，并不影响矩阵的迹。

请参照图1，为一种相关技术中对视频分类模型训练的过程示例图，该过程包括：获得样本视频中各样本视频帧110，通过CNN120提取各样本视频帧110的特征130，对各样本视频帧的特征130进行特征聚合140，得到样本视频的全局特征150，并利用样本视频的全局特征150，预测样本视频所属的视频标签160，基于该预测结果以及样本视频真实所属的视频标签，调整视频分类模型的模型参数。

相关技术中的视频分类模型通常包括CNN、全连接层和激活层等。例如，样本视频包括n个视频帧，通过CNN后输出n个特征向量，将n个特征向量进行组合，输入到全连接层和激活层来进行分类。由于n的取值较大，对应的视频分类模型的各层结构的参数矩阵的维度较大，导致相关技术中训练视频分类模型，以及后续使用视频分类模型对视频进行分类的过程中的计算量都较大。

鉴于此，本申请实施例提供一种多标签视频分类模型训练方法，该训练方法训练出的视频分类模型适用于对任何视频进行分类。该训练方法中涉及的视频分类模型包括特征构造模块和分类模块，特征构造模块和分类模块的参数矩阵的秩均小于样本视频帧的样本特征的维度，从而减少训练视频分类模型的计算量。且，该方法中多个视频标签可共享特征构造模块的模型参数，因此在训练每个视频标签对应的视频分类模型时，只需针对每个视频标签训练其对应的分类模块的参数矩阵即可，从而进一步地减少训练过程中的计算量。

基于上述设计思想，下面对本申请实施例涉及的应用场景进行介绍：

本申请实施例提供的多标签视频分类模型训练方法通过训练设备执行，请参照图2，为执行本申请实施例中的训练设备的部署示意图，或理解为视频分类系统的架构图，该视频分类系统中包括训练设备210、分类设备220和数据库230。

数据库230中存储有样本视频和视频标签库，视频标签库是指各视频标签的集合。训练设备210从数据库230获取样本视频和视频标签库，并通过本申请实施例涉及的多标签视频分类模型训练方法，训练获得每个视频标签对应的视频分类模型。其中涉及的多标签视频分类模型训练方法将在下文中介绍。

训练设备210获得每个视频标签对应的视频分类模型后，将每个视频标签对应的视频分类模型的配置文件存储至数据库230中。其中，配置文件包括每个视频标签对应的视频分类模型的模型参数等。

分类设备220可以从数据库230获得每个视频标签对应的视频分类模型的配置文件，并利用每个视频标签对应的视频分类模型对视频进行分类，其中涉及的视频分类过程将在下文中介绍。

其中，训练设备210和分类设备220为同一个设备，或为不同的设备。训练设备210和分类设备220均通过终端实现，或可通过服务器实现。终端例如手机、个人计算机等。服务器例如虚拟服务器或实体服务器，服务器可以为一个服务器或服务器集群等。另外，数据库230可以设置在训练设备210中，或相对于训练设备210独立存在。

请参照图3，训练设备210包括一个或多个输入设备310、一个或多个处理器320、一个或多个存储器330和一个或多个输出设备340。

输入设备310用于提供输入接口，以获取或采集外界设备/用户输入的样本视频。在获得样本视频之后，输入设备310将该样本视频发送给处理器320，处理器320利用存储器330中存储的程序指令，利用样本视频，训练视频分类模型。通过输出设备340输出已训练的视频分类模型，还可通过输出设备340进一步显示是视频分类模型的配置文件。

其中，输入设备310可以包括但不限于物理键盘、功能键、轨迹球、鼠标、触摸屏、操作杆等中的一种或多种。处理器320可以是一个中央处理单元(central processing unit，CPU)、数字处理单元、或图像处理器等。存储器330例如易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器330例如非易失性存储器(non-volatile memory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard diskdrive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器330是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器330可以是上述存储器的组合。除此之外，存储器330还可以包括显存，该显存可用于存储需要进行处理的视频或图像等。输出设备340例如显示器、扬声器和打印机等等。

在一种可能的应用场景中，请参照图4，表示一种多标签视频分类模型训练方法的应用场景，该场景中训练设备210和分类设备220均通过服务器420实现，在服务器420利用样本视频训练得到视频分类模型。

用户可以通过终端410中的客户端411上传视频，客户端411将视频发送给服务器420，服务器420在接收视频后，存储视频，并利用已训练的视频分类模型对视频进行分类，得到视频的视频标签。服务器420并将视频标签反馈给客户端411，客户端411根据显示该视频的视频标签。客户端411泛指各种能够上传或发布视频的客户端，例如社交类客户端、支付类客户端等。客户端411包括但不限于预装在终端410中的客户端、网页版的客户端、或嵌入在第三方客户端中的客户端等。

应当说明的是，上述应用场景是对本申请实施例涉及的场景进行示例说明，但本申请实施例能够适用的应用场景并不限于此。

基于上述应用场景，下面对本申请实施例涉及的构建视频分类模型的思路进行介绍。

第一部分，构建视频分类任务的表达式：

从视频中选择多个视频帧，提取每个视频帧的特征向量，获得视频的特征矩阵表示为：

X＝[x₁,x₂,x₃…x_L]∈R^N*L (1)

其中，x_L表示第L个视频帧的特征，x_L的特征向量的维度为N*1，也就是说，每个视频帧的特征向量的维度为N。

视频分类

任务中视频帧的排列顺序对分类结果影响不大，因此可利用上述特征向量的转置，构建视频的二阶或高阶特征，具体该视频的特征可以表示为：

其中，M的尺寸为N*N。视频分类模型输出的该视频属于第c个视频标签的概率为：

S_c＝tr{MQ^(c)}，Q^(c)∈R^N*N (3)

其中，tr{}表示确定{}中矩阵的迹，Q^(c)表示尺寸为N*N的参数矩阵。上式(3)可理解为视频分类任务的表达式。

第二部分，对视频分类任务涉及的参数矩阵进行分解：

由于N*N即为前文M对应的尺寸，由于N的取值较大，因此，需要减少Q^(c)中的参数量，本申请实施例中利用低秩近似对Q^(c)进行参数缩减，具体如下：

其中，k为小于N的数。

由于P^(c)的尺寸和W^(c)的尺寸均小于Q^(c)，对应的P^(c)的秩和W^(c)的秩均小于N，小于前述的每个特征向量x_L的维度，当利用P^(c)和W^(c)对特征向量进行处理时，能相对降低训练或模型使用过程中的计算量。本申请实施例中，对参数矩阵Q^(c)进行分解后，参数矩阵的维度从N*N缩减到了N*(2k)，可以降低训练或使用视频分类模型过程中的计算量。

对于不同的视频标签，一般是P^(c)和W^(c)均不同，但这样会需要分别针对不同视频标签训练P^(c)和W^(c)，为了进一步减少计算量，在本申请实施例中采用各视频标签统一的矩阵P代替P^(c)，得到第c个视频标签的预测概率为：

通过公式(5)得到的X^TP中仍存在无用特征，无用特征是指对视频标签分类无关的特征，无用特征可能是不影响视频标签分类，也可能是由于该矩阵中已存在与该无用特征相类似的特征。因此为了减少矩阵中的无用特征，进一步减少计算量，本申请实施例中对X^TP进行稀疏处理，去除X^TP中的无用特征。

例如，可以采用ReLU激活函数对X^TP进行处理，ReLU激活函数可以对矩阵进行非线性变换，去除该矩阵中的无用特征。

其中，X^TP得到的结果可以理解为计算X的每一列与P的每一列之间的相关度，此相关度在后面会作为权值对X进行加权求和，相关度为负的项可理解表示在后续加权求和不需要使用，可以进一步理解为与视频分类无关的项，因此可采用ReLU激活函数将矩阵中为负的项变成0，从而相当于去除了中的无用信息。

对上式(5)中的X^TP进行ReLU激活函数处理后，视频分类模型的表达式进一步表示为：

其中，XRelu(X^TP)可以视为视频的低秩双线性特征，由于X^T的尺寸为L*N，P的尺寸为N*k，因此X^TP的矩阵尺寸为L*k。其中，XRelu(X^TP)可以表示为如图5所示的示意图，从图5中可以看出XRelu(X^TP)的尺寸为N*k，其尺寸相较于公式(2)所示的特征矩阵的尺寸更小。

其中，公式(5)和公式(6)可以表示为本申请实施例中的视频分类模型的两种示例。

为了便于描述视频分类模型，本申请实施例中按照视频分类模型中各个参数矩阵的功能，将该视频分类模型划分为特征构造模块和分类模块，一方面，特征构造模块的参数矩阵和分类模块的参数矩阵的尺寸相较于参数矩阵Q^(c)已减少，另一方面，特征构造模块还能构造出视频的低秩双线性特征，不仅能进一步降低计算量，还能保证模型输出的视频分类结果更准确，该特征构造模块输出的特征经过分类模块后，输出视频的分类。

其中，特征构造模块具体如公式(5)中所示的XX^TP的部分，或具体如公式(6)中的XRelu(X^TP)。分类模块具体如公式(5)及公式(6)中的

作为一种实施例，由于针对每个视频标签，特征构造模块可以是相同的，相同可进一步理解为每个视频标签对应的视频分类模型中的特征构造模块共享同样的参数矩阵。

构建视频分类模型后，利用样本视频对视频分类模型进行训练，下面结合图6所示的多标签视频分类模型训练流程图，对该训练方法进行介绍。

S601，训练设备110获取样本视频，提取样本视频的样本特征矩阵。

训练设备210从数据库230或根据工作人员的输入操作，获得样本视频，样本视频的类型可以是任意的，样本视频被标注有一个或多个视频标签。样本视频的数量可以是一个或多个。

训练设备210获得样本视频之后，训练设备110从样本视频中随机采集或按照间隔固定帧数采集出多个样本视频帧。为了保证获得输入的样本特征向量的维度相同，训练设备210可采集预设数量的多个样本视频帧。预设数量的具体取值可以是训练设备210预先设定的。或者，训练设备210获得样本视频中每个样本视频帧的样本特征向量，从获得多个样本特征中随机采集预设数量的多个样本特征向量即可。每次从该样本视频中随机获得多个样本特征向量，进而能根据该样本视频获得多个用于训练的样本特征矩阵。

当训练设备210采集预设数量的多个样本视频帧时，由于样本视频包括的视频帧的数量是不确定的，当样本视频帧的视频帧的数量较小时，可以重复采集某些视频帧。当样本视频的视频帧的数量较大时，可以间隔采集视频中的视频帧。

训练设备210通过CNN或其它网络提取各样本视频帧的特征，特征包括样本视频帧的纹理特征、灰度特征、轮廓特征等中的一种或多种的组合。训练设备210排列各样本视频帧的样本特征向量，获得样本视频的样本特征矩阵。

S602，训练设备210通过特征构造模块，确定样本特征矩阵中与视频标签分类相关的特征，获得第一特征矩阵。

由于每个视频标签对应的特征构造模块均是相同的，因此S602的特征构造模块泛指任一视频标签对应的特征构造模块，通过特征构造模块提取出样本特征矩阵中与视频标签分类相关的特征，从而获得第一特征矩阵，第一特征矩阵可以理解为样本视频的一种全局特征表示。

具体地，训练设备210确定样本特征矩阵的转置与视频标签分类相关的特征，获得第二特征矩阵，该过程例如可以表示为前述的X^TP。训练设备110根据第二特征矩阵，提取样本特征矩阵中的特征，获得第一特征矩阵，该过程例如为前述的XX^TP。

进一步地，为了减少第二特征矩阵中的无用特征，训练设备110对第二特征矩阵进行稀疏处理，利用稀疏处理后矩阵，再提取样本特征矩阵中的特征，从而获得第一特征矩阵。稀疏处理例如可以通过ReLU激活函数处理，该过程例如为前述的XRelu(X^TP)。

S603，分别通过每个视频标签对应的分类模块，确定第一特征矩阵与视频标签的相关度，获得样本视频属于每个视频标签的概率。

提取与视频标签分类相关的第一特征矩阵后，针对每个视频标签，训练设备210利用该视频标签对应的分类模块，确定出第一特征矩阵与该视频标签的相关度，从而分别获得样本视频属于各视频标签的概率。每个视频标签是指视频标签库中包括的多个视频标签中的每一个。其中，特征构造模块和分类模型的秩均小于样本视频帧的样本特征向量的维度。

例如，训练设备210通过分类模块提取第一特征矩阵各特征与对应的视频标签之间的相关度，获得各视频标签对应的第三特征矩阵，该过程例如前述中的训练设备210对各第三特征矩阵进行归一化处理，获得该样本视频属于各视频标签的概率。

或者，为了进一步减少计算量，分别获得每个视频标签对应的第三特征矩阵的迹，将各第三特征矩阵的迹确定为样本视频属于各视频标签的概率，该过程例如将矩阵的迹确定为样本视频属各视频标签的概率，不仅能减少计算量，由于第三特征矩阵中对应概率具有作用的数据均在对角线处，以迹作为概率，相对能减少引入其他无用数据对结果的干扰，相对提高确定概率的准确性。

S604，根据样本视频属于每个视频标签的概率，以及样本视频所属的真实视频标签，调整每个视频标签的视频分类模型的参数，直至每个视频标签对应的视频分类模型收敛，获得每个视频标签对应的已训练的视频分类模型。

本申请实施例中是同时训练多个视频标签对应的视频分类模型，因此训练设备210例如以每个视频标签对应的视频分类模型的分类损失的加权求和结果表征每次训练的总损失。每个视频标签对应的视频分类模型的分类损失例如根据每个视频标签的概率与样本视频所属的真实视频标签之间的误差确定，分类损失L例如用二分类交叉熵损失L_cls表示，或其它损失函数表示。

在确定出每次训练的总损失后，训练设备210根据总损失调整特征构造模块的参数矩阵，每个视频分类的视频分类模型中的分类模块的参数矩阵，直到总损失满足目标损失，从而获得特征构造模块的参数矩阵，以及每个视频标签对应的分类模块的参数矩阵，也就相当于获得了每个视频标签对应的已训练的视频分类模型。其中，总损失满足目标损失为视频分类模型收敛的一种示例。

在图6所示的实施例中，由于每个视频标签分类模型的特征构造模块的参数矩阵和分类模块的参数矩阵的秩均小于样本视频的样本视频帧的样本特征向量的维度，相当于减少了视频分类任务所需中的模型参数量，从而减少视频分类模型训练过程中的计算量。且，多个视频标签的特征构造模块是相同的，因此无需针对每个视频标签分别训练特征构造模块，从而进一步减少了视频分类模型训练过程中的计算量。且，在对样本矩阵的处理过程中，会剔除样本特征矩阵中的无用特征，保证视频分类模型输出结果的准确性的同时，还进一步减少了视频模型训练过程中的计算量。

基于同一发明构思，本申请实施例还提供一种多标签视频分类方法，基于图4论述的应用场景，下面对本申请实施例涉及的多标签视频分类方法进行介绍。

请参照图7，为多标签视频分类方法的流程图，该方法包括：

S701，客户端411响应于输入操作，获得待处理视频。

例如用户准备发布视频时，通过客户端411进行用于指示发布视频的输入操作，或者例如用户准备进行直播，通过客户端411进行用于指示直播的输入操作，客户端411响应于该输入操作，获得待处理视频。

S702，客户端411将处理请求发送给服务器420。

客户端411获得待处理视频后，根据待处理视频的资源标识，生成处理请求，该资源标识例如视频的资源地址，该处理请求用于请求服务器420针对该视频执行相应的业务逻辑，业务逻辑比如请求发布该视频等。

在另一种可能的实施例中，工作人员直接将视频输入至数据库230中，服务器420检测到数据库230中存储有新的视频，将该视频确定为需要进行标签分类的待处理视频。

S703，服务器420提取待处理视频的目标特征向量。

服务器420接收处理请求后，根据处理请求中的资源标识，获得待处理视频。采集待处理视频的多个目标视频帧，分别提取各目标视频帧的目标特征，排列这些目标视频帧的目标特征向量，以获得待处理视频的目标特征矩阵。其中，多个目标视频帧可以是预设数量的多个视频帧。

或者，服务器420分别提取目标视频中各目标视频帧的目标特征向量，并从多个目标特征向量中随机采集出预设数量的多个目标特征向量。

S704，服务器420通过特征构造模块，确定目标特征矩阵中与视频标签分类相关的特征，获得第四特征矩阵。

服务器420利用特征构造模块，确定目标特征矩阵的转置中与视频标签分类相关的特征，获得第五特征矩阵；根据第五特征矩阵，提取目标特征矩阵中的特征，获得第四特征矩阵。

其中，由于各视频标签的视频分类模型中的特征构造模块是相同的，因此S704中的特征构造模块是任一视频标签对应的视频分类模型中的特征构造模块。每个视频标签对应的视频分类模块可以是服务器420从数据库230中获得的，或者可以是服务器420通过前文论述的方法训练得到的。具体训练视频分类模型的方法可以参照前文论述的内容，此处不再赘述。

进一步地，对第五特征矩阵进行稀疏处理，并利用稀疏处理后的矩阵，提取目标特征向量中的特征，获得第四特征矩阵。稀疏处理的方式可以参照前文论述的内容，此处不再赘述。

S705，服务器420分别通过每个视频标签对应视频标签分类模型中的分类模块，获得第四特征矩阵与视频标签的相关度，获得待处理视频属于每个视频标签的概率。

服务器420分别通过每个视频标签对应的分类模块，提取第四特征矩阵中各特征与视频标签对应的相关度，获得每个视频标签对应的第六特征矩阵。服务器420对各第六特征矩阵进行归一化处理，获得待处理视频属于各视频标签的概率。或者服务器420分别确定每个视频标签对应的第六特征矩阵的迹，并将每个第六特征矩阵的迹确定为待处理视频属于对应的视频标签的概率。其中，特征构造模块的秩和分类模块的秩均小于目标视频帧的目标特征向量的维度。

S706，服务器420根据待处理视频属于每个视频标签的概率，确定待处理视频所属的视频标签。

服务器420通过上述过程获得待处理属于各视频标签的概率，可以将概率满足概率阈值的视频标签确定为待处理视频所属的视频标签，或者可以将概率排序靠前的N个视频标签确定为待处理视频所属的视频标签。

进一步地，服务器420在确定待处理视频所属的视频标签后，可以执行对应的业务逻辑，比如发布该待处理视频以及其所属的视频标签。

S707，服务器420将待处理视频所属的视频标签发送给客户端411。

S708，客户端411展示待处理视频所属的视频标签。

客户端411接收并显示待处理视频所属的视频标签。

例如，请参照图8，表示待处理视频中的一个视频帧，服务器420对该待处理视频进行上述图7所示的处理过程后，确定该待处理视频的视频标签为电影、美食和饮食男女。

应当说明的是，图7中是以服务器420实现前述的分类设备220的功能为例进行示例说明。

作为一种实施例，图7中的S701～S702、S708为可选的两部分。

在图7所示的实施例中，由于每个视频标签分类模型的特征构造模块的参数矩阵和分类模块的参数矩阵的秩均小于待处理视频的目标视频帧的目标特征向量的维度，相当于减少了视频分类模型中的参数量，从而减少视频分类过程中的计算量。且，多个视频标签的特征构造模块是相同的，因此在确定待处理视频属于各视频标签的概率时，只需通过一个特征构造模块提取待处理视频的特征，从而进一步减少了计算量。且，在对目标特征矩阵的处理过程中，会剔除目标特征向量中的无用特征，保证视频标签分类的准确性的同时，还进一步减少了视频分类的计算量。

基于同一发明构思，本申请实施例提供一种多标签视频分类模型训练装置，该装置相当于设置在前文论述的训练设备210中，装置用于训练每个视频标签对应的视频分类识别模型，每个视频标签对应的视频分类识别模型包括特征构造模块和分类模块，请参照图9，该装置900包括：

提取单元901，用于提取样本视频的样本特征矩阵；其中，样本视频标注了所属的真实视频标签，样本特征矩阵包括样本视频的多个样本视频帧中各样本视频帧的样本特征向量，特征构造模块的参数矩阵的秩和分类模块的参数矩阵的秩均小于样本视频帧的样本特征向量的维度；

确定单元902，用于通过特征构造模块，确定样本特征矩阵中与视频标签分类相关的特征，获得第一特征矩阵；

获得单元903，用于分别通过每个视频标签对应的分类模块，确定第一特征矩阵与视频标签的相关度，获得样本视频属于每个视频标签的概率；

调整单元904，用于根据样本视频属于每个视频标签的概率，以及视频所属的真实视频标签，调整特征构造模块的参数矩阵，以及每个视频标签对应的分类模块的参数矩阵，直至每个视频标签对应的视频分类识别模型收敛，获得每个视频标签对应的已训练的视频分类模型。

在一种可能的实施例中，确定模块902具体用于：

利用特征构造模块，确定样本特征矩阵的转置中与视频标签分类相关的特征，获得第二特征矩阵；

根据第二特征矩阵，提取样本特征矩阵中的特征，获得第一特征矩阵。

在一种可能的实施例中，确定模块902具体用于：

对第二特征矩阵进行稀疏处理；

根据稀疏处理后的矩阵，提取样本特征矩阵中的特征，获得第一特征矩阵。

在一种可能的实施例中，获得单元903具体用于：

分别通过每个视频标签对应的分类模块，提取第一特征矩阵中各特征与对应的视频标签的相关度，获得每个视频标签对应的第三特征矩阵；

分别确定每个视频标签对应的第三特征矩阵的迹，并将每个第三特征矩阵的迹确定为样本视频属于对应的视频标签的概率。

在一种可能的实施例中，调整模块904具体用于：

根据每个视频标签的概率与样本视频所属的真实视频标签之间的误差，确定每个视频标签对应的分类损失；

根据总损失，调整特征构造模块，以及每个视频标签对应的分类模块，直至总损失满足目标损失，获得每个视频标签对应的已训练的视频分类模型。

在一种可能的实施例中，提取单元901具体用于：

获得样本视频的多个样本视频帧中每个样本视频帧的样本特征向量；

排列提取出的多个样本特征向量，获得样本特征矩阵。

基于同一发明构思，本申请实施例提供一种多标签视频分类装置，该装置相当于设置在前文论述的分类设备220中，请参照图10，该装置1000包括：

提取单元1001，用于提取待处理视频的目标特征矩阵；其中，目标特征矩阵包括待处理视频的多个目标视频帧中各目标视频帧的特征向量；

第一确定单元1002，用于通过特征构造模块，确定目标特征矩阵中与视频标签分类相关的特征，获得第四特征矩阵；

获得单元1003，用于分别通过每个视频标签对应视频标签分类模型中的分类模块，获得第四特征矩阵与视频标签的相关度，获得待处理视频属于每个视频标签的概率；其中，每个视频标签对应的视频分类模型包括特征构造模块和视频标签对应的分类模块，特征构造模块的参数矩阵的秩和分类模块的参数矩阵的秩均小于目标视频帧的目标特征向量的维度；

第二确定单元1004，用于根据待处理视频属于每个视频标签的概率，确定待处理视频所属的视频标签。

在一种可能的实施例中，第一确定单元1001具体用于：

利用特征构造模块，确定目标特征矩阵的转置中与视频标签分类相关的特征，获得第五特征矩阵；

根据第五特征矩阵，提取目标特征矩阵中的特征，获得第四特征矩阵。

在一种可能的实施例中，第一确定单元1001具体用于：

对第五特征矩阵进行稀疏处理；

根据稀疏处理后的矩阵，提取目标特征矩阵中的特征，获得第四特征矩阵。

在一种可能的实施例中，获得单元1003具体用于：

分别通过每个视频标签对应的分类模块，提取第四特征矩阵中各特征与视频标签对应的相关度，获得每个视频标签对应的第六特征矩阵；

分别确定每个视频标签对应的第六特征矩阵的迹，并将每个第六特征矩阵的迹确定为样本视频属于对应的视频标签的概率。

在一种可能的实施例中，第二确定单元1004具体用于：

将满足概率阈值的视频标签确定为待处理视频的视频标签。

在一种可能的实施例中，提取单元1001具体用于：

获得待处理视频的多个目标视频帧中每个目标视频帧的目标特征向量；

排列提取出的多个目标特征向量，获得待处理视频的目标特征矩阵。

基于同一发明构思，本申请实施例还提供一种计算机设备。该计算机设备相当于前文论述的训练设备210或分类设备220。

请参照图11，计算机设备1100以通用计算机设备的形式表现。计算机设备1100的组件可以包括但不限于：至少一个处理器1110、至少一个存储器1120、连接不同系统组件(包括处理器1110和存储器1120)的总线1130。

总线1130表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器1120可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1121和/或高速缓存存储器1122，还可以进一步包括只读存储器(ROM)1123。存储器1120还可以包括具有一组(至少一个)程序模块1125的程序/实用工具1126，这样的程序模块1125包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。处理器1110用于执行存储器1120存储的程序指令等实现前文论述任一的多标签视频分类模型训练方法或任一的标签视频分类方法。处理器1110还可以用于实现图9或图10所示的装置的功能。

计算机设备1100也可以与一个或多个外部设备1140(例如键盘、指向设备等)通信，还可与一个或者多个使得终端设备XXX能与计算机设备1100交互的设备通信，和/或与使得该计算机设备1100能与一个或多个其它设备进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(I/O)接口1150进行。并且，计算机设备1100还可以通过网络适配器1160与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1160通过总线1130与用于计算机设备1100的其它模块通信。应当理解，尽管图中未示出，可以结合计算机设备1100使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

基于同一发明构思，本申请实施例提供一种存储介质，所述存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行前文论述任一的多标签视频分类模型训练方法或任一的标签视频分类方法。

基于同一发明构思，本申请实施例提供一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前文论述任一的多标签视频分类模型训练方法或任一的标签视频分类方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种多标签视频分类模型训练方法，其特征在于，应用于训练每个视频标签对应的视频分类模型，每个视频标签对应的视频分类模型包括特征构造模块和分类模块，所述方法包括：

提取样本视频的样本特征矩阵；其中，所述样本视频标注了所属的真实视频标签，所述样本特征矩阵包括所述样本视频的多个样本视频帧中各样本视频帧的样本特征向量，所述特征构造模块的参数矩阵的秩和所述分类模块的参数矩阵的秩均小于样本视频帧的样本特征向量的维度；

根据所述样本视频属于每个视频标签的概率，以及所述样本视频所属的真实视频标签，调整所述特征构造模块的参数矩阵，以及每个视频标签对应的分类模块的参数矩阵，直至所述每个视频标签对应的视频分类模型收敛，获得每个视频标签对应的已训练的视频分类模型，其中，所述特征构造模块对应的参数矩阵被多个视频标签对应的视频分类模型共享。

2.如权利要求1所述的方法，其特征在于，所述通过所述特征构造模块，确定所述样本特征矩阵中与视频标签分类相关的特征，获得第一特征矩阵，具体包括：

3.如权利要求2所述的方法，其特征在于，所述根据所述第二特征矩阵，提取所述样本特征矩阵中的特征，获得第一特征矩阵，具体包括：

对所述第二特征矩阵进行稀疏处理；

4.如权利要求1所述的方法，其特征在于，所述分别通过每个视频标签对应的分类模块，确定所述第一特征矩阵与视频标签的相关度，获得所述样本视频属于每个视频标签的概率，具体包括：

5.如权利要求1所述的方法，其特征在于，所述根据所述样本视频属于每个视频标签的概率，以及所述视频所属的真实视频标签，调整所述特征构造模块的参数矩阵，以及每个视频标签对应的分类模块的参数矩阵，直至所述每个视频标签对应的视频分类模型收敛，获得每个视频标签对应的已训练的视频分类模型，具体包括：

6.如权利要求1～5任一项所述的方法，其特征在于，所述提取样本视频的样本特征向量，具体包括：

获得所述视频的多个样本视频帧中每个样本视频帧的样本特征向量；

排列提取出的多个样本特征向量，获得样本特征矩阵。

7.一种多标签视频分类方法，其特征在于，包括：

分别通过每个视频标签对应视频标签分类模型中的分类模块，获得所述第四特征矩阵与视频标签的相关度，获得所述待处理视频属于每个视频标签的概率；其中，每个视频标签对应的视频分类模型包括所述特征构造模块和视频标签对应的分类模块，所述特征构造模块的参数矩阵的秩和分类模块的参数矩阵的秩均小于目标视频帧的目标特征向量的维度，其中，所述特征构造模块对应的参数矩阵被多个视频标签对应的视频分类模型共享；

8.一种多标签视频分类模型训练装置，其特征在于，所述装置用于训练每个视频标签对应的视频分类识别模型，每个视频标签对应的视频分类识别模型包括特征构造模块和分类模块，所述装置包括：

提取单元，用于提取样本视频的样本特征矩阵；其中，所述样本视频标注了所属的真实视频标签，所述样本特征矩阵包括所述样本视频的多个样本视频帧中各样本视频帧的样本特征向量，所述特征构造模块的参数矩阵的秩和所述分类模块的参数矩阵的秩均小于样本视频帧的样本特征向量的维度；

调整单元，用于根据所述样本视频属于每个视频标签的概率，以及所述视频所属的真实视频标签，调整所述特征构造模块的参数矩阵，以及每个视频标签对应的分类模块的参数矩阵，直至所述每个视频标签对应的视频分类识别模型收敛，获得每个视频标签对应的已训练的视频分类模型，其中，所述特征构造模块对应的参数矩阵被多个视频标签对应的视频分类模型共享。

9.一种多标签视频分类装置，其特征在于，包括：

获得单元，用于分别通过每个视频标签对应视频标签分类模型中的分类模块，获得所述第四特征矩阵与视频标签的相关度，获得所述待处理视频属于每个视频标签的概率；其中，每个视频标签对应的视频分类模型包括所述特征构造模块和视频标签对应的分类模块，所述特征构造模块的参数矩阵的秩和分类模块的参数矩阵的秩均小于所述目标视频帧的目标特征向量的维度，其中，所述特征构造模块对应的参数矩阵被多个视频标签对应的视频分类模型共享；

10.一种存储介质，其特征在于，所述存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如权利要求1～6或7中任一项所述的方法。