CN108154137B

CN108154137B - 视频特征学习方法、装置、电子设备及可读存储介质

Info

Publication number: CN108154137B
Application number: CN201810048140.4A
Authority: CN
Inventors: 丁大钧; 赵丽丽; 刘旭
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2018-01-18
Filing date: 2018-01-18
Publication date: 2020-10-20
Anticipated expiration: 2038-01-18
Also published as: CN108154137A

Abstract

本发明实施例提供一种视频特征学习方法、装置、电子设备及可读存储介质。该方法包括：获得待训练的视频样本；按照预设帧数对所述视频样本进行等间隔采样，由采样的视频帧组成视频分段；针对各视频分段，提取各视频分段的视觉特征，并计算各视觉特征对应的运动基元数量；基于各视频分段的运动基元数量和预设约束条件对目标分类模型进行训练，得到训练后的目标分类模型，以实现对视频特征的学习。由此，相较于现有技术而言，本发明提供的技术方案无需获知视频的标签和分类信息就可以实现视频特征的无监督学习，降低资源和成本消耗，并且可以适应于广泛的视频场景。

Description

视频特征学习方法、装置、电子设备及可读存储介质

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种视频特征学习方法、装置、电子设备及可读存储介质。

背景技术

视频特征学习具有广泛的应用领域，例如可包括视频分类、相似视频检索、视频匹配等。目前的视频特征学习方法主要是基于视频标签和分类信息，而上述视频标签和分类信息需要人工标注作业，在数据量巨大的实际业务应用场景，非常消耗资源和成本。

发明内容

为了克服现有技术中的上述不足，本发明的目的在于提供一种视频特征学习方法、装置、电子设备及可读存储介质，无需获知视频的标签和分类信息就可以实现视频特征的无监督学习，降低资源和成本消耗，并且可以适应于广泛的视频场景。

为了实现上述目的，本发明较佳实施例采用的技术方案如下：

本发明较佳实施例提供一种视频特征学习方法，应用于电子设备，所述方法包括：

获得待训练的视频样本；

按照预设帧数对所述视频样本进行等间隔采样，由采样的视频帧组成视频分段；

针对各视频分段，提取各视频分段的视觉特征，并计算各视觉特征对应的运动基元数量；

基于各视频分段的运动基元数量和预设约束条件对目标分类模型进行训练，得到训练后的目标分类模型，以实现对视频特征的学习。

在本发明较佳实施例中，所述提取各视频分段的视觉特征的方式，包括：

通过预先配置的特征提取模型或者深度学习模型将各视频分段中的各帧图像信息进行融合后提取各视频分段的视觉特征。

在本发明较佳实施例中，所述计算各视觉特征对应的运动基元数量的方式，包括：

将所述视觉特征输入到预先配置的运动基元计算模型，得到所述视觉特征对应的运动基元数量。

在本发明较佳实施例中，所述基于各视频分段的运动基元数量和预设约束条件对目标分类模型进行训练，得到训练后的目标分类模型，包括：

基于各视频分段的运动基元数量对目标分类模型进行训练；

在训练过程中根据预设损失函数计算该目标分类模型的Loss值，直到所述Loss值小于预设值时结束训练，得到训练后的目标分类模型，其中，当所述述Loss值小于预设值时，所述训练后的目标分类模型满足所述预设约束条件。

在本发明较佳实施例中，所述预设损失函数为：

Loss＝(N(F(X₁))-N(F(X₂)))²+max(0,C-(N(F(Y))-N(F(X₁)))²)

其中，X₁和X₂是同一个视频样本X中按照预设帧数间隔得到两个视频分段，Y为不同于视频样本X的另一个视频样本，函数F为对视频片段的特征表示方法，函数N为根据视频特征提取运动基元数量的方法，C为用于保证最优解非零的一个常数。

在本发明较佳实施例中，所述预设约束条件包括：

同一视频样本中的各个视频分段对应的运动基元数量之间的差异小于预设阈值；以及

不同视频样本中的各个视频分段对应的运动基元数量之间的差异大于同一视频样本中的各个视频分段对应的运动基元数量之间的差异。

在本发明较佳实施例中，所述同一视频样本中的各个视频分段对应的运动基元数量之间的差异小于预设阈值的表达式为：

Diff(NumX₁,NumX₂)<K

Diff(NumY₁,NumY₂)<K

所述不同视频样本中的各个视频分段对应的运动基元数量之间的差异大于同一视频样本中的各个视频分段对应的运动基元数量之间的差异的表达式为：

Diff(NumX₁,NumY₁)>Diff(NumX₁,NumX₂)

其中，NumX₁为视频样本X的一种视频分段的运动基元数量，NumX₂为视频样本X的另一种视频分段的运动基元数量，NumY₁为视频样本Y的一种视频分段的运动基元数量，NumY₂为视频样本Y的视频分段的另一种运动基元数量，Diff()为计算运动基元数量差异的方法，K为预设阈值。

本发明较佳实施例还提供一种视频特征学习装置，应用于电子设备，所述装置包括：

获得模块，用于获得待训练的视频样本，所述视频样本包括有多帧图像。

分段模块，用于按照预设帧数间隔对所述视频样本进行分段，得到多个视频分段。

提取计算模块，用于针对各视频分段，提取各视频分段的视觉特征，并计算各视觉特征对应的运动基元数量。

训练模块，用于基于各视频分段的运动基元数量和预设约束条件对目标分类模型进行训练，得到训练后的目标分类模型。

本发明较佳实施例还提供一种电子设备，所述电子设备包括：

存储器；

处理器；以及

视频特征学习装置，所述装置存储于所述存储器中并包括由所述处理器执行的软件功能模块，所述装置包括：

本发明较佳实施例还提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被执行时实现上述的视频特征学习方法。

相对于现有技术而言，本发明具有以下有益效果：

本发明实施例提供的视频特征学习方法、装置、电子设备及可读存储介质，通过获得待训练的视频样本，并按照预设帧数对所述视频样本进行等间隔采样，由采样的视频帧组成视频分段，然后，针对各视频分段，提取各视频分段的视觉特征，并计算各视觉特征对应的运动基元数量，最后，基于各视频分段的运动基元数量和预设约束条件对目标分类模型进行训练，得到训练后的目标分类模型，以实现对视频特征的学习。由此，通过对运动基元统计分析，无需获知视频的标签和分类信息就可以实现视频特征的无监督学习，进而可对海量视频自动分析分类，同时降低资源和成本消耗，并且可以适应于广泛的视频场景。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它相关的附图。

图1为本发明较佳实施例提供的视频特征学习方法的一种流程示意图；

图2为本发明较佳实施例提供的视频分段组合的一种示意图；

图3为本发明较佳实施例提供的运动基元分解的一种示意图；

图4为本发明较佳实施例提供的视频分段组合提取运动基元的一种方框示意图；

图5为本发明较佳实施例提供的用于实现上述视频特征学习方法的电子设备的方框示意图。

图标：100-电子设备；110-存储器；120-处理器；200-视频特征学习装置；210-获得模块；220-分段模块；230-提取计算模块；240-训练模块。

具体实施方式

本申请发明人在实现本发明实施例的技术方案过程中，发现目前采用的有监督的视频特征学习方法基于视频标签和分类信息，需要人工标注作业，在数据量巨大的实际业务应用场景，非常消耗资源和成本，针对上述问题，目前已有的无监督视频特征学习方法虽然可以在一定程度上改善上述问题，但是经发明人仔细研究后发现，目前的无监督视频特征学习方法主要是利用了视频中主体物体的连续运动信息，对视频的视觉性质进行无监督学习。但是由于依赖于视频中的物体的运动，在对于视频画面或场景变化较小或无变化的情况下，效果不佳，因此目前的无监督视频特征学习方法无法很好地适应各种视频应用场景，具有极大的局限性。

值得说明的是，以上现有技术中的方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本发明实施例针对上述问题所提出的解决方案，都应该是发明人在本发明过程中对本发明做出的贡献。

鉴于上述问题，本申请发明人提出下述技术方案，通过对运动基元统计分析，无需获知视频的标签和分类信息就可以实现视频特征的无监督学习，进而可对海量视频自动分析分类，同时降低资源和成本消耗，并且可以适应于广泛的视频场景。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

请参阅图1，为本发明较佳实施例提供的视频特征学习方法的一种流程示意图。所应说明的是，本发明实施例提供的视频特征学习方法不以图1及以下所述的具体顺序为限制。在一种实施方式下，所述视频特征学习方法可以通过如下步骤实现：

步骤S210，获得待训练的视频样本。

本实施例中，所述待训练的视频样本可以通过各种方式获得，例如可以从服务器中下载获得，或者由外部终端终端导入获得，或者实时采集获得，本实施例对此不作具体限制。

步骤S220，按照预设帧数对所述视频样本进行等间隔采样，由采样的视频帧组成视频分段。

本实施例中，所述视频样本可包括有多帧视频帧，所述预设帧数可以根据实际需求进行设置，例如当预设帧数为2时，可每隔两帧对所述视频样本进行等间隔采样，将所述视频样本分为奇数帧的视频分段和偶数帧的视频分段，所述奇数帧的视频分段包括第一帧、第三帧、第五帧......，所述偶数帧的视频分段包括第二帧、第四帧、第六帧。相应的，当预设帧数为3时，可每隔三帧对所述视频样本进行等间隔采样，将所述视频样本分为三个视频分段，第一个视频分段包括第一帧、第四帧、第七帧......，第二个视频分段包括第二帧、第五帧、第八帧......，第三个视频分段包括第三帧、第六帧、第九帧......。当然，可以理解的是，所述预设帧数也可以不等于视频分段数，因为在实际应用过程中不一定所有视频帧都会参与运算，例如当预设帧数为3时，也可以使用第二帧、第五帧、第八帧......为第一视频分段，第三帧、第六帧、第九帧......为第二视频分段。详细地，下面以当预设帧数为2时的视频分段组合进行说明，请参阅图2，当预设帧数为2时，可以将视频样本X分为两个视频分段，分别是视频分段Group1和视频分段Group2，所述视频分段Group1包括视频帧Frame1、Frame3、Frame5、Frame7、Frame9、Frame11、Frame13、Frame15，所述视频分段Group2包括视频帧Frame2、Frame4、Frame6、Frame8、Frame10、Frame12、Frame14、Frame16。

本实施例通过将视频样本拆分为多个视频分段，且不依赖各视频分段的时序信息，因此在实际应用过程中，还可以将视频样本的多个视频分段进行自由组合，从而可以便于增加训练数据样本。

步骤S230，针对各视频分段，提取各视频分段的视觉特征，并计算各视觉特征对应的运动基元数量。

本实施例中，在对步骤S230作进一步阐述之前，首先对运动基元进行说明，请参阅图3，本实施例提出一种可有效表述视频内容的运动基元(Motion Primitive)，基于动作分解得到的运动基元是一种视觉基础单元，不依赖视频的长短、分类、清晰度等信息。具体地，所述视频样本是由连续视频帧组成的集合，可分解为多个运动基元。如图3所示，一个击打排球视频样本可分解为起跑、起跳、击打等八个运动基元，一般地，在同一视频样本中，多帧图像构成一个运动基元，组成每个运动基元的图像数量可以相同，也可以不同，但是静止视频中只有一个运动基元。

详细地，请参阅图4，首先，针对各视频分段，可以通过预先配置的特征提取模型或者深度学习模型将各视频分段中的各帧图像信息进行融合后提取各视频分段的视觉特征(Visual Feature)。例如，针对包括有六帧视频帧的视频X，可以将视频分段X₁中的第一帧、第三帧以及第五帧图像信息进行融合后提取该视频分段X₁的视觉特征，将视频分段X₂中的第二帧、第四帧以及第六帧图像信息进行融合后提取该视频分段X₂的视觉特征。

然后，将所述视觉特征输入到预先配置的运动基元计算模型，得到所述视觉特征对应的运动基元数量。例如，分别将视频分段X₁的视觉特征和视频分段X₂的视觉特征输入到预先配置的运动基元计算模型，即可得到对应的视频分段X₁的运动基元数量以及视频分段X₂的运动基元数量。

同理，按照上述方法，可以计算得到视频样本Y的视频分段Y₁和视频分段Y₂对应的运动基元数量。

步骤S240，基于各视频分段的运动基元数量和预设约束条件对目标分类模型进行训练，得到训练后的目标分类模型，以实现对视频特征的学习。

在一种实施方式中，在得到各视频分段的运动基元数量之后，可以基于各视频分段的运动基元数量对目标分类模型进行训练，并且在训练过程中根据预设损失函数计算该目标分类模型的Loss值，直到所述Loss值小于预设值时结束训练，得到训练后的目标分类模型。当所述述Loss值小于预设值时，所述训练后的目标分类模型满足所述预设约束条件。

详细地，作为一种实施方式，上述预设条件可以包括：

同一视频样本中的各个视频分段对应的运动基元数量之间的差异小于预设阈值，以及不同视频样本中的各个视频分段对应的运动基元数量之间的差异大于同一视频样本中的各个视频分段对应的运动基元数量之间的差异。

具体地，所述同一视频样本中的各个视频分段对应的运动基元数量之间的差异小于预设阈值的表达式为：

Diff(NumX₁,NumX₂)<K

Diff(NumY₁,NumY₂)<K

上述表达式即为，同一视频不同间隔分段组合的基元数量近似相等，也即同一视频样本中的各个视频分段对应的运动基元数量之间的差异小于预设阈值，其中该预设阈值K无限接近于0。

不同视频样本中的各个视频分段对应的运动基元数量之间的差异大于同一视频样本中的各个视频分段对应的运动基元数量之间的差异的表达式为：

Diff(NumX₁,NumY₁)>Diff(NumX₁,NumX₂)

上述表达式即为，视频样本X的视频分段X₁和视频样本Y的视频分段Y₁对应的运动基元数量之间的差异大于视频样本X的视频分段X₁的视频分段X₁和视频分段X₂对应的运动基元数量之间的差异。

在上述两个表达式中，NumX₁为视频样本X的一种视频分段的运动基元数量，NumX₂为视频样本X的另一种视频分段的运动基元数量，NumY₁为视频样本Y的一种视频分段的运动基元数量，NumY₂为视频样本Y的视频分段的另一种运动基元数量，Diff()为计算运动基元数量差异的方法。

基于上述约束条件对所述目标分类模型进行训练，若最终目标分类模型满足Diff(NumX₁,NumX₂)≈Diff(NumY₁,NumY₂)≈0，则所述目标分类模型最优解为所有特征表示均为0。根据上述预设条件本实施例引入所述预设损失函数如下：

Loss＝(N(F(X₁))-N(F(X₂)))²+max(0,C-(N(F(Y))-N(F(X₁)))²)

其中，X₁和X₂是同一个视频样本X中按照预设帧数间隔得到两个视频分段，Y为不同于视频样本X的另一个视频样本，函数F为对视频片段的特征表示方法，函数N为根据视频特征提取运动基元数量的方法，C为用于保证最优解非零一个常数。

由此，通过在训练所述目标分类模型的过程中根据预设损失函数计算该目标分类模型的Loss值，直到所述Loss值小于预设值时结束训练，即可得到训练后满足上述约束条件的目标分类模型。由此，在通过所述目标分类模型更新最小化Loss值，既可以使目标分类模型学习到同一个视频样本内部的运动基元数量的关联性，又可以使目标分类模型学习到不同视频之间的运动基元数量的差异性。

基于上述设计，通过对运动基元进行统计分析，不需要获知视频样本的标签和分类信息，只需要提供两组或者多组不同视频样本，通过对视频运动基元的提取，本实施例训练的目标分类模型可以稳定描述视频的基础性质，从而实现无监督学习。另外，本实施例基于视频自身底层信息，关注视频自身内容，具有更好的自适应性，针对运动信息较多(画面和场景变化大)和运动信息较少(画面和场景变化小)的视频样本都可以提取运动基元，通用性较强。

进一步地，如图5所示，是本发明实施例提供的用于实现所述视频特征学习方法的电子设备100的示意图。本实施例中，所述电子设备100可以是，但不限于，智能手机、个人电脑(Personal Computer，PC)、笔记本电脑、监控设备、服务器等具备视频特征学习及处理能力的计算机设备。

所述电子设备100还包括视频特征学习装置200、存储器110以及处理器120。本发明较佳实施例中，视频特征学习装置200包括至少一个可以软件或固件(Firmware)的形式存储于所述存储器110中或固化在所述电子设备100的操作系统(Operating System，OS)中的软件功能模块。所述处理器120用于执行所述存储器110中存储的可执行软件模块，例如，所述视频特征学习装置200所包括的软件功能模块及计算机程序等。本实施例中，所述视频特征学习装置200也可以集成于所述操作系统中，作为所述操作系统的一部分。具体地，所述视频特征学习装置200包括：

获得模块210，用于获得待训练的视频样本，所述视频样本包括有多帧图像。

分段模块220，用于按照预设帧数间隔对所述视频样本进行分段，得到多个视频分段。

提取计算模块230，用于针对各视频分段，提取各视频分段的视觉特征，并计算各视觉特征对应的运动基元数量。

训练模块240，用于基于各视频分段的运动基元数量和预设约束条件对目标分类模型进行训练，得到训练后的目标分类模型。

可以理解的是，本实施例中的各功能模块的具体操作方法可参照上述方法实施例中相应步骤的详细描述，在此不再重复赘述。

综上所述，本发明实施例提供的视频特征学习方法、装置、电子设备及可读存储介质，通过获得待训练的视频样本，并按照预设帧数对所述视频样本进行等间隔采样，由采样的视频帧组成视频分段，然后，针对各视频分段，提取各视频分段的视觉特征，并计算各视觉特征对应的运动基元数量，最后，基于各视频分段的运动基元数量和预设约束条件对目标分类模型进行训练，得到训练后的目标分类模型，以实现对视频特征的学习。由此，通过对运动基元统计分析，无需获知视频的标签和分类信息就可以实现视频特征的无监督学习，进而可对海量视频自动分析分类息，同时降低资源和成本消耗，并且可以适应于广泛的视频场景。

在本发明所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

需要说明的是，在本文中，术语"包括"、"包含"或者其任何其它变体意在涵盖非排它性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句"包括一个……"限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其它的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种视频特征学习方法，其特征在于，应用于电子设备，所述方法包括：

获得待训练的视频样本；

基于各视频分段的运动基元数量和预设约束条件对目标分类模型进行训练，得到训练后的目标分类模型，以实现对视频特征的学习；

其中，所述预设约束条件包括：

2.根据权利要求1所述的视频特征学习方法，其特征在于，所述提取各视频分段的视觉特征的方式，包括：

3.根据权利要求1所述的视频特征学习方法，其特征在于，所述计算各视觉特征对应的运动基元数量的方式，包括：

4.根据权利要求1所述的视频特征学习方法，其特征在于，所述基于各视频分段的运动基元数量和预设约束条件对目标分类模型进行训练，得到训练后的目标分类模型，包括：

基于各视频分段的运动基元数量对目标分类模型进行训练；

在训练过程中根据预设损失函数计算该目标分类模型的Loss值，直到所述Loss值小于预设值时结束训练，得到训练后的目标分类模型，其中，当所述Loss值小于预设值时，所述训练后的目标分类模型满足所述预设约束条件。

5.根据权利要求4所述的视频特征学习方法，其特征在于，所述预设损失函数为：

Loss＝(N(F(X₁))-N(F(X₂)))²+max(0,C-(N(F(Y))-N(F(X₁)))²)

6.根据权利要求1所述的视频特征学习方法，其特征在于，所述同一视频样本中的各个视频分段对应的运动基元数量之间的差异小于预设阈值的表达式为：

Diff(NumX₁,NumX₂)<K

Diff(NumY₁,NumY₂)<K

Diff(NumX₁,NumY₁)>Diff(NumX₁,NumX₂)

7.一种视频特征学习装置，其特征在于，应用于电子设备，所述装置包括：

获得模块，用于获得待训练的视频样本，所述视频样本包括有多帧图像；

分段模块，用于按照预设帧数间隔对所述视频样本进行分段，得到多个视频分段；

提取计算模块，用于针对各视频分段，提取各视频分段的视觉特征，并计算各视觉特征对应的运动基元数量；

训练模块，用于基于各视频分段的运动基元数量和预设约束条件对目标分类模型进行训练，得到训练后的目标分类模型；

其中，所述预设约束条件包括：

8.一种电子设备，其特征在于，所述电子设备包括：

存储器；

处理器；以及

其中，所述预设约束条件包括：

9.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序被执行时实现权利要求1-6中任意一项所述的视频特征学习方法。