CN108198202A

CN108198202A - 一种基于光流和神经网络的视频内容检测方法

Info

Publication number: CN108198202A
Application number: CN201810063065.9A
Authority: CN
Inventors: 徐枫; 陈建武; 肖谋
Original assignee: Beijing Yi Intelligent Technology Co Ltd
Current assignee: Beijing Yi Intelligent Technology Co Ltd
Priority date: 2018-01-23
Filing date: 2018-01-23
Publication date: 2018-06-22

Abstract

本发明公开了一种基于光流和神经网络的视频内容检测方法：用户通过人机交互模块的输入设备输入检索信息，用户电脑获取该检索信息并处理成语义信息；用户电脑根据语义信息向后台服务器发送提取指令；后台服务器根据提取指令对视频采集模块和存储器的视频进行光流和神经网络的检测；将检索结果发送到人机交互模块的输出设备。通过对视频流进行光流和神经网络的检测改变了传统的视频检测以及检索方式，将检索信息处理成为语义信息，根据语义信息生成检索指令，这样在检索的过程中就不会产生分歧，检索结果更准确，解决了计算机理解和用户理解之间的鸿沟的问题。

Description

一种基于光流和神经网络的视频内容检测方法

技术领域

本发明属于图像处理技术、视频分类技术与人工智能技术领域，具体涉及一种基于光流和神经网络的视频内容检测方法。

背景技术

近年，随着互联网技术的发展，视频采集设备的轻便化，视频传输的快捷，造成了网络上视频内容爆炸式增长。对于当前的直播平台、视频服务网站，或者是安防监控系统，要在海量的视频数据中检索、抽取或者监控有用的视频内容，成为各部门研究的热点。

以美国短视频服务为例，当前instagram的活跃用户为5亿，snapchat活跃用户为1.5亿，两者的短视频流量在近年同时暴增：2015年10月-2016年3月，Instagram短视频流量增长40％，而Snapchat 2015年的视频流量比前一年增长4倍以上，每天超过60亿次播放量。而在国内，随着4G牌照的发放，也扫清了视频爆发的一个路障。过去一年内短视频平台人均单日启动次数上涨67％，短视频平台人均单日使用时长上涨45％。而另一项研究也显示，移动短视频用户规模不断扩大，预计今年底将达到2.42亿人，增长率为58.2％。而在监控领域，IDC研究表明，2012年的数据存储总量约为2.8ZB，2020年数据存储量约为40ZB(1ZB＝1亿TB)。数据量正在以55％的速度逐年增长，全世界粗略估计有至少有2亿个监控摄像头。

目前随着视频检索技术的发展，常用的建立内容索引的方式大致分为：视频镜头分割技术、关键帧提取和结构分析、关键帧特征提取和描述和对镜头进行分类和场景提取，这样的视频检索方法存在这样一个缺点：在特征提取中只考虑了低级图像特征而没有提取具有真正描述性的图像高级特征，这样实际上会造成获取的分类与用户实际理解的分类不一致的状况。

发明内容

本发明的目的在于：提供一种基于光流和神经网络的视频内容检测方法，以解决上述的提取中只考虑了低级图像特征而没有提取具有真正描述性的图像高级特征，这样实际上会造成获取的分类与用户实际理解的分类不一致的问题。

本发明采用的技术方案如下：

一种基于光流和神经网络的视频内容检测方法，所述方法包括以下步骤：

步骤1：将输入的检索信息处理成语义信息；

步骤2：根据步骤1所得的语义信息发送提取指令；

步骤3：根据步骤2所得的提取指令对视频进行光流和神经网络的检测；

步骤4：输出检索结果。

通过对视频流进行光流和神经网络的检测改变了传统的视频检测以及检索方式，将检索信息处理成为语义信息，根据语义信息生成检索指令，这样在检索的过程中就不会产生分歧，检索结果更准确，解决了现有技术中提取中只考虑了低级图像特征而没有提取具有真正描述性的图像高级特征，实际上造成获取的分类与用户实际理解的分类不一致的问题。

优选地，所述光流和神经网络的检测是先对视频流进行关键帧判断，若不是关键帧则进行光流估计将特征进行叠加再到物体识别网络进行识别输出结果；若是关键帧则经特征提取网络进行特征提取，再到物体识别网络进行识别，输出结果。

本发明的关键帧的提取与传统的关键帧处理技术不一样，传统的关键帧选择也分为：特定帧法、帧平均法和直方图平均法、基于光流的运动分析法，过程较为复杂。而本发明的基于光流的运动分析则是对一个镜头的所有帧进行光流法的运动分析，选择运动量局部极小的帧，作为关键帧。

优选地，所述关键帧的判断方法包括以下步骤：

步骤3.1：将视频流的第一帧作为初始关键帧，后续以0-9帧的随机间隔选取帧；

步骤3.2：检测步骤3.1所选取的帧的图像是否存在严重模糊，若存在则舍弃重选其相邻帧进行检测；

步骤3.3：检测步骤3.2所得的选取帧是否存在光照不足，若存在则舍弃再选择舍弃帧的相邻帧进行检测；

本发明的关键帧判断更为科学，所选取的关键帧均经过光照判断和图像模糊判断，筛选出的都是图像清晰光照足够的帧，有助于后续特征提取步骤提取到更准确的图像特征，提高检索结果的准确性。

优选地，所述神经网络包括光流估计网络和识别网络，所述光流估计网络采用的是基于CNN的FlowNet网络；所述识别网络是在ImageNet 1K数据集上预训练的ResNet网络，用以提取关键帧的卷积特征，通过神经网络处理出来的关键帧内容描述具有多维性，用户可以通过多种描述词获取视频的索引，从而不会因为用户单一的描述词而忽略掉相关的索引视频。

优选地，所述检测选取帧严重模糊的方法包括以下步骤：

步骤5.1：用sobel算子进行边缘检测，得到图像的边缘像素数量；

步骤5.2：将图像进行灰度和二值化处理；

步骤5.3：根据最高值数量/最低值数量来判断图像是否严重模糊。

对关键帧的判断有统一标准，同时对于提取特征而言大大地降低了每个关键帧处理的时间，使得视频能够快速得到处理结果并且处理质量更高。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明中，提供了一种基于神经网络的视频内容分析方法，目前的根据视频内容的检索系统都是根据镜头的切换，以及计算低级图像特征后选取的关键帧，选择的特征也是在同一个镜头下分析的颜色、纹理、运动等特征，而这些特征描述相对于人对视频内容的理解而言都是难以理解的特征。因此在检索时必然会发生分歧，导致检索结果的不准确。基于神经网络的视频内容分析方法将多维特征进行了融合解决了上述计算机理解和用户理解的鸿沟的问题。

2、本发明中，传统的视频内容检索方法大多是要根据低级特征检测镜头，将镜头进行特征检测以后进行聚类，而本发明在关键帧选择时仅根据非模糊，光照条件较好等条件进行挑选，从而处理出整个视频的描述内容，生成的视频内容描述更加完整，也更加多样化。

3、本发明中，通过神经网络处理出来的关键帧内容描述具有多维性，用户可以通过多种描述词获取视频的索引，从而不会因为用户单一的描述词而忽略掉相关的索引视频。

4、本发明中，计算光流仅仅只需要计算像素值的相对运行，这对于提取特征而言大大地降低了每个关键帧处理的时间，使得视频能够快速得到处理结果。

附图说明

图1为本发明中实施例4中的FlowNet结构图；

图2为本发明中实施例4中的ResNet结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

步骤1：将输入的检索信息处理成语义信息；

步骤2：根据步骤1所得的语义信息发送提取指令；

步骤4：输出检索结果。

实施例2

在实施例1的基础上，所述光流和神经网络的检测是先对视频流进行关键帧判断，若不是关键帧则进行光流估计将特征进行叠加再到物体识别网络进行识别输出结果；若是关键帧则经特征提取网络进行特征提取，再到物体识别网络进行识别，输出结果。本发明的关键帧的提取与传统的关键帧处理技术不一样，传统的关键帧选择也分为：特定帧法、帧平均法和直方图平均法、基于光流的运动分析法，过程较为复杂。而本发明的基于光流的运动分析则是对一个镜头的所有帧进行光流法的运动分析，选择运动量局部极小的帧，作为关键帧。

实施例3

在实施例2的基础上，所述关键帧的判断方法包括以下步骤：

实施例4

如图1和2所示，在实施例2的基础上，所述神经网络包括光流估计网络和识别网络，所述光流估计网络采用的是基于CNN的FlowNet网络；所述识别网络是在ImageNet 1K数据集上预训练的ResNet网络，用以提取关键帧的卷积特征，通过神经网络处理出来的关键帧内容描述具有多维性，用户可以通过多种描述词获取视频的索引，从而不会因为用户单一的描述词而忽略掉相关的索引视频。

光流估计网络主要使用的是FlowNet其两个变体，FlowNet Half和FlowNetInception，FlowNet Simple结构，把输入的几张图片叠加在一起，然后在通过这个网络之后该网络会从中提出光流信息。这个卷积网络有9个卷积层，stride为2，每层后进行一个非线性ReLU操作。接下来的网络主要由用以扩大图片，由上卷基层组成，上卷基层由unpooling和一个卷积组层，然后对featuremap使用upconvolution，并且把它和收缩部分对应的feature map以及一个上采样的的光流预测联系起来。每一步提升两倍的分辨率，重复四次。最后这个模型使用Flying Chairs数据集预先训练好，并且输出的stride是4，输入的图片是原图尺寸的二分之一，故网络的输出图像尺寸是原图的八分之一，下一步的网络需要的stride是16，因此还要进行一次降采样将图片的尺寸在减小二分之一。

特征提取默认使用ResNet模型，用ImageNet预先训练的ResNet-50或者是ResNet-101，为了保持时间复杂度，当网络延伸到另一层(即不同颜色块)时，需要进行2倍的下采样。此时，feature map的大小会变为原来的一半，但卷积核的数目为原来的2倍。并且在残差模块，用1*1的卷积核来将输入映射到跟输出一样的维度。

在实际应用用还要舍弃最后的1000路分类层，将特征stride改为16，将第一个conv5层的stride修改为1，对每个conv5中的3*3卷积核执行打孔算法。初始时还要附加一个3*3的卷积核并且对其执行打孔算法。最后会这个网络会输出一个具有1024维的特征通道的中间层特征图以输入下一个网络模块。

识别网络是基于R-FCN网络。R-FCN的基础结构是ResNet-101网络去掉最后一层的全连接层，保留100个卷积层，增加一个1*1*1024的全卷积层。首先生成一个位置敏感分布图，对一个大小为w*h的ROI，1个桶的大小为最后一个卷积层为每类产生k²个分数图。对第(i,j)个桶(i≥0,j≤k-1),定义1个位置敏感ROI池化操作：

其中，r_c(i,j|Θ)为第c类第(i,j)个箱子的池化响应，z_i,j,c为k²(C+1)个分数图中的输出，(x₀,y₀)为ROI的左上角坐标，n为桶里的像素总数，且Θ为网络的参数。接着就是网络的分类操作，对该ROI每类的所有相对空间位置的分数平均池化：

接着是对属于同一个物体的区域定位其边界框，k²(C+1)维的卷积层后，增加1个4k²维的卷积层来回归边界框。每个ROI产生的4k²维向量经过平均投票后，用F-RCNN的参数化来得到1个4维向量(t_x,t_y,t_w,t_h)，然后是对模型进行训练，每个ROI的损失函数为交叉熵损失与边界框回归损失的和。

实施例5

在实施例2的基础上，所述检测选取帧严重模糊的方法包括以下步骤：

步骤5.2：将图像进行灰度和二值化处理；

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于光流和神经网络的视频内容检测方法，其特征在于，所述方法包括以下步骤：

步骤1：将输入的检索信息处理成语义信息；

步骤2：根据步骤1所得的语义信息发送提取指令；

步骤4：输出检索结果。

2.根据权利要求1所述的基于光流和神经网络的视频内容检测方法，其特征在于：所述光流和神经网络的检测是先对视频流进行关键帧判断，若不是关键帧则进行光流估计将特征进行叠加再到物体识别网络进行识别输出结果；若是关键帧则经特征提取网络进行特征提取，再到物体识别网络进行识别，输出结果。

3.根据权利要求2所述的基于光流和神经网络的视频内容检测方法，其特征在于，所述关键帧的判断方法包括以下步骤：

步骤3.4：得到符合要求的关键帧。

4.根据权利要求2所述的基于光流和神经网络的视频内容检测方法，其特征在于：所述神经网络包括光流估计网络和识别网络；所述光流估计网络采用的是基于CNN的FlowNet网络；所述识别网络是在ImageNet 1K数据集上预训练的ResNet网络，用以提取关键帧的卷积特征。

5.根据权利要求2所述的基于光流和神经网络的视频内容检测方法，其特征在于，所述检测选取帧严重模糊的方法包括以下步骤：

步骤5.2：将图像进行灰度和二值化处理；