CN111507275B

CN111507275B - 一种基于深度学习的视频数据时序信息提取方法及装置

Info

Publication number: CN111507275B
Application number: CN202010313780.0A
Authority: CN
Inventors: 赵清杰; 邹远炳; 张长春; 李珊珊
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2023-10-10
Anticipated expiration: 2040-04-20
Also published as: CN111507275A

Abstract

本发明公开了一种基于深度学习的视频数据时序信息提取方法及装置。首先提取出视频序列的光流特征和像素梯度特征，得到对应的光流特征图序列和像素梯度特征图序列。然后利用图像卷积对光流特征图序列和像素梯度特征图序列进行融合。最后利用三维卷积网络对融合特征图序列进行特征提取，得到视频时序信息。装置包括视频帧获得模块、图像尺寸预处理单元和图像颜色通道预处理模块。视频帧获得模块将视频转换为相同格式图像序列。图像序列送入图像尺寸预处理模块，将图像序列尺寸设置为相同固定尺寸。图像序列输入至图像颜色通道预处理模块，进行RGB颜色通道处理，将颜色三通道压缩成单通道。本发明有效提高了提取视频图像目标时序信息的准确度和效率。

Description

一种基于深度学习的视频数据时序信息提取方法及装置

技术领域

本发明涉及一种视频数据时序信息提取方法及实现装置，属于人工智能视频识别分析技术领域。

背景技术

随着多媒体技术、数字化设备以及5G等通信技术的快速发展和普及，视频数据量急剧增加。对海量视频数据的智能分析，一直是很多领域的研究热点。比如在安防领域、交通安全监测以及自动驾驶等，对视频智能分析有着巨大的需求。

如何高效地提取视频图像中包含目标的时序信息，是视频数据智能分析的核心技术。提取视频目标的时序信息，是后续对视频行为进行定位、分类与识别等任务的第一步。目前，通常采用三维卷积神经网络来提取视频特征，如Tran等人提出使用C3D网络对视频小片段进行特征提取，用于对视频中目标行为的分类；Simonyan等人提出利用双流网络Two-Stream分别处理RGB图像得到空域信息和光流图像得到时域信息，用于视频行为的定位与识别。

但是，上述方法都有各自的不足：C3D网络虽然能快速学习时空特征，但对不能充分表征视频行为；Two-Stream双流网络通过训练光流图像，可以较好的表征视频行为信息，但由于双流网络学习，其训练速度较慢。

发明内容

本发明的目的是为了解决在视频数据识别分析当中，提取视频图像目标时序信息准确度低、效率不高的技术问题，创造性地提出一种基于深度学习的视频数据时序信息提取方法及装置。

本发明所述方法的原理是，首先提取出视频序列的光流特征和像素梯度特征，得到对应的光流特征图序列和像素梯度特征图序列。然后，利用图像卷积对光流特征图序列和像素梯度特征图序列进行融合。最后，利用三维卷积网络对融合特征图序列进行特征提取，得到视频时序信息。

另一方面，本发明还提供了一种视频数据时序信息的提取装置，用于实现上述方法在实际中的应用。

本发明采取的技术方案如下：

一种基于深度学习的视频数据时序信息提取方法，包括以下步骤：

步骤1：对待处理的视频序列的相邻两帧，利用光流法求取光流特征，得到光流特征图序列；

同时，对视频序列的每一帧，利用HOG特征提取算法，得到像素梯度特征图序列；

步骤2：利用图像卷积，对光流特征图序列与像素梯度特征图序列进行两次卷积融合，得到融合特征图序列；

步骤3：利用三维卷积网络C3D，对融合特征图序列进行特征提取，得到视频数据时序信息。

一种基于深度学习的视频数据时序信息提取装置，包括视频帧获得模块、图像尺寸预处理模块和图像颜色通道预处理模块。

其中，视频帧获得模块，用于将不同格式的视频转换为相同格式图像；

图像尺寸预处理模块，用于对不同尺寸的图像数据进行处理，得到预设置尺寸大小的图像；

图像颜色通道预处理模块，用于对RGB颜色三通道进行压缩，得到单通道图像。

上述装置的工作过程如下：

视频帧获得模块将视频转换为相同格式的图像序列。图像序列送入图像尺寸预处理模块，将图像序列的尺寸设置为相同固定尺寸大小。之后，图像序列输入至输入图像颜色通道预处理模块，进行RGB颜色通道处理，将颜色三通道压缩成单通道。

有益效果

与现有技术相比，本发明包括以下优点：

(1)采用统一视频帧获得单元，可将不同格式的视频转换为相同格式图像，提高工作效率；

(2)对视频序列提取光流特征图序列和像素梯度特征序列，并对光流特征图序列和像素梯度特征序列进行融合，能够得到含有丰富的目标运动信息的视频序列；

(3)对融合特征图序列进行C3D网络处理，可以提取含有运动信息的时序信息，同时将冗余的视频序列信息去除，提高时序特征的准确度，同时提高视频特征的提取效率，进而使得本发明的实际应用效果更佳；

附图说明

图1是对视频序列提取视频时序信息流程图；

图2是图像卷积模块的卷积结构图；

图3是对特征序列进行融合的流程图；

图4是融合特征图效果；

图5是C3D网络的网络结构图；

图6是视频处理模块图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

实施例

首先提取出视频序列的光流特征和像素梯度特征，得到对应的光流特征图序列和像素梯度特征图序列。然后，利用图像卷积对光流特征图序列和像素梯度特征图序列进行融合。最后，利用三维卷积网络对融合特征图序列进行特征提取，得到视频时序信息。

如图1所示，为本发明所述的基于深度学习的视频数据时序信息提取方法的一个实施例的示意流程框图，包括如下步骤：

步骤1：对待处理的视频序列的相邻两帧，利用光流法求取光流特征，得到光流特征图序列。

具体地，利用Lucas-Kanada光流法，对视频序列相邻两帧，求取光流特征图序列。其中，所述Lucas-Kanada光流法如下：

假设局部域Ω内，像素坐标为(x,y)，所有像素的光流恒定为(u,v)，其中，u表示x方向的速度矢量，v表示y方向的速度矢量。设局部域内有n个像素点，根据各自对应的光流(u,v)，得到以下n组方程：

其中，E_x、E_y和E_t分别表示图像中像素点灰度沿x、y、t方向的梯度。

在局部域Ω内，Lucas-Kanada光流的误差式子为：

error(u,v)＝∫∫W²(x,y)(E_xu+E_yv+E_t)²dxdy (2)

其中，W(x,y)＝{w_i|i＝1,2,...,n}是局部域内各像素点的权重。

对Lucas-Kanada光流误差式子进行离散化处理：

error(u,v)＝∑W²(x,y)(E_xu+E_yv+E_t)² (3)

设▽E(x,y)＝(E_x,E_y)^T，▽E(x,y)表示E(x,y)在x和y方向上的梯度，T表示矩阵转置，上式的解由最小二乘法得到：

其中，A表示矩阵参数，b表示一维矩阵。求解得到：

其中，

W＝diag(W(x₁,y₁),W(x₂,y₂),...,W(x_n,y_n)) (7)

其中，▽E(x_n,y_n)表示E(x_n,y_n)梯度，表示E(x_n,y_n)在t处的导数。

同时，对视频序列的每一帧，利用HOG特征提取算法，得到像素梯度特征图序列。

具体如下：

首先，对视频帧进行Gamma和颜色归一化操作。其中，Gamma归一化公式为：

I(x,y)＝I(x,y)^gamma (9)

I(x,y)表示像素点。

然后，利用水平和垂直微分模板，计算视频帧中每个像素点的梯度大小和方向。具体如下：

设G_x(x,y)为水平方向梯度值，G_y(x,y)为垂直方向梯度值，H(x,y)为像素点I(x,y)的灰度值，G(x,y)为幅值大小，则梯度大小计算方法为：

G_x(x,y)＝H(x+1,y)-H(x-1,y) (10)

G_y(x,y)＝H(x,y+1)-H(x,y-1) (11)

梯度方向α(x,y)为：

最后，对视频帧图像划分为多个小区域，这些小区域称为细胞单元(Cell)。对每个Cell构建梯度方向直方图，并将梯度方向0至180度平分成若干个区间bin(如9个)。利用插值法，把每个像素的梯度方向离散到Cell相邻的bin上。将Cell合并为Block，统计Block的直方图，并串联所有的Block直方图，构成整个窗口的梯度方向直方图，得到像素梯度特征图。

步骤2：利用图像卷积，对光流特征图序列与像素梯度特征图序列进行卷积融合，得到融合特征图序列。融合过程如图3所示。

具体方法如下：

所述图像卷积包括卷积核为3x3的卷积层a与卷积层b。

首先，分别对光流特征图序列与像素梯度特征图序列的每一帧图像的四周边界填充一个像素；

然后，对于光流特征图序列FX＝{fx₁,fx₂,...,fx_t,...,fx_n},其中，fx₁,fx₂,...,fx_t,...,fx_n分别对应光流特征图序列FX中的第1帧、第2帧、…、第t帧、…、第n帧。对于像素梯度特征图序列PX＝{px₁,px₂,...,px_t,...,px_n},其中，px₁,px₂,...,px_t,...,px_n分别对应着像素梯度特征图序列PX中的第1帧、第2帧、…、第t帧、…、第n帧。

将光流特征图序列与像素梯度特征图序列的对应帧作为输入，利用图像卷积中的Conv_a层进行卷积。

最后，将卷积得到的结果，作为Conv_b层的输入进行再次卷积，得到输出即为特征融合图，其中，步长stride＝1。最终得到一组融合特征图序列X＝{x₁,x₂,...,x_t,...,x_n},其中，x₁,x₂,...,x_t,...,x_n分别对应着融合特征图序列X中的第1帧、第2帧、…、第t帧、…、第n帧。

如图4中a所示，为本实施例的原始图片。对其以及下一帧图片进行光流处理的到光流特征图，如图4中b所示，以及像素梯度特征图，如图4中c所示。经过两个卷积层Conv_a和Conv_b融合，得到融合特征图，如图4中d所示。

步骤3：利用三维卷积网络对融合特征图序列进行特征提取，得到视频时序信息。

具体地，将上述融合特征图序列的第一帧图像作为输入，在三维卷积网络C3D结构中进行特征提取，将fc6层的输出作为特征，得到4096维的视频时序特征向量。

所述C3D网络结构为：8个卷积核为3x3x3的卷积层，5个最大池化层，2个全连接层，具体参见图5。其中，C3D网络处理方法如下：

首先，对于融合特征图序列X＝{x₁,x₂,...,x_t,...,x_n},其中，x₁,x₂,...,x_t,...,x_n分别对应着融合特征图序列X中的第1帧、第2帧、…、第t帧、…、第n帧图像，以8帧为一组进行分组得到m组8帧的视频小片段，其中m为n÷8向下取整数；

然后，将每8帧一组的视频序列作为输入，利用C3D网络进行特征提取，通过全连接层fc6处理得到特征提取结果，得到m个4096维的特征向量。

为实现上述方法，本发明提出一种基于深度学习的视频数据时序信息提取装置，包括视频帧获得模块、图像尺寸预处理模块和图像颜色通道预处理模块，如图6所示。

上述装置的工作过程如下：

综上所述，本发明实施例，通过Lucas-Kanada光流法和HOG特征提取，分别对视频序列处理得到光流特征图序列和像素梯度特征图序列。利用图像卷积模块对光流特征图序列和像素梯度特征图序列进行融合。基于三维卷积网络C3D对融合特征图序列进行特征提取，大幅提高视频时序信息准确率。

Claims

1.一种基于深度学习的视频数据时序信息提取方法，其特征在于，包括以下步骤：

步骤1：提取出视频序列的光流特征和像素梯度特征，得到对应的光流特征图序列和像素梯度特征图序列；

其中，提取视频序列的光流特征如下：

利用Lucas-Kanada光流法，对待处理的视频序列相邻两帧，求取光流特征图序列，所述Lucas-Kanada光流法如下：

设局部域Ω内，像素坐标为(x,y)，所有像素的光流恒定为(u,v)，其中，u表示x方向的速度矢量，v表示y方向的速度矢量；设局部域内有n个像素点，根据各自对应的光流(u,v)，得到以下n组方程：

其中，E_x、E_y和E_t分别表示图像中像素点灰度沿x、y、t方向的梯度；

在局部域Ω内，Lucas-Kanada光流的误差式子为：

error(u，v)＝∫∫W²(x，y)(E_xu+E_yv+E_t)²dxdy (2)

其中，W(x,y)＝{w_i|i＝1,2,...,n}是局部域内各像素点的权重；

对Lucas-Kanada光流误差式子进行离散化处理：

error(u,v)＝∑W²(x,y)(E_xu+E_yv+E_t)² (3)

设表示E(x,y)在x和y方向上的梯度，T表示矩阵转置，上式的解由最小二乘法得到：

其中，A表示矩阵参数，b表示一维矩阵，求解得到：

其中，

W＝diag(W(x₁,y₁),W(x₂,y₂),...,W(x_n,y_n)) (7)

其中，表示E(x_n,y_n)梯度，/>表示E(x_n,y_n)在t处的导数；

提取视频序列的像素梯度特征的方法如下：

对视频序列的每一帧，利用HOG特征提取算法，得到像素梯度特征图序列；

首先，对视频帧进行Gamma和颜色归一化操作，Gamma归一化公式为：

I(x,y)＝I(x,y)^gamma (9)

I(x,y)表示像素点；

然后，利用水平和垂直微分模板，计算视频帧中每个像素点的梯度大小和方向，具体如下：

G_x(x,y)＝H(x+1,y)-H(x-1,y) (10)

G_y(x,y)＝H(x,y+1)-H(x,y-1) (11)

梯度方向α(x,y)为：

最后，对视频帧图像划分为多个小区域，这些小区域称为细胞单元；对每个细胞单元构建梯度方向直方图，并将梯度方向0至180度平分成若干个区间bin；利用插值法，把每个像素的梯度方向离散到细胞单元相邻的bin上；将细胞单元合并为Block，统计Block的直方图，并串联所有的Block直方图，构成整个窗口的梯度方向直方图，得到像素梯度特征图；

步骤2：利用图像卷积，对光流特征图序列与像素梯度特征图序列进行卷积融合，得到融合特征图序列；

具体如下：

所述图像卷积包括卷积核为3x3的卷积层a与卷积层b；

然后，对于光流特征图序列FX＝{fx₁,fx₂,...,fx_t,...,fx_n},其中，fx₁,fx₂,...,fx_t,...,fx_n分别对应光流特征图序列FX中的第1帧、第2帧、…、第t帧、…、第n帧；对于像素梯度特征图序列PX＝{px₁,px₂,...,px_t,...,px_n},其中，px₁,px₂,...,px_t,...,px_n分别对应着像素梯度特征图序列PX中的第1帧、第2帧、…、第t帧、…、第n帧；

将光流特征图序列与像素梯度特征图序列的对应帧作为输入，利用图像卷积中的Conv_a层进行卷积；

最后，将卷积得到的结果，作为Conv_b层的输入进行再次卷积，得到输出即为特征融合图，其中，步长stride＝1；最终得到一组融合特征图序列X＝{x₁,x₂,...,x_t,...,x_n},其中，x₁,x₂,...,x_t,...,x_n分别对应融合特征图序列X中的第1帧、第2帧、…、第t帧、…、第n帧；

步骤3：利用三维卷积网络，对融合特征图序列进行特征提取，得到视频数据时序信息；

将融合特征图序列的第一帧图像作为输入，在三维卷积网络C3D结构中进行特征提取，将全连接层的输出作为特征，得到视频时序特征向量；

其中，C3D网络结构为：8个卷积核为3x3x3的卷积层，5个最大池化层，2个全连接层，C3D网络处理方法如下：