CN111507275B - 一种基于深度学习的视频数据时序信息提取方法及装置 - Google Patents
一种基于深度学习的视频数据时序信息提取方法及装置 Download PDFInfo
- Publication number
- CN111507275B CN111507275B CN202010313780.0A CN202010313780A CN111507275B CN 111507275 B CN111507275 B CN 111507275B CN 202010313780 A CN202010313780 A CN 202010313780A CN 111507275 B CN111507275 B CN 111507275B
- Authority
- CN
- China
- Prior art keywords
- sequence
- frame
- video
- image
- gradient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 27
- 238000013135 deep learning Methods 0.000 title claims abstract description 9
- 230000003287 optical effect Effects 0.000 claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 28
- 230000004927 fusion Effects 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000010586 diagram Methods 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 4
- 239000012634 fragment Substances 0.000 claims description 3
- 241001270131 Agaricus moelleri Species 0.000 claims description 2
- 230000002093 peripheral effect Effects 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims description 2
- 238000003672 processing method Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 abstract description 16
- 238000004458 analytical method Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005111 flow chemistry technique Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的视频数据时序信息提取方法及装置。首先提取出视频序列的光流特征和像素梯度特征,得到对应的光流特征图序列和像素梯度特征图序列。然后利用图像卷积对光流特征图序列和像素梯度特征图序列进行融合。最后利用三维卷积网络对融合特征图序列进行特征提取,得到视频时序信息。装置包括视频帧获得模块、图像尺寸预处理单元和图像颜色通道预处理模块。视频帧获得模块将视频转换为相同格式图像序列。图像序列送入图像尺寸预处理模块,将图像序列尺寸设置为相同固定尺寸。图像序列输入至图像颜色通道预处理模块,进行RGB颜色通道处理,将颜色三通道压缩成单通道。本发明有效提高了提取视频图像目标时序信息的准确度和效率。
Description
技术领域
本发明涉及一种视频数据时序信息提取方法及实现装置,属于人工智能视频识别分析技术领域。
背景技术
随着多媒体技术、数字化设备以及5G等通信技术的快速发展和普及,视频数据量急剧增加。对海量视频数据的智能分析,一直是很多领域的研究热点。比如在安防领域、交通安全监测以及自动驾驶等,对视频智能分析有着巨大的需求。
如何高效地提取视频图像中包含目标的时序信息,是视频数据智能分析的核心技术。提取视频目标的时序信息,是后续对视频行为进行定位、分类与识别等任务的第一步。目前,通常采用三维卷积神经网络来提取视频特征,如Tran等人提出使用C3D网络对视频小片段进行特征提取,用于对视频中目标行为的分类;Simonyan等人提出利用双流网络Two-Stream分别处理RGB图像得到空域信息和光流图像得到时域信息,用于视频行为的定位与识别。
但是,上述方法都有各自的不足:C3D网络虽然能快速学习时空特征,但对不能充分表征视频行为;Two-Stream双流网络通过训练光流图像,可以较好的表征视频行为信息,但由于双流网络学习,其训练速度较慢。
发明内容
本发明的目的是为了解决在视频数据识别分析当中,提取视频图像目标时序信息准确度低、效率不高的技术问题,创造性地提出一种基于深度学习的视频数据时序信息提取方法及装置。
本发明所述方法的原理是,首先提取出视频序列的光流特征和像素梯度特征,得到对应的光流特征图序列和像素梯度特征图序列。然后,利用图像卷积对光流特征图序列和像素梯度特征图序列进行融合。最后,利用三维卷积网络对融合特征图序列进行特征提取,得到视频时序信息。
另一方面,本发明还提供了一种视频数据时序信息的提取装置,用于实现上述方法在实际中的应用。
本发明采取的技术方案如下:
一种基于深度学习的视频数据时序信息提取方法,包括以下步骤:
步骤1:对待处理的视频序列的相邻两帧,利用光流法求取光流特征,得到光流特征图序列;
同时,对视频序列的每一帧,利用HOG特征提取算法,得到像素梯度特征图序列;
步骤2:利用图像卷积,对光流特征图序列与像素梯度特征图序列进行两次卷积融合,得到融合特征图序列;
步骤3:利用三维卷积网络C3D,对融合特征图序列进行特征提取,得到视频数据时序信息。
一种基于深度学习的视频数据时序信息提取装置,包括视频帧获得模块、图像尺寸预处理模块和图像颜色通道预处理模块。
其中,视频帧获得模块,用于将不同格式的视频转换为相同格式图像;
图像尺寸预处理模块,用于对不同尺寸的图像数据进行处理,得到预设置尺寸大小的图像;
图像颜色通道预处理模块,用于对RGB颜色三通道进行压缩,得到单通道图像。
上述装置的工作过程如下:
视频帧获得模块将视频转换为相同格式的图像序列。图像序列送入图像尺寸预处理模块,将图像序列的尺寸设置为相同固定尺寸大小。之后,图像序列输入至输入图像颜色通道预处理模块,进行RGB颜色通道处理,将颜色三通道压缩成单通道。
有益效果
与现有技术相比,本发明包括以下优点:
(1)采用统一视频帧获得单元,可将不同格式的视频转换为相同格式图像,提高工作效率;
(2)对视频序列提取光流特征图序列和像素梯度特征序列,并对光流特征图序列和像素梯度特征序列进行融合,能够得到含有丰富的目标运动信息的视频序列;
(3)对融合特征图序列进行C3D网络处理,可以提取含有运动信息的时序信息,同时将冗余的视频序列信息去除,提高时序特征的准确度,同时提高视频特征的提取效率,进而使得本发明的实际应用效果更佳;
附图说明
图1是对视频序列提取视频时序信息流程图;
图2是图像卷积模块的卷积结构图;
图3是对特征序列进行融合的流程图;
图4是融合特征图效果;
图5是C3D网络的网络结构图;
图6是视频处理模块图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
实施例
首先提取出视频序列的光流特征和像素梯度特征,得到对应的光流特征图序列和像素梯度特征图序列。然后,利用图像卷积对光流特征图序列和像素梯度特征图序列进行融合。最后,利用三维卷积网络对融合特征图序列进行特征提取,得到视频时序信息。
如图1所示,为本发明所述的基于深度学习的视频数据时序信息提取方法的一个实施例的示意流程框图,包括如下步骤:
步骤1:对待处理的视频序列的相邻两帧,利用光流法求取光流特征,得到光流特征图序列。
具体地,利用Lucas-Kanada光流法,对视频序列相邻两帧,求取光流特征图序列。其中,所述Lucas-Kanada光流法如下:
假设局部域Ω内,像素坐标为(x,y),所有像素的光流恒定为(u,v),其中,u表示x方向的速度矢量,v表示y方向的速度矢量。设局部域内有n个像素点,根据各自对应的光流(u,v),得到以下n组方程:
其中,Ex、Ey和Et分别表示图像中像素点灰度沿x、y、t方向的梯度。
在局部域Ω内,Lucas-Kanada光流的误差式子为:
error(u,v)=∫∫W2(x,y)(Exu+Eyv+Et)2dxdy (2)
其中,W(x,y)={wi|i=1,2,...,n}是局部域内各像素点的权重。
对Lucas-Kanada光流误差式子进行离散化处理:
error(u,v)=∑W2(x,y)(Exu+Eyv+Et)2 (3)
设▽E(x,y)=(Ex,Ey)T,▽E(x,y)表示E(x,y)在x和y方向上的梯度,T表示矩阵转置,上式的解由最小二乘法得到:
其中,A表示矩阵参数,b表示一维矩阵。求解得到:
其中,
W=diag(W(x1,y1),W(x2,y2),...,W(xn,yn)) (7)
其中,▽E(xn,yn)表示E(xn,yn)梯度,表示E(xn,yn)在t处的导数。
同时,对视频序列的每一帧,利用HOG特征提取算法,得到像素梯度特征图序列。
具体如下:
首先,对视频帧进行Gamma和颜色归一化操作。其中,Gamma归一化公式为:
I(x,y)=I(x,y)gamma (9)
I(x,y)表示像素点。
然后,利用水平和垂直微分模板,计算视频帧中每个像素点的梯度大小和方向。具体如下:
设Gx(x,y)为水平方向梯度值,Gy(x,y)为垂直方向梯度值,H(x,y)为像素点I(x,y)的灰度值,G(x,y)为幅值大小,则梯度大小计算方法为:
Gx(x,y)=H(x+1,y)-H(x-1,y) (10)
Gy(x,y)=H(x,y+1)-H(x,y-1) (11)
梯度方向α(x,y)为:
最后,对视频帧图像划分为多个小区域,这些小区域称为细胞单元(Cell)。对每个Cell构建梯度方向直方图,并将梯度方向0至180度平分成若干个区间bin(如9个)。利用插值法,把每个像素的梯度方向离散到Cell相邻的bin上。将Cell合并为Block,统计Block的直方图,并串联所有的Block直方图,构成整个窗口的梯度方向直方图,得到像素梯度特征图。
步骤2:利用图像卷积,对光流特征图序列与像素梯度特征图序列进行卷积融合,得到融合特征图序列。融合过程如图3所示。
具体方法如下:
所述图像卷积包括卷积核为3x3的卷积层a与卷积层b。
首先,分别对光流特征图序列与像素梯度特征图序列的每一帧图像的四周边界填充一个像素;
然后,对于光流特征图序列FX={fx1,fx2,...,fxt,...,fxn},其中,fx1,fx2,...,fxt,...,fxn分别对应光流特征图序列FX中的第1帧、第2帧、…、第t帧、…、第n帧。对于像素梯度特征图序列PX={px1,px2,...,pxt,...,pxn},其中,px1,px2,...,pxt,...,pxn分别对应着像素梯度特征图序列PX中的第1帧、第2帧、…、第t帧、…、第n帧。
将光流特征图序列与像素梯度特征图序列的对应帧作为输入,利用图像卷积中的Conv_a层进行卷积。
最后,将卷积得到的结果,作为Conv_b层的输入进行再次卷积,得到输出即为特征融合图,其中,步长stride=1。最终得到一组融合特征图序列X={x1,x2,...,xt,...,xn},其中,x1,x2,...,xt,...,xn分别对应着融合特征图序列X中的第1帧、第2帧、…、第t帧、…、第n帧。
如图4中a所示,为本实施例的原始图片。对其以及下一帧图片进行光流处理的到光流特征图,如图4中b所示,以及像素梯度特征图,如图4中c所示。经过两个卷积层Conv_a和Conv_b融合,得到融合特征图,如图4中d所示。
步骤3:利用三维卷积网络对融合特征图序列进行特征提取,得到视频时序信息。
具体地,将上述融合特征图序列的第一帧图像作为输入,在三维卷积网络C3D结构中进行特征提取,将fc6层的输出作为特征,得到4096维的视频时序特征向量。
所述C3D网络结构为:8个卷积核为3x3x3的卷积层,5个最大池化层,2个全连接层,具体参见图5。其中,C3D网络处理方法如下:
首先,对于融合特征图序列X={x1,x2,...,xt,...,xn},其中,x1,x2,...,xt,...,xn分别对应着融合特征图序列X中的第1帧、第2帧、…、第t帧、…、第n帧图像,以8帧为一组进行分组得到m组8帧的视频小片段,其中m为n÷8向下取整数;
然后,将每8帧一组的视频序列作为输入,利用C3D网络进行特征提取,通过全连接层fc6处理得到特征提取结果,得到m个4096维的特征向量。
为实现上述方法,本发明提出一种基于深度学习的视频数据时序信息提取装置,包括视频帧获得模块、图像尺寸预处理模块和图像颜色通道预处理模块,如图6所示。
其中,视频帧获得模块,用于将不同格式的视频转换为相同格式图像;
图像尺寸预处理模块,用于对不同尺寸的图像数据进行处理,得到预设置尺寸大小的图像;
图像颜色通道预处理模块,用于对RGB颜色三通道进行压缩,得到单通道图像。
上述装置的工作过程如下:
视频帧获得模块将视频转换为相同格式的图像序列。图像序列送入图像尺寸预处理模块,将图像序列的尺寸设置为相同固定尺寸大小。之后,图像序列输入至输入图像颜色通道预处理模块,进行RGB颜色通道处理,将颜色三通道压缩成单通道。
综上所述,本发明实施例,通过Lucas-Kanada光流法和HOG特征提取,分别对视频序列处理得到光流特征图序列和像素梯度特征图序列。利用图像卷积模块对光流特征图序列和像素梯度特征图序列进行融合。基于三维卷积网络C3D对融合特征图序列进行特征提取,大幅提高视频时序信息准确率。
Claims (1)
1.一种基于深度学习的视频数据时序信息提取方法,其特征在于,包括以下步骤:
步骤1:提取出视频序列的光流特征和像素梯度特征,得到对应的光流特征图序列和像素梯度特征图序列;
其中,提取视频序列的光流特征如下:
利用Lucas-Kanada光流法,对待处理的视频序列相邻两帧,求取光流特征图序列,所述Lucas-Kanada光流法如下:
设局部域Ω内,像素坐标为(x,y),所有像素的光流恒定为(u,v),其中,u表示x方向的速度矢量,v表示y方向的速度矢量;设局部域内有n个像素点,根据各自对应的光流(u,v),得到以下n组方程:
其中,Ex、Ey和Et分别表示图像中像素点灰度沿x、y、t方向的梯度;
在局部域Ω内,Lucas-Kanada光流的误差式子为:
error(u,v)=∫∫W2(x,y)(Exu+Eyv+Et)2dxdy (2)
其中,W(x,y)={wi|i=1,2,...,n}是局部域内各像素点的权重;
对Lucas-Kanada光流误差式子进行离散化处理:
error(u,v)=∑W2(x,y)(Exu+Eyv+Et)2 (3)
设 表示E(x,y)在x和y方向上的梯度,T表示矩阵转置,上式的解由最小二乘法得到:
其中,A表示矩阵参数,b表示一维矩阵,求解得到:
其中,
W=diag(W(x1,y1),W(x2,y2),...,W(xn,yn)) (7)
其中,表示E(xn,yn)梯度,/>表示E(xn,yn)在t处的导数;
提取视频序列的像素梯度特征的方法如下:
对视频序列的每一帧,利用HOG特征提取算法,得到像素梯度特征图序列;
首先,对视频帧进行Gamma和颜色归一化操作,Gamma归一化公式为:
I(x,y)=I(x,y)gamma (9)
I(x,y)表示像素点;
然后,利用水平和垂直微分模板,计算视频帧中每个像素点的梯度大小和方向,具体如下:
设Gx(x,y)为水平方向梯度值,Gy(x,y)为垂直方向梯度值,H(x,y)为像素点I(x,y)的灰度值,G(x,y)为幅值大小,则梯度大小计算方法为:
Gx(x,y)=H(x+1,y)-H(x-1,y) (10)
Gy(x,y)=H(x,y+1)-H(x,y-1) (11)
梯度方向α(x,y)为:
最后,对视频帧图像划分为多个小区域,这些小区域称为细胞单元;对每个细胞单元构建梯度方向直方图,并将梯度方向0至180度平分成若干个区间bin;利用插值法,把每个像素的梯度方向离散到细胞单元相邻的bin上;将细胞单元合并为Block,统计Block的直方图,并串联所有的Block直方图,构成整个窗口的梯度方向直方图,得到像素梯度特征图;
步骤2:利用图像卷积,对光流特征图序列与像素梯度特征图序列进行卷积融合,得到融合特征图序列;
具体如下:
所述图像卷积包括卷积核为3x3的卷积层a与卷积层b;
首先,分别对光流特征图序列与像素梯度特征图序列的每一帧图像的四周边界填充一个像素;
然后,对于光流特征图序列FX={fx1,fx2,...,fxt,...,fxn},其中,fx1,fx2,...,fxt,...,fxn分别对应光流特征图序列FX中的第1帧、第2帧、…、第t帧、…、第n帧;对于像素梯度特征图序列PX={px1,px2,...,pxt,...,pxn},其中,px1,px2,...,pxt,...,pxn分别对应着像素梯度特征图序列PX中的第1帧、第2帧、…、第t帧、…、第n帧;
将光流特征图序列与像素梯度特征图序列的对应帧作为输入,利用图像卷积中的Conv_a层进行卷积;
最后,将卷积得到的结果,作为Conv_b层的输入进行再次卷积,得到输出即为特征融合图,其中,步长stride=1;最终得到一组融合特征图序列X={x1,x2,...,xt,...,xn},其中,x1,x2,...,xt,...,xn分别对应融合特征图序列X中的第1帧、第2帧、…、第t帧、…、第n帧;
步骤3:利用三维卷积网络,对融合特征图序列进行特征提取,得到视频数据时序信息;
将融合特征图序列的第一帧图像作为输入,在三维卷积网络C3D结构中进行特征提取,将全连接层的输出作为特征,得到视频时序特征向量;
其中,C3D网络结构为:8个卷积核为3x3x3的卷积层,5个最大池化层,2个全连接层,C3D网络处理方法如下:
首先,对于融合特征图序列X={x1,x2,...,xt,...,xn},其中,x1,x2,...,xt,...,xn分别对应着融合特征图序列X中的第1帧、第2帧、…、第t帧、…、第n帧图像,以8帧为一组进行分组得到m组8帧的视频小片段,其中m为n÷8向下取整数;
然后,将每8帧一组的视频序列作为输入,利用C3D网络进行特征提取,通过全连接层fc6处理得到特征提取结果,得到m个4096维的特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010313780.0A CN111507275B (zh) | 2020-04-20 | 2020-04-20 | 一种基于深度学习的视频数据时序信息提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010313780.0A CN111507275B (zh) | 2020-04-20 | 2020-04-20 | 一种基于深度学习的视频数据时序信息提取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111507275A CN111507275A (zh) | 2020-08-07 |
CN111507275B true CN111507275B (zh) | 2023-10-10 |
Family
ID=71864233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010313780.0A Active CN111507275B (zh) | 2020-04-20 | 2020-04-20 | 一种基于深度学习的视频数据时序信息提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111507275B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112232283B (zh) * | 2020-11-05 | 2023-09-01 | 深兰科技(上海)有限公司 | 基于光流和c3d网络的气泡检测方法和系统 |
CN113033283B (zh) * | 2020-12-18 | 2022-11-22 | 神思电子技术股份有限公司 | 一种改进的视频分类系统 |
CN112883227B (zh) * | 2021-01-07 | 2022-08-09 | 北京邮电大学 | 一种基于多尺度时序特征的视频摘要生成方法和装置 |
CN112990126B (zh) * | 2021-04-27 | 2021-08-13 | 北京世纪好未来教育科技有限公司 | 视频分类方法、装置、计算机设备和介质 |
CN113222781B (zh) * | 2021-05-11 | 2023-04-18 | 深圳市科荣软件股份有限公司 | 一种智能变频供水方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105046195A (zh) * | 2015-06-09 | 2015-11-11 | 浙江理工大学 | 基于非对称广义高斯模型的人体行为识别方法 |
CN107239760A (zh) * | 2017-06-05 | 2017-10-10 | 中国人民解放军军事医学科学院基础医学研究所 | 一种视频数据处理方法及系统 |
CN108241849A (zh) * | 2017-08-28 | 2018-07-03 | 北方工业大学 | 基于视频的人体交互动作识别方法 |
CN108288035A (zh) * | 2018-01-11 | 2018-07-17 | 华南理工大学 | 基于深度学习的多通道图像特征融合的人体动作识别方法 |
CN110175551A (zh) * | 2019-05-21 | 2019-08-27 | 青岛科技大学 | 一种手语识别方法 |
-
2020
- 2020-04-20 CN CN202010313780.0A patent/CN111507275B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105046195A (zh) * | 2015-06-09 | 2015-11-11 | 浙江理工大学 | 基于非对称广义高斯模型的人体行为识别方法 |
CN107239760A (zh) * | 2017-06-05 | 2017-10-10 | 中国人民解放军军事医学科学院基础医学研究所 | 一种视频数据处理方法及系统 |
CN108241849A (zh) * | 2017-08-28 | 2018-07-03 | 北方工业大学 | 基于视频的人体交互动作识别方法 |
CN108288035A (zh) * | 2018-01-11 | 2018-07-17 | 华南理工大学 | 基于深度学习的多通道图像特征融合的人体动作识别方法 |
CN110175551A (zh) * | 2019-05-21 | 2019-08-27 | 青岛科技大学 | 一种手语识别方法 |
Non-Patent Citations (2)
Title |
---|
Distinguishing Posed and Spontaneous Smiles by Facial Dynamics;Bappaditya Mandal etc.;arXiv:1701.01573v3;全文 * |
杨天明等.基于视频深度学习的时空双流人物动作识别模型.计算机应用.2018,第2节. * |
Also Published As
Publication number | Publication date |
---|---|
CN111507275A (zh) | 2020-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111507275B (zh) | 一种基于深度学习的视频数据时序信息提取方法及装置 | |
CN110728200B (zh) | 一种基于深度学习的实时行人检测方法及系统 | |
CN111640101B (zh) | 基于Ghost卷积特征融合神经网络实时车流量检测系统及方法 | |
CN109949316A (zh) | 一种基于rgb-t融合的电网设备图像弱监督实例分割方法 | |
CN108805070A (zh) | 一种基于嵌入式终端的深度学习行人检测方法 | |
CN108090403A (zh) | 一种基于3d卷积神经网络的人脸动态识别方法及系统 | |
CN112990077B (zh) | 基于联合学习与光流估计的面部动作单元识别方法及装置 | |
CN111597920B (zh) | 一种自然场景下的全卷积单阶段的人体实例分割方法 | |
CN112818969A (zh) | 一种基于知识蒸馏的人脸姿态估计方法及系统 | |
CN114820655B (zh) | 可靠区域作为注意力机制监督的弱监督建筑物分割方法 | |
CN113435254A (zh) | 一种基于哨兵二号影像的耕地深度学习提取方法 | |
CN108491863A (zh) | 基于非负矩阵分解和卷积神经网络的彩色图像处理方法 | |
CN112733914A (zh) | 一种基于支持向量机的水下目标视觉识别分类方法 | |
CN112861931A (zh) | 一种基于差异注意力神经网络的多级别变化检测方法 | |
CN116091946A (zh) | 一种基于YOLOv5的无人机航拍图像目标检测方法 | |
CN108345835B (zh) | 一种基于仿复眼感知的目标识别方法 | |
CN116740516A (zh) | 基于多尺度融合特征提取的目标检测方法及系统 | |
CN113077438B (zh) | 针对多细胞核彩色图像的细胞核区域提取方法及成像方法 | |
CN114677558A (zh) | 一种基于方向梯度直方图与改进胶囊网络的目标检测方法 | |
CN112989919B (zh) | 一种从影像中提取目标对象的方法及系统 | |
CN118212572A (zh) | 一种基于改进YOLOv7的道路损坏检测方法 | |
CN113205078B (zh) | 基于多分支递进强化注意力人群计数方法 | |
CN116562341A (zh) | 一种用于交通信号灯检测的改进型YOLOv5n模型 | |
CN112633116B (zh) | 一种智能解析pdf图文的方法 | |
CN110427920B (zh) | 一种面向监控环境的实时行人解析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |