CN111291647B - 基于多尺度卷积核和超事件模块的单阶段动作定位方法 - Google Patents
基于多尺度卷积核和超事件模块的单阶段动作定位方法 Download PDFInfo
- Publication number
- CN111291647B CN111291647B CN202010068403.5A CN202010068403A CN111291647B CN 111291647 B CN111291647 B CN 111291647B CN 202010068403 A CN202010068403 A CN 202010068403A CN 111291647 B CN111291647 B CN 111291647B
- Authority
- CN
- China
- Prior art keywords
- temporal
- video
- features
- layer
- spatio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000009471 action Effects 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000014509 gene expression Effects 0.000 claims abstract description 33
- 230000009467 reduction Effects 0.000 claims abstract description 8
- 230000002123 temporal effect Effects 0.000 claims description 73
- 238000011176 pooling Methods 0.000 claims description 28
- 230000004807 localization Effects 0.000 claims description 22
- 238000012360 testing method Methods 0.000 claims description 14
- 238000009826 distribution Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000003287 optical effect Effects 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 239000012634 fragment Substances 0.000 abstract 1
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- RZSCFTDHFNHMOR-UHFFFAOYSA-N n-(2,4-difluorophenyl)-2-[3-(trifluoromethyl)phenoxy]pyridine-3-carboxamide;1,1-dimethyl-3-(4-propan-2-ylphenyl)urea Chemical compound CC(C)C1=CC=C(NC(=O)N(C)C)C=C1.FC1=CC(F)=CC=C1NC(=O)C1=CC=CN=C1OC1=CC=CC(C(F)(F)F)=C1 RZSCFTDHFNHMOR-UHFFFAOYSA-N 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/44—Event detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
一种基于多尺度卷积核和超事件模块的单阶段动作定位方法,由提取视频时空特征、特征卷积与降维、构建主干分支和学习超事件表达、构建定位和分类分支、获取预测结果步骤组成。其中主干分支用多尺度深度可分离时序卷积层捕获视频中动作时间跨度的多样性并生成多尺度特征,采用超事件模块学习输入视频的时序结构和上下文信息得到对应的超事件表达,超事件表达与经反卷积操作生成的定位和分类分支中的多尺度特征图融合经定位和分类预测层获取预测结果。本发明与现有的主流单阶段动作定位方法相比,能更好地检测视频中不同时间跨度的动作,学习得到的超事件表达提高了动作定位准确率,可用于视频中动作片段提取。
Description
技术领域
本发明属于计算机视觉技术领域,具体地涉及到视频检索中的时序动作定位。
背景技术
动作定位旨在检测未经分割的视频中若干类别动作的起止时间及类别。随着互联网发展和个人智能移动设备的大量增加,人们正产生、存储和使用大量的视频。视频中人类行为理解技术在智能安防、视频检索、人机交互和其它领域有广泛地应用价值,得到业界和学术界的关注和研究。
双流网络和三维卷积网络是动作定位常用的两种提取视频特征的网络。双流网络通过引入光流信息来表示视频中的运动信息,与二维卷积网络不同,三维卷积网络可以同时学习视频的时空特征,但由于大规模参数量和视频资源的缺乏导致训练困难。动作定位方法按照是否事先进行动作提议生成可分为两阶段和单阶段两大类。视频中动作片段时长的多样性是导致目前动作定位方法性能不佳的一个主要原因,传统的单阶段动作定位方法使用固定尺度卷积核的一维时序卷积层不能有效地捕获动作片段时长的多样性。视频中的时序结构和上下文信息对于得到精确的动作起止时间和分类结果十分重要。为此,Wang等人提出两阶段的SSN网络,通过将动作提议分为开始、持续和结束三个阶段来进行时序结构分析,通过扩展动作提议的时长获取上下文信息。两阶段的TAL-Net网络通过在生成动作提议和分类时扩大感受野来编码时序上下文信息。然而,上述两阶段检测方法只关注了局部的上下文信息却忽略了整段视频中丰富的时序结构和上下文信息。单阶段检测方法由于同时进行动作提议生成和分类的特性,不能有效地利用动作提议对应的时序结构和上下文信息。
针对上述单阶段动作定位方法存在的技术问题,本发明提出基于多尺度卷积核和超事件模块的单阶段动作定位方法对视频中的动作进行定位。
发明内容
本发明所要解决的技术问题在于克服上述现有技术的缺点,提供一种方法简单、定位速度快、定位精度高的基于多尺度卷积核和超事件模块的单阶段动作定位方法。
解决上述技术问题所采用的技术方案是由下述步骤组成:
(1)提取视频时空特征
将视频抽取为图像帧序列和光流帧序列,图像帧序列和光流帧序列分别采用滑动窗口方法以窗口大小1024帧、步长256帧划分为帧序列片段,送入三维卷积网络提取得到128×1204维的视频时空特征。
(2)特征卷积与降维
对提取的视频时空特征经两层一维时序卷积层对特征进行卷积操作,经第一层最大池化层进行池化操作将特征时间维度降低一半得到64×1024维的视频时空特征,经维度调整后得到64×1×1×1024维的输出视频时空特征。
(3)构建主干分支和学习超事件表达
将3个多尺度深度可分离时序卷积层串连构建成主干分支(1),输出视频时空特征经3个串连的多尺度深度可分离时序卷积层生成32×1×1×1280、16×1×1×1600、8×1×1×2000三种不同尺度的视频时空特征,每个多尺度深度可分离时序卷积层对应输出一种尺度的视频时空特征;每个多尺度深度可分离时序卷积层的输出视频时空特征经其后的超事件模块学习视频时空特征对应的超事件表达,超事件表达中包含输入视频的时序结构和上下文信息。
(4)构建定位和分类分支
1)主干分支(1)中3个多尺度深度可分离时序卷积层输出视频时空特征经卷积核大小为1×1×1的时序卷积层将特征通道数扩大至2480后得到时间维度为32、16、8,通道数为2480的32×1×1×2480、16×1×1×2480、8×1×1×2480的三种输出视频时空特征。
2)使用一维时序卷积层对三种输出视频时空特征进行卷积操作;主干分支(1)中第3层输出视频时空特征经卷积操作后生成8×1×1×2480维的视频时空特征作为定位分支(2)和分类分支(3)中第3层的视频时空特征。
3)第3层的视频时空特征经反卷积层将时间维度扩大2倍得到16×1×1×2480维的视频时空特征,和主干分支(1)第2层16×1×1×2480维的视频时空特征进行通道相加生成定位分支(2)和分类分支(3)中第2层的视频时空特征;第2层的视频时空特征用相同的方法得到32×1×1×2480维的视频时空特征,和主干分支(1)第1层32×1×1×2480维的视频时空特征进行通道相加生成定位分支(2)和分类分支(3)中第1层的视频时空特征。
(5)获取预测结果
1)为3个分支中每层视频时空特征对应的每个时间维度设定长宽比RS为{0.5,0.75,1,1.5,2}的动作提议,每个分支的三层输出视频时空特征对应的尺度BS为{1/16,1/8,1/4},长宽比RS与尺度BS的乘积得到3个分支中每层视频时空特征对应的动作提议的时长。
2)训练和测试时将定位分支(2)和分类分支(3)三层视频时空特征分别与主干分支(1)中学习得到的超事件表达按通道先后顺序拼接送入分类预测层和定位预测层生成预测结果;对于每个动作提议,由下式得到预测结果:
3)将预测的动作提议中心和宽度在测试时,使用阈值为0.2的非极大值抑制策略去除冗余,得到预测结果。
本发明的特征卷积与降维步骤(2)为:对提取的视频时空特征经两层卷积核大小为5、步长为1的一维时序卷积层对特征进行卷积操作,经第一层池化核大小为4、步长为2的最大池化层进行池化操作将特征时间维度降低一半得到64×1024维的视频时空特征,经维度调整后得到64×1×1×1024维的输出视频时空特征。
在本发明的构建主干分支(1)和学习超事件表达步骤(3)中,所述的生成32×1×1×1280、16×1×1×1600、8×1×1×2000三种不同尺度的视频时空特征的方法如下:
1)将64×1×1×1024维的视频时空特征输入第1个多尺度深度可分离时序卷积层,按特征通道将输出视频时空特征分为4组,每组视频时空特征维度为64×1×1×256。
2)使用时序卷积模块对每组输入视频时空特征进行卷积操作,时序卷积模块由5个并行的分支构成,其中第1个分支使用池化核大小为2、步长为1的最大池化层对输入视频时空特征进行池化操作,第2、3、4个分支分别使用卷积核大小为3、5、7的一维时序卷积层对视频时空特征进行卷积操作;在每个分支后连接卷积核大小为1×1的二维卷积层,5个分支的输出视频时空特征按分支的先后顺序依次拼接得到每组输入视频时空特征对应的输出视频时空特征。
3)4组输出视频时空特征按分组的先后顺序依次拼接,打乱特征通道顺序来交互不同通道间的信息。
4)特征通道顺序打乱后的视频时空特征经池化核大小为2,步长为1的最大池化层进行池化操作将特征时间维度降低一半,得到第1个多尺度深度可分离时序卷积层32×1×1×1280维的输出视频时空特征。
5)重复2次步骤1)~4),生成主干分支(1),即三种不同尺度的视频时空特征。
在本发明的构建主干分支(1)和学习超事件表达步骤(3)中,所述的超事件模块学习视频时空特征对应的超事件表达方法如下:
1)每2~5个柯西分布构建成1个时序结构滤波器Fm,共构建成2~5个时序滤波器Fm;每个时序结构滤波器Fm由下式确定:
式中t为某一时刻、t∈{1,2,...,T},T是多尺度深度可分离时序卷积层输出视频时空特征时间维度、为有限的正整数;n为某一时序结构滤波器、n∈{1,2,...,N},N是时序结构滤波器的个数、为有限的正整数;xn和γn分别为具体某一柯西分布的中心位置和宽度,和分别为多个柯西分布中心位置和宽度的集合,tanh为激活函数,exp为指数函数,Zn为归一化常数。
2)将得到的2~5个时序结构滤波器Fm与多尺度深度可分离时序卷积层的输出视频时空特征进行矩阵相乘得到中间特征,中间特征与通过注意力机制学习得到的的软注意力权重,进行矩阵相乘,得到超事件表达SC,具体方法如下:
式中M为时序结构滤波器Fm的个数,T为多尺度深度可分离时序卷积层输出视频时空特征时间维度,Vt表示多尺度深度可分离时序卷积层输出视频时空特征,Wc,m和Wc,k分别为第m个和第k个时序结构滤波器Fm对应的权重,Ac,m表示第m个时序结构滤波器Fm对应的软注意力权重,exp为指数函数。
在步骤1)中,最佳每3个柯西分布构建成1个时序结构滤波器Fm,共构建成3个时序滤波器Fm。
本发明的构建定位和分类分支步骤(4)的步骤2)为:使用卷积核大小为3、步长为1的一维时序卷积层对三种输出视频时空特征进行卷积操作;主干分支中第3层输出视频时空特征经卷积操作后生成8×1×1×2480维的视频时空特征作为定位分支和分类分支中第3层的视频时空特征。
所述的构建定位和分类分支步骤(4)的步骤3)为:第3层的视频时空特征经卷积核大小为4、步长为2的反卷积层将时间维度扩大2倍得到16×1×1×2480维的视频时空特征,和主干分支第2层16×1×1×2480维的视频时空特征进行通道相加生成定位分支和分类分支中第2层的视频时空特征;第2层的视频时空特征用相同的方法得到32×1×1×2480维的视频时空特征,和主干分支第1层32×1×1×2480维的视频时空特征进行通道相加生成定位分支和分类分支中第1层的视频时空特征。
由于本发明采用三维卷积提取视频的时空特征,用多尺度深度可分离时序卷积层构成主干分支,采用超事件模块学习输入视频的时序结构和上下文信息,对视频进行动作定位。本发明与主流的两阶段方法和单阶段方法相比,具有方法简单、定位速度快、定位精度高等优点,可对时效性要求比较高的视频进行动作定位。
附图说明
图1本发明实施例1的工艺流程图。
图2是图1中构建定位和分类分支的工艺流程图。
图3本发明实施例1方法与Decouple-SSAD网络的对比实验结果图。
图4本发明方法的可视化实验结果图。
具体实施方式
下面结合附图和实例对本发明进一步详细说明,但本发明不限于下述实施例。
实施例1
本实施例的视频来自THUMOS14数据集,数据集中包含1010个验证集视频和1574个测试集视频,总时长超过24小时,共20个动作类别。其中验证集包含200个未经分割且带有时间标注的视频,测试集包含213个未经分割且带有时间标注的视频。基于多尺度卷积核和超事件模块的单阶段动作定位方法步骤如下(如图1所示):
(1)提取视频时空特征
将视频抽取为图像帧序列和光流帧序列,图像帧序列和光流帧序列分别采用滑动窗口方法以窗口大小1024帧、步长256帧划分为帧序列片段,送入三维卷积网络提取得到128×1204维的视频时空特征。
(2)特征卷积与降维
对提取的视频时空特征经两层卷积核大小为5、步长为1的一维时序卷积层对特征进行卷积操作,经第一层池化核大小为4、步长为2的最大池化层进行池化操作将特征时间维度降低一半得到64×1024维的视频时空特征,经维度调整后得到64×1×1×1024维的输出视频时空特征。
(3)构建主干分支和学习超事件表达
将3个多尺度深度可分离时序卷积层串连构建成主干分支1,输出视频时空特征经3个串连的多尺度深度可分离时序卷积层生成32×1×1×1280、16×1×1×1600、8×1×1×2000三种不同尺度的视频时空特征,每个多尺度深度可分离时序卷积层对应输出一种尺度的视频时空特征;每个多尺度深度可分离时序卷积层的输出视频时空特征经其后的超事件模块学习视频时空特征对应的超事件表达,超事件表达中包含输入视频的时序结构和上下文信息。
上述的生成32×1×1×1280、16×1×1×1600、8×1×1×2000三种不同尺度的视频时空特征的方法如下:
1)将64×1×1×1024维的视频时空特征输入第1个多尺度深度可分离时序卷积层,按特征通道将输出视频时空特征分为4组,每组视频时空特征维度为64×1×1×256。
2)使用时序卷积模块对每组输入视频时空特征进行卷积操作,时序卷积模块由5个并行的分支构成,其中第1个分支使用池化核大小为2、步长为1的最大池化层对输入视频时空特征进行池化操作,第2、3、4个分支分别使用卷积核大小为3、5、7的一维时序卷积层对视频时空特征进行卷积操作;在每个分支后连接卷积核大小为1×1的二维卷积层用于增强卷积和池化操作后特征的非线性表达能力,5个分支的输出视频时空特征按分支的先后顺序依次拼接得到每组输入视频时空特征对应的输出视频时空特征。
3)4组输出视频时空特征按分组的先后顺序依次拼接,打乱特征通道顺序来交互不同通道间的信息。
4)特征通道顺序打乱后的视频时空特征经池化核大小为2,步长为1的最大池化层进行池化操作将特征时间维度降低一半,得到第1个多尺度深度可分离时序卷积层32×1×1×1280维的输出视频时空特征。
5)重复2次步骤1)~4),生成主干分支1,即三种不同尺度的视频时空特征。
上述的超事件模块学习视频时空特征对应的超事件表达方法如下:
1)每3个柯西分布构建成1个时序结构滤波器Fm,共构建成3个时序滤波器Fm;每个时序结构滤波器Fm由下式确定:
式中t为某一时刻、t∈{1,2,...,T},T是多尺度深度可分离时序卷积层输出视频时空特征时间维度、为有限的正整数;n为某一时序结构滤波器、n∈{1,2,...,N},N是时序结构滤波器的个数、为有限的正整数;xn和γn分别为具体某一柯西分布的中心位置和宽度,和分别为多个柯西分布中心位置和宽度的集合,tanh为激活函数,exp为指数函数,Zn为归一化常数。
2)将得到的3个时序结构滤波器Fm与多尺度深度可分离时序卷积层的输出视频时空特征进行矩阵相乘得到中间特征,中间特征与通过注意力机制学习得到的的软注意力权重,进行矩阵相乘,得到超事件表达SC,具体方法如下:
式中M为时序结构滤波器Fm的个数,T为多尺度深度可分离时序卷积层输出视频时空特征时间维度,Vt表示多尺度深度可分离时序卷积层输出视频时空特征,Wc,m和Wc,k分别为第m个和第k个时序结构滤波器Fm对应的权重,Ac,m表示第m个时序结构滤波器Fm对应的软注意力权重,exp为指数函数。
(4)构建定位和分类分支
如图2所示,本实施例的构建定位和分类分支步骤如下:
1)主干分支1中3个多尺度深度可分离时序卷积层输出视频时空特征经卷积核大小为1×1×1的时序卷积层将特征通道数扩大至2480后得到时间维度为32、16、8,通道数为2480的32×1×1×2480、16×1×1×2480、8×1×1×2480的三种输出视频时空特征。
2)使用卷积核大小为3、步长为1的一维时序卷积层对三种输出视频时空特征进行卷积操作;主干分支1中第3层输出视频时空特征经卷积操作后生成8×1×1×2480维的视频时空特征作为定位分支2和分类分支3中第3层的视频时空特征。
3)第3层的视频时空特征经卷积核大小为4、步长为2的反卷积层将时间维度扩大2倍得到16×1×1×2480维的视频时空特征,和主干分支1第2层16×1×1×2480维的视频时空特征进行通道相加生成定位分支2和分类分支3中第2层的视频时空特征;第2层的视频时空特征用相同的方法得到32×1×1×2480维的视频时空特征,和主干分支1第1层32×1×1×2480维的视频时空特征进行通道相加生成定位分支2和分类分支3中第1层的视频时空特征。
(5)获取预测结果
1)为3个分支中每层视频时空特征对应的每个时间维度设定长宽比RS为{0.5,0.75,1,1.5,2}的动作提议,每个分支的三层输出视频时空特征对应的尺度BS为{1/16,1/8,1/4},长宽比RS与尺度BS的乘积得到3个分支中每层视频时空特征对应的动作提议的时长。
2)训练和测试时将定位分支2和分类分支3三层视频时空特征分别与主干分支1中学习得到的超事件表达按通道先后顺序拼接送入分类预测层和定位预测层生成预测结果。对于每个动作提议,由下式得到预测结果:
3)将预测的动作提议中心和宽度在测试时,使用阈值为0.2的非极大值抑制策略去除冗余,得到预测结果。
实现基于多尺度卷积核和超事件模块的单阶段动作定位。
实施例2
本实施例的视频来自THUMOS14数据集,数据集中包含1010个验证集视频和1574个测试集视频,总时长超过24小时,共20个动作类别。其中验证集包含200个未经分割且带有时间标注的视频,测试集包含213个未经分割且带有时间标注的视频。基于多尺度卷积核和超事件模块的单阶段动作定位方法步骤如下:
(1)提取视频时空特征
该步骤与实施例1相同。
(2)特征卷积与降维
该步骤与实施例1相同。
(3)构建主干分支和学习超事件表达
本实施例的超事件模块学习视频时空特征对应的超事件表达方法如下:(权4补入)
在步骤1)中,每2个柯西分布构建成1个时序结构滤波器Fm,共构建成2个时序滤波器Fm。该步骤的其它步骤与实施例1相同。
在步骤2)中,将得到的2个时序结构滤波器Fm与多尺度深度可分离时序卷积层的输出视频时空特征进行矩阵相乘得到中间特征,中间特征与通过注意力机制学习得到的的软注意力权重,进行矩阵相乘,得到超事件表达SC。该步骤与实施例1相同。
构建主干分支和学习超事件表达步骤(3)中的其它步骤与实施例1相同。
其它步骤与实施例1相同。实现基于多尺度卷积核和超事件模块的单阶段动作定位。
实施例3
本实施例的视频来自THUMOS14数据集,数据集中包含1010个验证集视频和1574个测试集视频,总时长超过24小时,共20个动作类别。其中验证集包含200个未经分割且带有时间标注的视频,测试集包含213个未经分割且带有时间标注的视频。基于多尺度卷积核和超事件模块的单阶段动作定位方法步骤如下:
(1)提取视频时空特征
该步骤与实施例1相同。
(2)特征卷积与降维
该步骤与实施例1相同。
(3)构建主干分支和学习超事件表达
本实施例的超事件模块学习视频时空特征对应的超事件表达方法如下:
在步骤1)中,每5个柯西分布构建成1个时序结构滤波器Fm,共构建成5个时序滤波器Fm。该步骤的其它步骤与实施例1相同。
在步骤2)中,将得到的5个时序结构滤波器Fm与多尺度深度可分离时序卷积层的输出视频时空特征进行矩阵相乘得到中间特征,中间特征与通过注意力机制学习得到的的软注意力权重,进行矩阵相乘,得到超事件表达SC。该步骤与实施例1相同。
构建主干分支和学习超事件表达步骤(3)中的其它步骤与实施例1相同。
其它步骤与实施例1相同。实现基于多尺度卷积核和超事件模块的单阶段动作定位。
为了验证本发明的有益效果,发明人采用本发明实施例1的方法与Decouple-SSAD(UCF101数据集预训练)和Decouple-SSAD(Kinetics数据集预训练)方法进行了对比实验,用训练后的模型在THUMOS14测试集使用给定的评估代码测试模型精度,采用时间交并比阈值为0.5的平均正确率mAP作为评价指标,实验结果见图3。在图3中,横坐标表示THUMOS14数据集20个动作类别的AP值,纵坐标表示交并比阈值为0.5时的AP值,本发明的平均正确率mAP值为44.3%。
动作Javelin Throw的定位结果如图4所示,在图4中,Ground Truth为真实动作起止时间和类别,Detection为本发明预测的动作起止时间和类别,横坐标为时间,由图4可见本发明可以精确地检测出视频中动作的起止时间及类别。
Claims (6)
1.一种基于多尺度卷积核和超事件模块的单阶段动作定位方法,其特征在于由下述步骤组成:
(1)提取视频时空特征
将视频抽取为图像帧序列和光流帧序列,图像帧序列和光流帧序列分别采用滑动窗口方法以窗口大小1024帧、步长256帧划分为帧序列片段,送入三维卷积网络提取得到128×1204维的视频时空特征;
(2)特征卷积与降维
对提取的视频时空特征经两层一维时序卷积层对特征进行卷积操作,经第一层最大池化层进行池化操作将特征时间维度降低一半得到64×1024维的视频时空特征,经维度调整后得到64×1×1×1024维的输出视频时空特征;
(3)构建主干分支和学习超事件表达
将3个多尺度深度可分离时序卷积层串连构建成主干分支(1),输出视频时空特征经3个串连的多尺度深度可分离时序卷积层生成32×1×1×1280、16×1×1×1600、8×1×1×2000三种不同尺度的视频时空特征,每个多尺度深度可分离时序卷积层对应输出一种尺度的视频时空特征;每个多尺度深度可分离时序卷积层的输出视频时空特征经其后的超事件模块学习视频时空特征对应的超事件表达,超事件表达中包含输入视频的时序结构和上下文信息;
(4)构建定位和分类分支
1)主干分支(1)中3个多尺度深度可分离时序卷积层输出视频时空特征经卷积核大小为1×1×1的时序卷积层将特征通道数扩大至2480后得到时间维度为32、16、8,通道数为2480的32×1×1×2480、16×1×1×2480、8×1×1×2480的三种输出视频时空特征;
2)使用一维时序卷积层对三种输出视频时空特征进行卷积操作;主干分支(1)中第3层输出视频时空特征经卷积操作后生成8×1×1×2480维的视频时空特征作为定位分支(2)和分类分支(3)中第3层的视频时空特征;
3)第3层的视频时空特征经反卷积层将时间维度扩大2倍得到16×1×1×2480维的视频时空特征,和主干分支(1)第2层16×1×1×2480维的视频时空特征进行通道相加生成定位分支(2)和分类分支(3)中第2层的视频时空特征;第2层的视频时空特征用相同的方法得到32×1×1×2480维的视频时空特征,和主干分支(1)第1层32×1×1×2480维的视频时空特征进行通道相加生成定位分支(2)和分类分支(3)中第1层的视频时空特征;
(5)获取预测结果
1)为3个分支中每层视频时空特征对应的每个时间维度设定长宽比RS为{0.5,0.75,1,1.5,2}的动作提议,每个分支的三层输出视频时空特征对应的尺度BS为{1/16,1/8,1/4},长宽比RS与尺度BS的乘积得到3个分支中每层视频时空特征对应的动作提议的时长;
2)训练和测试时将定位分支(2)和分类分支(3)三层视频时空特征分别与主干分支(1)中学习得到的超事件表达按通道先后顺序拼接送入分类预测层和定位预测层生成预测结果;对于每个动作提议,由下式得到预测结果:
3)将预测的动作提议中心和宽度在测试时,使用阈值为0.2的非极大值抑制策略去除冗余,得到预测结果。
2.根据权利要求1所述的基于多尺度卷积核和超事件模块的单阶段动作定位方法,其特征在于所述的特征卷积与降维步骤(2)为:对提取的视频时空特征经两层卷积核大小为5、步长为1的一维时序卷积层对特征进行卷积操作,经第一层池化核大小为4、步长为2的最大池化层进行池化操作将特征时间维度降低一半得到64×1024维的视频时空特征,经维度调整后得到64×1×1×1024维的输出视频时空特征。
3.根据权利要求1所述的基于多尺度卷积核和超事件模块的单阶段动作定位方法,其特征在于在构建主干分支(1)和学习超事件表达步骤(3)中,所述的生成32×1×1×1280、16×1×1×1600、8×1×1×2000三种不同尺度的视频时空特征的方法如下:
1)将64×1×1×1024维的视频时空特征输入第1个多尺度深度可分离时序卷积层,按特征通道将输出视频时空特征分为4组,每组视频时空特征维度为64×1×1×256;
2)使用时序卷积模块对每组输入视频时空特征进行卷积操作,时序卷积模块由5个并行的分支构成,其中第1个分支使用池化核大小为2、步长为1的最大池化层对输入视频时空特征进行池化操作,第2、3、4个分支分别使用卷积核大小为3、5、7的一维时序卷积层对视频时空特征进行卷积操作;在每个分支后连接卷积核大小为1×1的二维卷积层,5个分支的输出视频时空特征按分支的先后顺序依次拼接得到每组输入视频时空特征对应的输出视频时空特征;
3)4组输出视频时空特征按分组的先后顺序依次拼接,打乱特征通道顺序来交互不同通道间的信息;
4)特征通道顺序打乱后的视频时空特征经池化核大小为2,步长为1的最大池化层进行池化操作将特征时间维度降低一半,得到第1个多尺度深度可分离时序卷积层32×1×1×1280维的输出视频时空特征;
5)重复2次步骤1)~4),生成主干分支(1),即三种不同尺度的视频时空特征。
4.根据权利要求1所述的基于多尺度卷积核和超事件模块的单阶段动作定位方法,其特征在于在构建主干分支(1)和学习超事件表达步骤(3)中,所述的超事件模块学习视频时空特征对应的超事件表达方法如下:
1)每2~5个柯西分布构建成1个时序结构滤波器Fm,共构建成2~5个时序滤波器Fm;每个时序结构滤波器Fm由下式确定:
式中t为某一时刻、t∈{1,2,...,T},T是多尺度深度可分离时序卷积层输出视频时空特征时间维度、为有限的正整数;n为某一时序结构滤波器、n∈{1,2,...,N},N是时序结构滤波器的个数、为有限的正整数;xn和γn分别为具体某一柯西分布的中心位置和宽度,和分别为多个柯西分布中心位置和宽度的集合,tanh为激活函数,exp为指数函数,Zn为归一化常数;
2)将得到的2~5个时序结构滤波器Fm与多尺度深度可分离时序卷积层的输出视频时空特征进行矩阵相乘得到中间特征,中间特征与通过注意力机制学习得到的的软注意力权重,进行矩阵相乘,得到超事件表达SC,具体方法如下:
式中M为时序结构滤波器Fm的个数,T为多尺度深度可分离时序卷积层输出视频时空特征时间维度,Vt表示多尺度深度可分离时序卷积层输出视频时空特征,Wc,m和Wc,k分别为第m个和第k个时序结构滤波器Fm对应的权重,Ac,m表示第m个时序结构滤波器Fm对应的软注意力权重,exp为指数函数。
5.根据权利要求4所述的基于多尺度卷积核和超事件模块的单阶段动作定位方法,其特征在于:在步骤1)中,每3个柯西分布构建成1个时序结构滤波器Fm,共构建成3个时序滤波器Fm。
6.根据权利要求1所述的基于多尺度卷积核和超事件模块的单阶段动作定位方法,其特征在于所述的构建定位和分类分支步骤(4)的步骤2)为:使用卷积核大小为3、步长为1的一维时序卷积层对三种输出视频时空特征进行卷积操作;主干分支中第3层输出视频时空特征经卷积操作后生成8×1×1×2480维的视频时空特征作为定位分支和分类分支中第3层的视频时空特征;
所述的构建定位和分类分支步骤(4)的步骤3)为:第3层的视频时空特征经卷积核大小为4、步长为2的反卷积层将时间维度扩大2倍得到16×1×1×2480维的视频时空特征,和主干分支第2层16×1×1×2480维的视频时空特征进行通道相加生成定位分支和分类分支中第2层的视频时空特征;第2层的视频时空特征用相同的方法得到32×1×1×2480维的视频时空特征,和主干分支第1层32×1×1×2480维的视频时空特征进行通道相加生成定位分支和分类分支中第1层的视频时空特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010068403.5A CN111291647B (zh) | 2020-01-21 | 2020-01-21 | 基于多尺度卷积核和超事件模块的单阶段动作定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010068403.5A CN111291647B (zh) | 2020-01-21 | 2020-01-21 | 基于多尺度卷积核和超事件模块的单阶段动作定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111291647A CN111291647A (zh) | 2020-06-16 |
CN111291647B true CN111291647B (zh) | 2023-02-21 |
Family
ID=71025487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010068403.5A Expired - Fee Related CN111291647B (zh) | 2020-01-21 | 2020-01-21 | 基于多尺度卷积核和超事件模块的单阶段动作定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111291647B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113918876A (zh) * | 2020-07-09 | 2022-01-11 | 南京大学 | 反卷积计算的方法、硬件加速器、设备及可读存储介质 |
CN112001479B (zh) * | 2020-07-18 | 2024-04-16 | 北京达佳互联信息技术有限公司 | 基于深度学习模型的处理方法、系统及电子设备 |
CN112949544A (zh) * | 2021-03-17 | 2021-06-11 | 上海大学 | 一种基于3d卷积网络的动作时序检测方法 |
CN113378974A (zh) * | 2021-06-29 | 2021-09-10 | 北京百度网讯科技有限公司 | 用于输出信息的方法、装置、设备以及存储介质 |
CN113283400B (zh) * | 2021-07-19 | 2021-11-12 | 成都考拉悠然科技有限公司 | 一种基于选择性超图卷积网络的骨架动作识别方法 |
CN113537164B (zh) * | 2021-09-15 | 2021-12-07 | 江西科技学院 | 一种实时的动作时序定位方法 |
CN114882403B (zh) * | 2022-05-05 | 2022-12-02 | 杭州电子科技大学 | 基于渐进注意力超图的视频时空动作定位方法 |
CN115690170B (zh) * | 2022-10-08 | 2024-10-15 | 苏州大学 | 一种针对不同尺度目标自适应的光流估计的方法及系统 |
WO2024222745A1 (en) * | 2023-04-25 | 2024-10-31 | Douyin Vision Co., Ltd. | Method, apparatus, and medium for video processing |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11147459B2 (en) * | 2018-01-05 | 2021-10-19 | CareBand Inc. | Wearable electronic device and system for tracking location and identifying changes in salient indicators of patient health |
CN109389055B (zh) * | 2018-09-21 | 2021-07-20 | 西安电子科技大学 | 基于混合卷积和注意力机制的视频分类方法 |
CN110689021A (zh) * | 2019-10-17 | 2020-01-14 | 哈尔滨理工大学 | 一种基于深度学习的低可见度环境下实时目标检测方法 |
-
2020
- 2020-01-21 CN CN202010068403.5A patent/CN111291647B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN111291647A (zh) | 2020-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291647B (zh) | 基于多尺度卷积核和超事件模块的单阶段动作定位方法 | |
CN111563508B (zh) | 一种基于空间信息融合的语义分割方法 | |
Hu et al. | 3D separable convolutional neural network for dynamic hand gesture recognition | |
Zhou et al. | TSNet: Three-stream self-attention network for RGB-D indoor semantic segmentation | |
CN111079646B (zh) | 基于深度学习的弱监督视频时序动作定位的方法及系统 | |
CN108154194B (zh) | 一种用基于张量的卷积网络提取高维特征的方法 | |
CN115100574B (zh) | 基于融合图卷积网络与Transformer网络的动作识别方法及系统 | |
CN109858407B (zh) | 一种基于多种信息流特征和异步融合的视频行为识别方法 | |
CN110516536A (zh) | 一种基于时序类别激活图互补的弱监督视频行为检测方法 | |
CN110378208B (zh) | 一种基于深度残差网络的行为识别方法 | |
CN110458085B (zh) | 基于注意力增强三维时空表征学习的视频行为识别方法 | |
CN106650674A (zh) | 一种基于混合池化策略的深度卷积特征的动作识别方法 | |
CN113920581A (zh) | 一种时空卷积注意力网络用于视频中动作识别的方法 | |
CN110232361A (zh) | 基于三维残差稠密网络的人体行为意图识别方法与系统 | |
CN111401116B (zh) | 基于增强卷积和空时lstm网络的双模态情感识别方法 | |
CN112163447A (zh) | 基于Attention和SqueezeNet的多任务实时手势检测和识别方法 | |
CN113505719A (zh) | 基于局部-整体联合知识蒸馏算法的步态识别模型压缩系统及方法 | |
CN116229323A (zh) | 一种基于改进的深度残差网络的人体行为识别方法 | |
CN116246109A (zh) | 一种多尺度孔洞邻域注意力计算骨干网络模型及其应用 | |
CN115798043A (zh) | 一种轻量化设计的动态手势识别神经网络模型 | |
CN113313030B (zh) | 基于运动趋势特征的人体行为识别方法 | |
CN114581789A (zh) | 一种高光谱图像分类方法及系统 | |
CN117975561A (zh) | 一种联合深度时空特征学习的行为识别方法 | |
CN111724410A (zh) | 一种基于残余注意力的目标跟踪方法 | |
CN114842384B (zh) | 一种面向6g的触觉模态信号重建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20230221 |