CN117373058A - 一种用于小差异课堂行为的识别方法 - Google Patents
一种用于小差异课堂行为的识别方法 Download PDFInfo
- Publication number
- CN117373058A CN117373058A CN202311187053.4A CN202311187053A CN117373058A CN 117373058 A CN117373058 A CN 117373058A CN 202311187053 A CN202311187053 A CN 202311187053A CN 117373058 A CN117373058 A CN 117373058A
- Authority
- CN
- China
- Prior art keywords
- attention
- classroom
- fine
- behavior
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006399 behavior Effects 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000004458 analytical method Methods 0.000 claims abstract description 22
- 230000007246 mechanism Effects 0.000 claims abstract description 14
- 238000011176 pooling Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 11
- 238000005070 sampling Methods 0.000 claims abstract description 11
- 239000002131 composite material Substances 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000012544 monitoring process Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 14
- 230000009471 action Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000009826 distribution Methods 0.000 description 8
- 230000003542 behavioural effect Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 230000004927 fusion Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种用于小差异课堂行为的识别方法,包括在Slow路径中加入复合注意力机制模块和细粒度分析模块,构建以SlowFast网络模型为主体的识别网络模型,复合注意力机制模块用于经由弱监督注意力学习和双线性注意力池化处理,获得多张注意力图以及包含多个分部特征的特征矩阵;细粒度分析模块用于对多张注意力图进行细粒度分析,获得平均细粒度分类概率;将课堂监控视频数据预处理成多段短视频,从每段短视频中按照采样间隔选择每个对应视频片段的首帧图像,构成监控图像数据集,再按照课堂行为类别对监控图像数据集中的各个图像进行人工标注;利用监控图像数据集对识别网络模型训练,利用训练好的识别网络模型进行小差异行为识别。
Description
技术领域
本发明涉及智能识别的技术领域,具体来说,是一种用于小差异课堂行为的识别方法。
背景技术
近年来不少研究者采用计算机视觉技术来识别学生的课堂行为,提出运用计算机视觉检测课堂行为的系统来实现了从监控视频到行为检测,最后反馈输出的一套完整系统即通过行为识别技术,从课堂的监控视频中准确识别出学生行为,进而分析出学生的上课状态,便于管理和总结出课堂学生在各阶段的学习表现。
基于深度学习进行的行为识别需要有相对应的行为数据集,目前行为识别数据集的制作和方式主要分为两种:一种是基于图片制作的数据集进行的识别,这种数据集的制作优势在于数据标注量小、训练时计算量较小,但这种数据集无法对行为进行时域分析且对连续性的动作难以做出准确的判断,常被用于传统的图像检测网络在行为识别方向上的应用上,如基于Faster R-CNN的课堂行为识别;另一种是根据视频制作的数据集进行识别,这种数据集的发展随着动作识别、时序行为识别、时空行为识别的研究取得了较大的进展,也是目前主流的行为数据集的采集方式,制作专用于学生课堂行为识别的数据集对改进基于深度学习的课堂行为识别网络有很大的促进作用,但是国内外目前并没有在教育领域有公开的学生课堂行为数据集,这限制了深度学习和行为识别在教育领域的发展应用。
同时,基于深度学习的行为识别方法主要有基于RGB、Optcal Flow、Audio、Skeleton的四种方法,基于RGB图像的行为识别包含着最多的特征信息,通过TwoStream、C3D、LSTM这三种主流的方法被广泛应用,其中,TwoStream将动作识别中的特征提取分为两个分支,一个是RGB分支提取空间特征,另一个是Optcal Flow分支提取时间上的光流特征,最后结合两种特征进行动作识别;LSTM方法通常使用CNN提取空间特征,使用RNN提取时序特征后进行行为识别;C3D即3D convolution添加了时间维度,将2D卷积扩展到3D,直接提取包含时间和空间两方面的特征进行后续的行为识别;但是这些行为识别方法在多人行为识别过程中受前后遮挡、截断、动态模糊、特征相似度大的影响,会产生行为无法准确区分的问题,如课堂场景中一些学生行为像读书、写字、使用手机、吃东西在识别过程中具有相似动作特征。
发明内容
本发明提供一种用于小差异课堂行为的识别方法,解决了现有行为识别方法对课堂行为中小差异相似度大的行为识别准确度差等缺陷。
本发明可以通过以下技术方案实现:
一种用于小差异课堂行为的识别方法,包括以下步骤:
步骤一、构建识别网络模型
在Slow路径中加入复合注意力机制模块和细粒度分析模块,构建以SlowFast网络模型为主体的识别网络模型,其中,所述复合注意力机制模块用于经由弱监督注意力学习和双线性注意力池化处理,获得多张注意力图以及包含多个分部特征的特征矩阵;所述细粒度分析模块用于对多张注意力图进行细粒度分析,获得平均细粒度分类概率,以此为依据,从特征矩阵中选取差异最小的分部特征作为Slow路径的最终输出;
步骤二、建立监控图像数据集
将课堂监控视频数据预处理成多段短视频,从每段短视频中按照采样间隔选择每个对应视频片段的首帧图像,构成监控图像数据集,再按照课堂行为类别对监控图像数据集中的各个图像进行人工标注;
步骤三、利用人工标注好的监控图像数据集对识别网络模型进行训练,然后利用训练好的识别网络模型对监控图像进行小差异行为识别。
进一步,将输入Slow路径的监控图像先利用特征提取网络ResNet进行特征提取,得到的特征图用F表示,然后经过弱监督注意力学习获得M张注意力图Ak,统称为注意力图A,即并进行数据增强,再将数据增强后的注意力图Ak和特征图F按元素逐一点乘融合,获得对应的局部特征图Fk即Fk=A k⊙F,最后逐一进行全局池化处理提取对应的局部特征fk,并将各个局部特征fk进行拼接,获得特征矩阵P。
进一步,采用注意力裁剪和注意力丢弃对每张所述注意力图Ak进行数据增强。
进一步,采用如下方程式,计算平均细粒度分类概率Am。
进一步,将Slow路径和Fast路径两个通道的输出进行侧向链接信息融合,作为全连接分类器层的输入,最后通过多标签分类器进行分类预测。
进一步,小差异课堂行为的类别如下所示。
本发明有益的技术效果在于:
1、本发明的识别方法通过构建课堂行为数据集和运用注意力机制和弱监督学习的细粒度分析方法改进行为识别网络的方式,在通过全局特征得到动作信息的同时强化了局部特征空间语义信息,在相似动作信息时实现小差异行为的识别,提高了课堂场景下行为识别中的小差异行为检测的准确性,解决学生课堂行为识别中的小差异行为难以区分的问题,可用于教室监控系统对学生行为进行识别,实现课堂行为分析评价、危险行为预警、自动监考等工作。
2、通过弱监督学习与注意力机制的结合,强化了局部特征的标签属性,保障识别准确率的同时不需要对局部特征单独打标签,提高了标注效率,降低了标签标注成本。
3、本发明划分的课堂行为类别和自制数据集训练过的行为算法模型具备课堂场景下通用性、轻量化和实用性的特点,可用于教室监控系统对学生行为进行识别,实现课堂行为分析评价、危险行为预警、自动监考等工作。
附图说明
图1为本发明的整体流程示意图;
图2为本发明的获取局部特征的处理过程示意图;
图3为本发明的识别网络模型的结构示意图;
图4为本发明的局部特征演变效果示意图;
图5为本发明的双线性注意力池化处理过程示意图
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
如图1所示,本发明提供了一种用于小差异课堂行为的识别方法,通过分析课堂学生行为类别并定义划分标准,建立课堂学生行为的监控图像数据集,在基于SlowFast模型的视频识别网络中加入注意力机制、弱监督学习以及细粒度分析方法,实现多标签分类器对小差异课堂行为的准确识别区分如学生读书、写字、使用手机、吃东西等小差异行为的区分。
具体如下:
步骤1:将采集到的相关课堂监控视频数据预处理,对视频进行裁剪和抽帧生成按时域划分的监控图像数据集。
选择课堂监控原视频为时长2小时、尺寸固定1280*720像素、RGB色彩、mp4格式的103个视频文件,用Moviepy视频处理工具将课堂监控原视频进行处理,将每段2小时的长视频批处理截取为483段11秒钟的短视频,在获取关键行为画面的同时解决数据量过大的问题,再将每段11秒钟的视频按照每秒30帧截取每秒的首帧图片,选取除第一秒外的第30n+1帧图片用于人工标注,其中n=2,3,4…,最后进行数据清洗后共生成4967张监控图片用于制作带时域的监控图像数据集。
步骤2:通过拥挤人群检测的方法,检测出监控图片数据中所有学生的坐标位置。
具体地,对YoloV7模型用Crowded Human数据集进行做重训练,让该目标检测算法能更准确地检测出课堂监控图片中学生所在坐标位置并且给每一个学生标注对应序号,结合Crowded Human的两个检测结果:Head与Visible body来对学生的行为进行预分析。
在坐标位置标记好后,采用DeepSort目标跟踪算法将每一帧图片中的人在时间维度上进行关联。
步骤3:定义课堂行为类别,生成可用于学生课堂行为分析的划分标准。
具体地,摒弃传统课堂行为识别存在主观争议的内容如:听课、走神、专注、睡觉等,仅根据视觉层面可判断的行为方式进行行为类别的定义并制定划分标准,包括以下13种行为类型和相对性的划分标准如下表所示。
行为类别和划分标准表
其中,使用手机、读、写、吃东西这4种学生行为的动作特征具有相似性,需要将整体的动作特征与学生手部局部特征相结合才能准确区分的学生行为,故称之为“小差异课堂行为”,而抬头、低头、转头、举手、站立、趴桌、转身、打架、跌倒这9种带有明显的动作特征并且不需要其他空间语义信息即可判断的学生行为,故称之为“常规课堂行为”。
步骤4:将步骤2中处理后的时域图片按照步骤3的行为类别和划分标准进行多标签学生课堂行为数据集的人工标注,建立基于RGB图的数据集。
RGB形式的行为数据的构建和标注比较常见,使用VoTT图片标注工具进行数据标注,为图片形式的行为数据标注多重标签,同时在时间维度上标记进行视频理解的时域注释。
步骤5:构建识别网络模型
基于SlowFast模型的视频识别网络,加入弱监督学习、注意力机制以及细粒度分析方法,构建识别网络模型,以改善小差异课堂行为的识别准确率。
具体地,基于时空特征分析的行为识别主要分为Two-Stream、C3D、LSTM三类主流方法,其中FaceBook实验室的SlowFast将C3D方法在视频行为识别研究推向了新的高度。SlowFast模型的特征图共有5个维度:N×C×T×W×H,其中N代表批处理、C代表通道数、T代表时间维度、W代表宽度、H代表高度,相对于一般的特征图,此方法的视频特征图多出了时间维度T,而采用3D卷积的方法,可以让模型在特征提取过程中保留时间信息。
SlowFast网络结构包含两条路径:
(1)一个低帧率运行的Slow路径,用来处理空间语义信息。
(2)一个高帧率运行的Fast路径,以精细的时间分辨率处理运动信息。
Slow路径可以用任何模型进行卷积,其特征通道为C,它将剪辑过的视频数据集作为一个时空体积来处理,以获取更多的空间语义信息,它在输入帧上的采样步长为τ,采样次数为T,也就是说它只处理每隔τ帧后输入的一个关键帧。当τ=16时,对于我们所取的30帧/秒的视频,它的采样速度大约是2帧/秒,当Slow路径采样次数为T时,一次原视频输入的长度为T×τ帧。
Fast路径的卷积模型,其特征通道为βC,其中β1/8,其目的是为了让Fast路径能有以较快的速度运行,在输入帧上的采样步长为τ/α,采样次数为αT。当Fast路径采样次数为αT时,能够更多地捕捉运动信息,但是对空间语义信息不敏感。
因此,本发明为了更好地区分行为数据中的空间语义信息,选择在Slow路径中加入基于弱监督的注意力机制细粒度分析方式,选择出小差异相似行为的局部特征并分类,从而实现小差异相似行为的识别准确度的提高,附图2为改进SlowFast网络即识别网络模型示意图。
首先,将输入Slow路径的视频图像通过特征提取网络ResNet进行特征提取,得到的特征图用F表示,F∈H*W*C,其中,H、W代表特征图的长与高,C代表特征图的通道数量,然后将特征图F再通过卷积核为1的注意力机制网络层获得M张注意力图Ak,这些注意力图用A表示,公式如下:
其中,f(·)表示卷积运算的操作,Ak∈RH×W,Ak表示目标主体的某一部位,如分析学生端坐、写字、看书、使用手机的局部特征。上述步骤过程如下附图3特征选择和注意力示意图。
具体的,上述注意力网络层中定义了注意力分布来衡量不同特征内容的重要性,用使用softmax函数来计算,其中输入特征向量,输出标准化的概率分布。softmax函数的计算公式如下:
其中,xi是输入向量的第i个元素,n是向量的长度。softmax函数将向量的每个元素转化为0到1之间的值,同时所有元素的和为1,这样就可以得到一个标准化的概率分布,接下来,使用注意力分布对输入进行加权求和。对于一个输入序列x1,x2,...,xt,使用注意力分布α1,α2,...,αt,计算它们的加权和作为输入序列的一种汇总,其中每个元素的权重由注意力分布决定,公式如下:
使用全连接神经网络FDNN来计算注意力分布,输入是SlowFast模型在Slow路径下的动作语意信息ht,输出是注意力分布α1,α2,...,αt和注意力图A。
然后,将特征图F和注意力图A进行双线性注意力池化Bilinear AttentionPooling(BAP)处理,如图5所示,通过BAP能够加强局部特征的弱监督学习,根据局部特征进行细粒度分析,并降低其他区域的注意力干扰,同时对注意力图A使用注意力裁剪和注意力丢弃的方法进行特征选择,得到局部特征图Fk。附图3为处理局部特征流程图,附图4为局部特征效果图,计算公式如下。
Fk=Ak☉F(k=1,2,…,M)
其中,⊙代表特征图F和注意力图A按元素逐一相乘融合,Fk为元素逐一相乘后的结果。
局部特征图Fk通过g(·)表示全局池化(GAP-Global Average Pooling or GMP-Global Max Pooling)进行降维处理,得到局部特征fk∈R1×C,公式如下:
fk=g(Fk)
再将目标主体M个局部fk拼接为特征矩阵P,公式如下:
其中,Γ(A,F)代表特征图F和注意力图A进行双线性注意力池化(BAP)和特征选择的操作,处理完成后将拼接成包含原有特征和增强局部特征的特征矩阵。
在测试过程中,预测结果的概率由细粒度分类概率取平均值得到,在上述识别网络模型中进行细粒度分析方法,其中细粒度分类概率是对模型得到的M个注意力图Ak求其特征的平均差异,得到最接近局部特征中差异度最小的平均细粒度分类概率Am,公式如下:
最后将双线性注意力池化(BAP)后的特征矩阵P的特征数据和平均细粒度分类概率Am,作为侧向链接信息融合的局部特征数据导入到全链接层。附图5为弱监督的注意力机制细粒度分析的结构图。
使用注意力引导输入在弱监督的注意力机制细粒度分析网络中进行细粒度分类,其中细粒度分类是对模型得到的M个注意力图Ak求其特征的平均差异,再使用注意力引导图片裁剪,裁剪后的图片输入到训练模型中,最后得到的Am,输出双线性注意力池化后的细粒度分类结果。
步骤6:侧向链接信息融合
具体地,SlowFast网络通过多次的侧向连接来融合双分支路径的特征信息,在融合过程中,Slow路径与Fast路径有不同的时间维度,且尺寸不同,无法进行匹配,所以需要将Fast路径进行尺寸和时域上的修改。
Slow路径的尺寸为:{T,S2,C},Fast路径的尺寸为{αT,S2,βC},以下三种方式可以进行特征融合。
时域转化通道:将{αT,S2,βC}转化为{T,S2,αβC},即将αT的视频帧压缩到T视频帧的通道维度中。时域采样:同样是将{αT,S2,βC}转化为{T,S2,αβC},这次是从αT的视频帧中采样T的视频帧。时域卷积:也是将{αT,S2,βC}转化为{T,S2,αβC},采用3D卷积,卷积核为5×12,输出通道的维度为2βC,步长为α。
通过实验发现,采用时域卷积能到较好的实验结果,本发明采用时域卷积的方法,用时域卷积网络TCNi处理Fast路径的时域通道信息后将Slow路径和Fast路径两个通道进行侧向链接信息融合,其中两条路径信息进行平均池化后将两个特征向量合并链接,作为全连接分类器层的输入。
步骤7,多标签分类器行为区分
具体的:通过多标签分类器进行分类预测,预测结果与真实值采用改进的损失函数计算差异。
多标签分类器以Sigmoid函数为基础做归一化处理,处理Slow路径和Fast路径通道融合后的数据分类预测。Sigmoid函数的数学公式如下,其中x代表全连接层对每个类别的分数值,可以看出,当x=0时,f(x)=0.5,当x>0时,f(x)趋近1,x<0时,f(x)趋近0。
分类器的损失函数基于交叉熵损失函数和中心损失函数,交叉熵损失函数只关注正确标签和其它标签的差异,不能处理多标签分类的问题。本发明对每个类别单独进行二分类预测,并采用二分类的交叉熵损失函数(BCELoss,BinaryCrossEntropyLoss)来计算每个预测类别与真实值的差异。CELoss与BCELoss的公式如下:
BCEloss=-ylogy′-(1-y)log(1-y′)
其中M代表类别数量,yi代表第i个类别的真实值,y′i代表第i个类别的预测值。
中心损失函数,目的是为了让每一张注意力图关注物体的同一部分区域,本数据集采用多标签分类后,需要对中心损失函数进行降维处理。公式如下:
其中,y代表正确的标签,在多标签模型中,y的shape为[B,class_num],B代表Batch_size,class_num代表分类数量。采用r(·)方法对y进行降维,r(·)将随机选取每一个Batch_size的正确分类,然后将随机选取值的索引存入到yr中,F(Ck,yr)代表以yr为索引,取出在Ck中对应的值,再将值赋值给Cbatch。采用以Sigmoid函数为基础的分类器,将输出值的区间归一化得到预测值,然后再使用BCE Loss,计算真实值与预测值的差异大小。
最后将输出值送入Sigmoid函数归一化,归一化的权重添加到融合通道的特征上。多标签分类器分类完成后,在Slow路径通过注意力机制捕捉到的更小范围的详细信息和弱监督学习的细粒度分析方法处理后的小差异行为类别得到准确的区分。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.一种用于小差异课堂行为的识别方法,其特征在于包括以下步骤:
步骤一、构建识别网络模型
在Slow路径中加入复合注意力机制模块和细粒度分析模块,构建以SlowFast网络模型为主体的识别网络模型,其中,所述复合注意力机制模块用于经由弱监督注意力学习和双线性注意力池化处理,获得多张注意力图以及包含多个分部特征的特征矩阵;所述细粒度分析模块用于对多张注意力图进行细粒度分析,获得平均细粒度分类概率,以此为依据,从特征矩阵中选取差异最小的分部特征作为Slow路径的最终输出;
步骤二、建立监控图像数据集
将课堂监控视频数据预处理成多段短视频,从每段短视频中按照采样间隔选择每个对应视频片段的首帧图像,构成监控图像数据集,再按照课堂行为类别对监控图像数据集中的各个图像进行人工标注;
步骤三、利用人工标注好的监控图像数据集对识别网络模型进行训练,然后利用训练好的识别网络模型对监控图像进行小差异行为识别。
2.根据权利要求1所述的用于小差异课堂行为的识别方法,其特征在于:将输入Slow路径的监控图像先利用特征提取网络ResNet进行特征提取,得到的特征图用F表示,然后经过弱监督注意力学习获得M张注意力图Ak,统称为注意力图A,即并进行数据增强,再将数据增强后的注意力图Ak和特征图F按元素逐一点乘融合,获得对应的局部特征图Fk即Fk=Ak⊙F,最后逐一进行全局池化处理提取对应的局部特征fk,并将各个局部特征fk进行拼接,获得特征矩阵P。
3.根据权利要求2所述的用于小差异课堂行为的识别方法,其特征在于:采用注意力裁剪和注意力丢弃对每张所述注意力图Ak进行数据增强。
4.根据权利要求3所述的用于小差异课堂行为的识别方法,其特征在于:采用如下方程式,计算平均细粒度分类概率Am。
5.根据权利要求2所述的用于小差异课堂行为的识别方法,其特征在于:将Slow路径和Fast路径两个通道的输出进行侧向链接信息融合,作为全连接分类器层的输入,最后通过多标签分类器进行分类预测。
6.根据权利要求1所述的用于小差异课堂行为的识别方法,其特征在于:小差异课堂行为的类别如下所示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311187053.4A CN117373058A (zh) | 2023-09-14 | 2023-09-14 | 一种用于小差异课堂行为的识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311187053.4A CN117373058A (zh) | 2023-09-14 | 2023-09-14 | 一种用于小差异课堂行为的识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117373058A true CN117373058A (zh) | 2024-01-09 |
Family
ID=89401209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311187053.4A Pending CN117373058A (zh) | 2023-09-14 | 2023-09-14 | 一种用于小差异课堂行为的识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117373058A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118397708A (zh) * | 2024-05-31 | 2024-07-26 | 武汉纺织大学 | 一种基于双向lstm和时空双流网络的课堂行为识别方法 |
CN118675093A (zh) * | 2024-08-23 | 2024-09-20 | 杭州领图信息科技有限公司 | 一种基于视频理解的河岸异常行为识别的方法 |
-
2023
- 2023-09-14 CN CN202311187053.4A patent/CN117373058A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118397708A (zh) * | 2024-05-31 | 2024-07-26 | 武汉纺织大学 | 一种基于双向lstm和时空双流网络的课堂行为识别方法 |
CN118675093A (zh) * | 2024-08-23 | 2024-09-20 | 杭州领图信息科技有限公司 | 一种基于视频理解的河岸异常行为识别的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
He et al. | Automatic depression recognition using CNN with attention mechanism from videos | |
Li et al. | Adaptively learning facial expression representation via cf labels and distillation | |
Hsu et al. | Ratio-and-scale-aware YOLO for pedestrian detection | |
Chen et al. | Crowd counting with crowd attention convolutional neural network | |
CN109389055B (zh) | 基于混合卷积和注意力机制的视频分类方法 | |
CN110399821B (zh) | 基于人脸表情识别的顾客满意度获取方法 | |
CN110516536B (zh) | 一种基于时序类别激活图互补的弱监督视频行为检测方法 | |
CN111563452B (zh) | 一种基于实例分割的多人体姿态检测及状态判别方法 | |
CN117373058A (zh) | 一种用于小差异课堂行为的识别方法 | |
CN108427921A (zh) | 一种基于卷积神经网络的人脸识别方法 | |
CN113749657B (zh) | 一种基于多任务胶囊的脑电情绪识别方法 | |
CN112036276A (zh) | 一种人工智能视频问答方法 | |
CN112084891A (zh) | 基于多模态特征与对抗学习的跨域人体动作识别方法 | |
CN111666852A (zh) | 一种基于卷积神经网络的微表情双流网络识别方法 | |
Ribeiro et al. | Deep learning in digital marketing: brand detection and emotion recognition | |
CN116721458A (zh) | 一种基于跨模态时序对比学习的自监督动作识别方法 | |
Li et al. | Automatic classification of ASD children using appearance-based features from videos | |
Li et al. | Research on efficient feature extraction: Improving YOLOv5 backbone for facial expression detection in live streaming scenes | |
CN112507904B (zh) | 一种基于多尺度特征的教室人体姿态实时检测方法 | |
Cai et al. | Rgb-d scene classification via multi-modal feature learning | |
Tian et al. | Domain adaptive object detection with model-agnostic knowledge transferring | |
Zheng et al. | Attention assessment based on multi‐view classroom behaviour recognition | |
Sun et al. | SES-YOLOv8n: Automatic driving object detection algorithm based on improved YOLOv8 | |
Bai et al. | Extreme low-resolution action recognition with confident spatial-temporal attention transfer | |
CN116309228A (zh) | 基于生成对抗网络的可见光图像转换红外图像方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |