CN117437691A

CN117437691A - 一种基于轻量化网络的实时多人异常行为识别方法及系统

Info

Publication number: CN117437691A
Application number: CN202311428863.4A
Authority: CN
Inventors: 王瑞; 冯晓祥; 赵佳辉; 曹文辉
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2024-01-23

Abstract

本发明涉及一种基于轻量化网络的实时多人异常行为识别方法及系统，该方法包括以下步骤：实时采集包含多人的视频序列数据，并转化为RGB图像数据集；对所述RGB图像数据集中的每一帧图像进行目标检测，标定图像中的ROI区域；基于标定的ROI区域对所述RGB图像数据集中的每一帧图像进行预处理；基于预处理过的每一帧图像，采用预先构建的轻量化人体姿态估计网络模型进行人体骨骼关键点特征提取和融合，获得融合特征；调用训练好的集成式的多分类器对所述融合特征进行异常行为分类识别，得到多种异常行为的识别结果。与现有技术相比，本发明具有提高识别精度等优点。

Description

一种基于轻量化网络的实时多人异常行为识别方法及系统

技术领域

本发明涉及于计算机视觉、行为识别技术领域，尤其是涉及一种基于轻量化网络的实时多人异常行为识别方法及系统。

背景技术

作为计算机视觉的重要分支，异常行为识别与检测技术已在智能安防、医疗监护、交通管控等领域获得了广泛应用。其目标主要是从视频或者图像序列中识别人体正在进行的异常行为，然而对异常行为的界定及判别方法与场景因素紧密相关，针对不同应用场景特点，适当选择特征提取及异常行为识别与检测方法，进而保证预警准确率，在实际应用中至关重要。

传统异常行为识别方法包括特征提取、特征融合和特征分类三个步骤，随着深度学习技术的不断发展，卷积神经网络逐渐成为了异常行为识别技术的主流，包括循环卷积神经网络、长短期记忆网络等。但是这些方法在提取视频图像特征方法也存在差别，例如有基于人体外观和运动信息的特征提取方法，此方法基于人体轮廓信息和运动信息作为特征表征人体行为进行行为识别；还有基于时空兴趣点的特征提取方法，此方法主要使用局部时空信息提取人体行为特征；另外，近年来研究较多的方法主要是基于二维或三维人体骨骼关键点的特征提取方法，此方法首先从视频流数据中通过姿态估计网络，获取人体骨骼关键的信息，然后构建特征向量描述人体行为。本发明所涉及的主要方法就是基于轻量化人体姿态估计网络提取视频或图像序列中的二维人体关键点特征，并利用集成式分类器进行异常行为分类，拥有较高的精度，同时对外部干扰有很强的鲁棒性。

为了优化异常行为识别系统的性能，加强对人体骨骼关键点数据的提取和行为表征，人体姿态估计网络需要进一步优化。目前流行的开源人体姿态估计模型大多具有较高的复杂度，通过多尺度、深层的网络的结构换取更高的准确率，但是这对生活中常见的边缘终端设备很不友好，往往这些设备计算资源有限，无法部署过于复杂的模型。有些研究者使用轻量化人体姿态估计模型在智能终端上部署异常识别系统，但是识别精度上又有了很大的折扣。

发明内容

本发明的目的就是为了提供一种提高识别精度的基于轻量化网络的实时多人异常行为识别方法及系统。

本发明的目的可以通过以下技术方案来实现：

本发明提供一种基于轻量化网络的实时多人异常行为识别方法，包括以下步骤：

实时采集包含多人的视频序列数据，并转化为RGB图像数据集；

对所述RGB图像数据集中的每一帧图像进行目标检测，标定图像中的ROI区域；

基于标定的ROI区域对所述RGB图像数据集中的每一帧图像进行预处理；

基于预处理过的每一帧图像，采用预先构建的轻量化人体姿态估计网络模型进行人体骨骼关键点特征提取和融合，获得融合特征；

调用训练好的集成式的多分类器对所述融合特征进行异常行为分类识别，得到多种异常行为的识别结果。

进一步地，采用YOLOv5对所述每一帧图像进行目标检测。

进一步地，所述预处理的具体步骤包括：

采用图像裁剪方法将所述ROI区域中与人体无关的部分去除；

采用图像对齐方法将图像进行对齐；

采用归一化方法将经过裁剪的ROI区域进行处理；

采用数据增强算法对已对齐的图像进行增强处理。

进一步地，所述图像对齐方法为仿射变换，所述仿射变换的表达式为：

式中，x和y是仿射变换前的横纵坐标，x′和y′是放射变换后的坐标，a、b、c、d、e和f为约束参数。

进一步地，所述归一化方法为最大-最小值归一化方法，最大-最小值归一化函数为：

式中，norm为最大-最小值归一化函数，x_f表示图像像素点值，min(x)，max(x)分别表示输入数据的最大值与最小值。

进一步地，所述获得融合特征的具体步骤包括：

将预处理过的每一帧图像输入至预先构建的轻量化人体姿态估计网络模型中检测人体骨骼关键点；

对所述人体骨骼关键点进行预处理和优化；

基于经预处理和优化的人体骨骼关键点，进行特征提取；

根据提取的特征进行融合，获得融合特征。

进一步地，所述特征提取采用的方法为尺度不变特征提取方法或加速鲁棒特征提取方法。

进一步地，所述轻量化人体姿态估计网络模型的构建过程具体包括：

搭建HRNet高分辨率设计架构；

使用ShuffleNet中的Shuffle Block块替换HRNet的所有残差块；

将经过替换的HRNet进行剪枝并蒸馏，形成轻量化人体姿态估计网络模型。

进一步地，采用支持向量机算法训练所述集成式的多分类器。

本实施例还提供一种基于轻量化网络的实时多人异常行为识别方法的识别系统，包括：

视频实时采集模块：用于实时采集包含多人的视频序列数据，并转化为RGB图像数据集；

目标检测模块：用于对所述RGB图像数据集中的每一帧图像进行目标检测，标定图像中的ROI区域；

图像预处理模块：用于基于标定的ROI区域对所述RGB图像集中的每一帧图像进行预处理；

特征提取和融合模块：用于基于预处理过的每一帧图像，采用预先构建的轻量化人体姿态估计网络模型进行人体骨骼关键点特征提取和融合，获得融合特征；

异常行为分类与识别模块：用于调用训练好的集成式的多分类器对所述融合特征进行异常行为分类识别，得到多种异常行为的识别结果。

与现有技术相比，本发明具有以下有益效果：

(1)本发明通过轻量化人体姿态估计网络模型对人体骨骼关键点进行特征提取和融合，得到对行为进行描述和解释的关键特征，再经过集成式的分类器进行多种异常行为的分类，提高了实时对人异常行为识别的准确率。

(2)本发明采用目标检测算法检测ROI区域，并基于ROI区域对图像进行裁剪、图像对齐、归一化和数据增强的预处理操作，有助于提取图像的关键信息，消除姿态、角度和尺度的差异，消除光照、对比度和色彩等因素的影响以及改善图像的质量，增强图像中的细节和对比度，以提高特征的稳定性和可比性，提高异常行为识别方法的准确性，使得识别方法更加鲁棒。

(2)本发明的轻量化人体姿态估计网络模型使用了ShuffleNet中更加轻量高效的Shuffle Block来替换掉HRNet原架构中所有的残差块，为了进一步提高模型的性能，对HRNet原来的模型进行剪枝，之后通过在线知识蒸馏增强人体姿态估计网络的表征能力，提高了人体骨骼关键点的检测精度。

附图说明

图1为本发明的实时多人异常行为识别方法流程图；

图2为本发明的轻量化人体姿态估计网络模型结构图；

图3为本发明的Shuffle Block模块图；

图4为本发明的实时多人异常行为识别结果图。

图5为本发明的实时多人异常行为识别系统组成图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明提供一种基于轻量化网络的实时多人异常行为识别方法，如图1所示，该方法包括以下步骤：

S1、实时采集包含多人的视频序列数据，并转化为RGB图像数据集。

通过摄像头实时采集包含人体的视频序列，将视频序列转化成RGB图像数据集。

S2、对所述RGB图像数据集中的每一帧图像进行目标检测，标定图像中的ROI区域。

针对数据集中的每一帧图像使用YOLOv5进行目标检测，标定ROI区域。具体地说，使用YOLOv5进行人体目标检测，使用预训练好的模型，YOLOv5模型快速地通过卷积神经网络对图像中的不同区域进行划分，并预测每个区域中存在的目标类别和位置信息。输出人体目标检测结果，给出人体坐标信息，由坐标信息可以确定人体ROI区域。

S3、基于标定的ROI区域对所述RGB图像数据集中的每一帧图像进行预处理。

图像数据预处理：根据目标检测结果中ROI区域进行图像裁剪和数据增强，最后进行图像对齐和归一化。具体为：

根据目标检测结果中ROI区域进行图像裁剪，并且进行图像对齐和归一化，最后进行图像增强。根据ROI区域进行图像裁剪和数据增强，具体为裁剪操作可以将ROI区域中与人体无关的部分去除，使得输入数据更加集中于任务本身。将图像对齐采用的是仿射变换，可以将不同姿态下的人体图像对齐到同一姿态。仿射变化可以写为如下矩阵相乘的形式：

放射变换公式中x和y是仿射变换前的横纵坐标，x′和y′是放射变换后的坐标，a,b,c,d,e,f是几个约束参数，根据不同的约束参数，实现不同的基本仿射变换。

其中x和y是仿射变换前的横纵坐标，x′和y′是放射变换后的坐标，θ为左右中心点坐标连线与水平方向的夹角。

上述方案中，所述将ROI图像归一化，具体为使用最大-最小值归一化方法对人体图像数据归一化处理。归一化函数为：

其中x_f表示图像像素点值，min(x)，max(x)分别表示输入数据的最大值与最小值。

上述方案中，所述对变换后图像进行数据增强包括：随机翻转、水平或垂直投影、随机比例缩放等。

S4、基于预处理过的每一帧图像，采用预先构建的轻量化人体姿态估计网络模型进行人体骨骼关键点特征提取和融合，获得融合特征。

该步骤首先需要构建轻量化人体姿态估计网络模型，通过组合ShuffleNet中的Shuffle Block和HRNet中的高分辨率设计架构来搭建了一个轻量化网络。HRNet在位置敏感问题(如语义分割、人体姿态估计和目标检测)中表现出了较强的能力。但是其中堆叠使用了较多的残差块，引入轻量化Shuffle Block，可以有效地减少了模型参数量，同时为了进一步提升模型的性能，使模型有效地提取多尺度的上下文信息，并模拟人体姿态估计的长距离空间依赖性。设计了自适应上下文网络块来增强网络对长距离空间特征的建模，最后，为了进一步优化网络，对原来的HRNet架构进行剪枝，然后进行知识蒸馏，提升模型性能。为实现多人异常行为识别，模型需要输入图像中多个ROI区域，相邻图像和相邻ROI区域共享模型权重，这样进一步提升了模型异常行为识别的效率，在计算力有限的边缘设备上也能保证较高的实时性和准确性。

如图2所示，上述轻量化人体姿态估计网络为使用Shuffle Block块替换所有残差块的HRNet，同时进行对新网络进行剪枝并蒸馏。首先延续HRNet原来的多分辨率、多尺度特征、多阶段的特征融合方法，HRNet架构能够在整个过程中保持高分辨率表示。从高分辨率子网络作为第一阶段开始，逐步添加一个高分辨率到低分辨率的子网络，形成更多的阶段，并行连接多分辨率子网络。在整个过程中通过跨并行多分辨率子网络交换信息来进行重复的多尺度融合。最终只在估计网络输出的高分辨率表示上输出最终的关键点。ShuffleBlock，如图3所示，首先使用分组卷积(Group Convolution)将输入特征图分为若干个组，每个组独立进行卷积操作。这样可以减少卷积操作的参数量和计算量。分组卷积之后将输入特征图的通道数切分成(channel split，通道切分)两个分支，其中一个分支保持不变，另外一个分支先经过一个逐点卷积(即1x1conv,1x1卷积)，再经过一个深度可分离卷积(DWConv，深度可分离卷积)和逐点卷积(即1x1conv,1x1卷积)，这一部分才是真正的向后计算，到了网络的末尾，直接将两分支上的通道数目级连(concat，级联)起来，然后将各个组的特征图进行通道重排操作(channel shuffle)。通道重排的目的是让不同组的特征图进行交互和信息融合，增加网络的非线性能力。具体而言，通道重排将卷积输出的特征图按通道分割成多个子集，然后将这些子集进行交替连接，使得来自不同分组的特征图彼此交互。之后使用逐点卷积操作(即1x1conv,1x1卷积)对特征图进行进一步处理。最后将输入特征图与输出特征图按元素相加，从而在保持信息流动的同时减轻梯度消失的问题。即使使用Shuffle Block替换残差块之后，HRNet架构仍旧显得有些复杂，于是在HRNet四个阶段的网络层中，对高分辨率分支的网络层进行剪枝，分辨率越高，剪枝越多。剪枝完模型性能有所下降，使用原模型作为老师模型，剪枝后模型作为学生模型，进行了知识蒸馏操作，最终得到性能更佳的轻量化人体姿态估计网络。

本步骤使用轻量化人体姿态估计网络模型提取人体骨骼关键数据，这部分首先得到骨骼关键点检测结果，然后进行关键点预处理和优化，结合人体骨骼关键点的信息进行特征提取，最后进行特征融合。结合人体骨骼关键点的信息进行特征提取主要包括尺度不变特征和加速鲁棒特征两种，尺度不变特征是一种计算机视觉领域的特征检测算法，用来检测图像中的局部特性，提取图像局部的位置、尺度和旋转不变量等特征，它的实质是查找不同尺度空间上的关键点，并计算关键点的方向，更具体地，尺度不变特征首先通过使用高斯差分金字塔来构建尺度空间，然后在在尺度空间中，通过比较像素值与其相邻像素(包括尺度空间上、下层和同层的像素)的值来检测关键点，得到候选关键点之后，使用插值方法对其位置进行精确定位，同时根据其周围的图像梯度方向来分配一个主方向，在关键点的周围区域内，构建一个以关键点为中心的小区域，最终，将这些局部特征向量组合起来形成一个关键点的描述。

S5、调用训练好的集成式的多分类器对所述融合特征进行异常行为分类识别，得到多种异常行为的识别结果。

该步骤将融合特征即特征描述矩阵进行分类，得到分类数据的混淆矩阵和多种异常行为识别结果，其中混淆矩阵提供了具体的分类结果分布情况，能够帮助分析模型的表现和性能。。通过调用集成式的多分类器进行异常行为分类识别，具体为使用支持向量机算法对训练集数据进行分类器训练。在多SVM分类器中，需要训练多个SVM分类器，每个分类器分别针对不同的样本特征或子集进行训练。训练之后在实际推理中采用加权平均的方法对训练得到的多个SVM分类器进行融合，以提高分类器的准确性和鲁棒性，多分类器融合结果的行为就为模型均方判定的异常行为结果，本实施例获得的异常行为结果如图4所示，中左边展示了视频中距离摄像头最近目标的各个行为识别概率，右边图像中实时展示多人异常行为识别的结果，包括人体骨骼关节点的形状和行为标签。经测试，在实时视频序列中，模型依旧能够保持高精度的多人异常行为识别。

实施例2

本实例提供一种基于轻量化人体姿态估计网络的实时多人异常行为识别系统，如图5所示，包括视频实时采集模块、目标检测模块、图像预处理模块、特征提取和融合模块和异常行为分类与识别模块。其中，视频实时采集模块具体是使用高清实时摄像头采集完整人体活动视频数据，同时将视频序列转化成RGB图像数据集；目标检测模块具体是针对数据集中的每一帧图像使用YOLOv5进行目标检测，标定ROI区域；图像预处理模块具体是根据目标检测结果中ROI区域进行图像裁剪和数据增强，最后进行图像对齐和归一化；特征提取和融合模块具体是将预处理之后的图像输入到轻量化人体姿态估计网络，检测人体重要的关键点，如关节点，五官节点等，区别于常见的多人检测方法。该模块首先进骨骼关键点检测，然后进行关键点预处理和优化，结合人体骨骼关键点的信息进行特征提取，最后进行特征融合；异常行为分类与识别模块具体是调用集成式的多分类器进行异常行为分类识别，得到分类数据的混淆矩阵和多种异常行为的识别结果。

上述特征提取和融合模块中的一种轻量化人体姿态估计网络模型在coco数据集上进行训练。模型训练数据和参数如下：

本实施例主要基于pytorch深度学习框架，在Ubuntu 18.04和Python 3.6环境下进行，该网络在4个NVIDIA 3090GPU上进行训练。COCO有超过200K图像和250K人体实例，有17个关键点。本发明的模型是在train2017数据集(包括57K图像和150Kperson实例)上训练的，并在val2017(包括5Kimages)和测试开发2017(包括20K图像)上进行验证。

训练过程中，每个GPU小批量大小为32。采用初始学习率为2e-3的Adam优化器。人体检测ROI区域采用4:3的纵横比，然后从图像中裁剪盒子。COCO的图像大小调整为256×192。每个图像都将通过一系列数据增强操作，包括随机旋转([-30°，30°])、随机尺度([0.75，1.25])和数据集的随机翻转以及COCO的附加半身数据增强。

将上述训练好的最优模型部署至Jeston TX2智能终端，搭实时多人异常行为识别系统。

其余如实施例1。

上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本发明实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于轻量化网络的实时多人异常行为识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于轻量化网络的实时多人异常行为识别方法，其特征在于，采用YOLOv5对所述每一帧图像进行目标检测。

3.根据权利要求1所述的一种基于轻量化网络的实时多人异常行为识别方法，其特征在于，所述预处理的具体步骤包括：

采用图像裁剪方法将所述ROI区域中与人体无关的部分去除；

采用图像对齐方法将图像进行对齐；

采用归一化方法将经过裁剪的ROI区域进行处理；

采用数据增强算法对已对齐的图像进行增强处理。

4.根据权利要求3所述的一种基于轻量化网络的实时多人异常行为识别方法，其特征在于，所述图像对齐方法为仿射变换，所述仿射变换的表达式为：

5.根据权利要求3所述的一种基于轻量化网络的实时多人异常行为识别方法，其特征在于，所述归一化方法为最大-最小值归一化方法，最大-最小值归一化函数为：

6.根据权利要求1所述的一种基于轻量化网络的实时多人异常行为识别方法，其特征在于，所述获得融合特征的具体步骤包括：

对所述人体骨骼关键点进行预处理和优化；

基于经预处理和优化的人体骨骼关键点，进行特征提取；

根据提取的特征进行融合，获得融合特征。

7.根据权利要求6所述的一种基于轻量化网络的实时多人异常行为识别方法，其特征在于，所述特征提取采用的方法为尺度不变特征提取方法或加速鲁棒特征提取方法。

8.根据权利要求1所述的一种基于轻量化网络的实时多人异常行为识别方法，其特征在于，所述轻量化人体姿态估计网络模型的构建过程具体包括：

搭建HRNet高分辨率设计架构；

使用ShuffleNet中的Shuffle Block块替换HRNet的所有残差块；

9.根据权利要求1所述的一种基于轻量化网络的实时多人异常行为识别方法，其特征在于，采用支持向量机算法训练所述集成式的多分类器。

10.一种基于轻量化网络的实时多人异常行为识别系统，其特征在于，包括：