CN109583315A

CN109583315A - 一种面向智能视频监控的多通道快速人体姿态识别方法

Info

Publication number: CN109583315A
Application number: CN201811299870.8A
Authority: CN
Inventors: 赵霞; 李磊; 于重重; 管文化; 赵松; 冯泽骁
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2018-11-02
Filing date: 2018-11-02
Publication date: 2019-04-05
Anticipated expiration: 2038-11-02
Also published as: CN109583315B

Abstract

本发明实现了一种面向智能视频监控的多通道快速人体姿态识别方法，搭建多通道快速人体姿态识别系统架构；转发服务器接收客户端请求，从网络视频录像机获取视频流，选取关键帧进行格式转换；对关键帧进行移动目标快速检测和人体检测，将有人体的视频帧发送给智能分析服务器，智能分析服务器进行姿态识别，将识别结果返回给转发服务器；转发服务器将识别结果和视频流转发给客户端，客户端在界面上显示结果；在支持多路视频通道的情况下更快实现人体检测和姿态识别，屏蔽复杂背景和衣着的影响，显著提高识别速度和准确率，具有很好的应用前景和市场价值。

Description

一种面向智能视频监控的多通道快速人体姿态识别方法

技术领域

本发明涉及监控视频中的人体姿态识别，具体涉及一种面向智能视频监控的多通道快速人体姿态识别方法，属于实时流媒体以及计算机视觉领域。

背景技术

目前大多数视频监控系统的主要功能是录制和展示监控现场的场景，不能对监控现场进行实时智能化的分析，需要安保人员实时查看监控现场视频画面，判断人员行为和场景性质，会出现因人而异的疲劳、遗漏、误判等问题。所以，现有的视频监控系统在事后取证方面起到很大作用，但在自动识别现场案情和发现现场案情方面，难以满足当前安防预警、保安工作对视频监控系统所要求的时效性、准确性、智能化和高效的需求。

智能视频监控系统是当前视频监控领域出现的新技术，采用计算机视觉、图像处理和模式识别等技术，对摄像机拍摄到的视频图像进行自动分析，检测场景中的目标，进行识别与跟踪，并在此基础上分析和理解目标的行为，提供对监控和预警有用的信息。智能视频监控系统不仅应用于安全防范领域，在交通、军事、金融、工业等领域也有着广泛的应用前景和巨大的经济价值。

在很多需要智能视频分析处理的系统中，例如动作分类，异常行为检测，以及自动驾驶等，描述人体姿态、预测人体行为至关重要。人体姿态识别技术可以应用于家庭监控、教学应用，如识别独居中老年人摔倒，了解学生上课状态。通过实时分析视频监控系统的视频流，识别特殊的人体姿态，及时作出响应，例如老人救护，课堂教学调节等。

人体姿态识别是给定一幅图像或一段视频，检测其中人体骨骼关节点位置，并根据关节点的结构特征，给人体姿态分类打标签的过程。其中人体骨骼关节点检测是人体姿态识别中的关键步骤。随着深度学习技术的发展，人体骨骼关节点检测效果不断提升，已经开始应用于计算机视觉的相关领域，得到研究者的关注。

专利《基于视频监控的行人检测方法》(CN201010227766.5)采用扩展梯度直方图特征与Adaboost算法来快速检测行人，然后利用梯度直方图特征和支持向量机来进一步识别验证前面检测出来的行人。专利《一种智能视频监控中行人的检测方法》(CN20110566809.1)采用支持向量机训练行人检测器模型，利用支持向量机对图片中的每个行人检测窗口进行分类，对检测窗口进行融合，获取最终的行人检测结果。《主动视觉注意的监控视频显著事件智能检测预警方法》(CN201710181799.2)建立自底向上视觉注意初级信息的快速提取方法，构建了动态目标的主动检测模型，然后运用粒子群算法，对显著目标进行跟踪，同时建立了监控视频中显著时间的主动预警模型，从而实现了基于视觉注意力模型的监控视频显著事件智能检测预警系统。专利《一种基于OptiTrack的人体姿态识别方法》(CN201711120678.3) 采用局部线性嵌入算法提取训练样本的姿态特征，用降维思路将关键语义帧带入训练样本的姿态特征中，对关键语义帧的特征进行分类，从而实现姿态的分类识别；专利《学习者姿态识别方法》(CN201710457825.X)提出一种学习者姿态识别方法，由人像与背景的分离、对二值化后的图像运用数学形态学运算提取出学习者的轮廓图像、采用Zernike矩阵进行特征提取、采用支持向量机对特征向量进行训练以及识别学习者的姿态。

这些研究成果主要关注行人检测和事件检测的算法，采用传统的机器学习方法进行特征提取和检测识别，没有涉及如何将这些算法与视频监控系统的视频转发处理流程相融合的流程与方法。本发明专利直接从视频监控设备获取实时图像帧，基于深度神经网络的人体骨骼关节点检测算法检测人体关节点位置，提取人体结构化骨架信息，进行姿态识别；避免了图片的复杂背景、人物的衣着对识别效果的干扰。本发明设计了面向多路视频流的转发、检测、识别的流程机制，使得服务器既能高效地转发每一路视频帧，又能快速地进行人体目标检测和人体姿态识别。

发明内容

本发明目的在于实现一种面向智能视频监控的多通道快速人体姿态识别方法，搭建多通道快速人体姿态识别系统架构；转发服务器接收客户端请求，从网络视频录像机获取视频流，选取关键帧进行格式转换；对关键帧进行移动目标快速检测和人体检测，将有人体的视频帧发送给智能分析服务器，智能分析服务器进行姿态识别，将识别结果返回给转发服务器；转发服务器将识别结果和视频流转发给客户端，客户端在界面上显示结果。具体来说，本发明的方法包括下列步骤：

A.搭建面向智能视频监控的多通道快速人体姿态识别系统架构；

A1.系统包括客户端，视频转发服务器(简称转发服务器)，智能分析服务器、网络视频录像机；

A2.客户端向转发服务器发送获取视频流请求，向用户显示视频图像和识别结果；

A3.转发服务器接收客户端请求，从网络视频录像机获取所请求视频流转发给客户端；

A4.转发服务器进行移动目标快速检测和快速人体检测，并向智能分析服务器发送姿态识别请求，接收识别结果后发送给客户端；

A5.智能分析服务器接收识别请求，识别姿态，并返回识别结果给转发服务器；

A6.客户端、转发服务器，智能分析服务器之间通过网络控制端口和数据端口进行视频数据、识别信息的通信；

B.转发服务器接收客户端请求，获取视频流，转发视频流给客户端，并创建检测子线程用于快速检测，具体步骤如下：

B1.主线程接收客户端请求，从网络视频录像机获取所请求通道的视频流；

B2.主线程为每一路视频通道创建环形缓冲队列、转发子线程；

B2.1.创建环形缓冲队列存放各通道对应的转发数据包；

B2.2.为获取到的视频帧创建转发数据包，挂载到各通道的环形缓冲队列上；

所述的转发数据包包括数据头和视频帧缓冲区；其中，数据头包括但不限于视频帧大小、格式、时间t、姿态识别的结果信息、以及关键帧标志nIDR，取值1表示关键帧，0表示非关键帧；

B2.3.创建转发子线程用于从环形缓冲队列中取视频帧，转发给客户端进行实时显示；

B3.创建检测子线程用于从环形缓冲队列取得视频帧、快速检测和发送姿态识别请求；

C.通道对应的检测子线程获取关键帧并进行格式转换，具体步骤如下：

C1.检测子线程从所属通道的环形缓冲队列获取转发数据包；

C2.选择nIDR＝1的视频帧，作为关键帧用于后续处理；

C3.将H.264格式视频帧解码为YUV格式，再转换为JPG格式；

D.检测子线程对关键帧进行移动目标快速检测，具体步骤如下：

D1.计算3个连续视频帧的灰度差值，具体步骤如下：

D1.1.将t_n-1、t_n、t_n+1时刻的视频帧灰度值记为F_n-1，F_n，F_n+1；

D1.2.分别计算视频帧F_n与F_n-1，F_n+1与F_n的灰度差值，分别作为t_n-1时刻和t_n时刻的前景图像D_n-1和D_n；

D2.对前景图像做快速移动目标检测，含有移动目标的图像记为Rn’，具体步骤如下：

D2.1.对D_n-1和D_n做交集计算得到D_n’；

D2.2.根据预设阈值T1，对D_n’中的每个像素点进行二值化处理，得到二值化图像Rn，所述的T1的取值包括但不限于10；具体步骤如下：

D2.2.1.记d为D_n’中像素点的灰度值；

D2.2.2.若d＞T1，记R_n＝255，即为运动目标点；

D2.2.3.若d＜＝T1，记R_n＝0，即为背景点；

D2.3.统计Rn中像素值为255的像素点的个数，若大于预设阈值T2，则认为该视频中存在移动目标，将图像记为Rn’；当对应的图像分辨率为464*464时，所述的T2取值为30000；

E.检测子线程对Rn’进行人体检测，并向智能分析服务器发送姿态识别请求，具体步骤如下：

E1.加载包括锚框信息在内的深度神经网络模型(简称网络)参数；

所述的锚框信息，指训练网络时通过聚类得到的锚框的宽高信息；所述的锚框指N个出现概率最高的用于预测目标的包围框，其中的N包括但不限于5；

E2.将输入图像分辨率处理为464*464，通过网络卷积层和池化层处理输入图片，得到分辨率为13*13的特征图；

E3.通过网络预测层对上述特征图预测目标框，具体步骤如下：

E3.1对特征图上的每个像素，使用锚框预测M个目标框的信息、目标框类别以及对应的置信度和类别概率；

所述的目标框的信息包括：目标框中心相对该像素的偏移，以及目标框的宽度和高度，记为(x，y，w，h)；

所述的置信度表示所预测的目标框位置信息的准确度；

所述的类别概率表示预测该目标框类别为人体的概率；

E3.2.过滤掉置信度低于预先设置的阈值T的目标框，所述的阈值T包括但不限于0.7；

E3.3.对留下来的目标框用极大抑制去掉重复目标框；

E3.4.选取类别概率最高的目标框，并输出左下角和右上角坐标；

E4.如果经过步骤E检测的图像帧里有人体，则每隔K帧将有人体的原始图像帧和目标框信息打包成姿态识别请求，发送给智能分析服务器，所述的K值大于等于1；

E5.如果经过步骤E检测的图像帧没有人体，则不做后续处理；

F.智能分析服务器接收姿态识别请求，进行姿态识别处理，并将结果返回转发服务器，具体步骤如下：

F1.主线程为每个视频通道创建识别子线程和识别缓冲队列，具体步骤如下：

F1.1.主线程接收从转发服务器发来的姿态识别请求，将接收到的图像帧挂载到通道对应的识别缓冲队列；

F1.2.通道对应的识别子线程获取识别缓冲队列中的图像帧，记为原始图片S；

F2.识别子线程加载由四级网络组成的深度神经网络模型，提取原始图片S中人体关节特征信息，具体步骤如下：

F2.1.第一级网络包含两路网络N₁₁和N₁₂，生成特征图F¹ ₁～F¹ ₁₄，具体步骤如下：

F2.1.1.N₁₁网络在原始图片S上利用若干残差模块提取特征，输出14路特征图F_11-1～F_11-14； N₁₂网络在原始图片S上先降采样，然后经过若干残差模块，然后上采样，输出14路特征图 F_12-1～F_12-14；每一路特征图对应一个高斯响应最高的关节点；

14路特征图对应的14个关节点包括：头、脖子、右肩，右肘、右腕、左肩、左肘、左腕、右臀、右膝、右踝、左臀、左膝、左踝；

F2.1.2.基于F2.1.1的特征图，引入编码器和解码器，生成带有权重W的特征图F‘_11-1～F ‘_11-14和F‘_12-1～F‘_12-14，具体步骤如下：

F2.1.2.1.编码器均匀分割F2.1.1的每个特征图为多个区域，称为特征区域a，每个区域对应的编码为y；

所述的特征区域a的集合记为R^D＝{a₁，…，a_i，…，a_L}，其中a_i表示第i个区域，1＜＝i＜＝L，L 表示被分割的区域个数；a_i∈R^D，R^D表示以D为切割单位的完整特征图，D表示区域的像素个数，如区域大小为14*14，则D＝196；

所述的编码y是一个14维向量，其中，14是关节的个数；第i个区域的编码记为y_i，y_i向量中的第j个元素记为y_ij，y_ij＝1表示第i个区域中含有第j个关节点；y_ij＝0表示第i个区域中不含有第j个关节点；y的集合记为Y^D＝{y₁，…，y_i，…，y_L}，1＜＝i＜＝L；

F2.1.2.2.解码器对F2.1.1的每个特征图计算权重W_11-1～W_11-14和W_12-1～W_12-14：每个权重W是该特征图中所有特征区域的权重w的集合，记为W＝{w₁，…，w_i，…，w_L}；每个特征区域的权重 w_i表示该特征区域输入到下一级处理时所占的比例系数，是利用该特征区域a及编码y进行计算的结果；

F2.1.3.融合特征图F‘_11-1～F‘_11-14和F‘_12-1～F‘_12-14得到该级网络输出特征图F¹ ₁～F¹ ₁₄；

F2.1.4.将原始图片S和特征图F¹ ₁～F¹ ₁₄作为下一级网络的输入；

F2.2.第二级子网络包含两路网络N₂₁和N₂₂，以第一级子网络输出的特征图F¹ ₁～F¹ ₁₄和原始图片S为输入，重复步骤F2.1的具体步骤，得到输出F² ₁～F² ₁₄；

F2.3.第三级子网络包含两路网络N₃₁和N₃₂，以第二级子网络输出的特征图F² ₁～F² ₁₄和原始图片S为输入，重复步骤F2.1下的具体步骤，得到输出F³ ₁～F³ ₁₄；

F2.4.第四级子网络包含两路网络N₄₁和N₄₂，以第三阶子网络输出的特征图F³ ₁～F³ ₁₄和原始图片S为输入，重复步骤F2.1下的具体步骤，得到输出F⁴ ₁～F⁴ ₁₄；

F2.5.利用特征图F⁴ ₁～F⁴ ₁₄提取所有关节的名称和坐标，按照生理常识连接相邻关节，计算关节点之间的距离，构造骨架图；所述骨架图包括各关节点名称、坐标，以及相连关节点之间的距离；

F3.识别子线程用SVM分类器对骨架图进行姿态分类，具体步骤如下：

F3.1.加载已训练好的SVM分类器，识别包括但不限于跪，躺，坐，站的姿态；

F3.2.对骨架图分类，并将识别结果返回给转发服务器；所述识别结果包括骨架图以及该骨架图姿态类别及准确度；

G.转发服务器的主线程接收识别结果，转发给客户端，客户端在界面上显示结果；具体步骤如下：

G1.主线程接收识别结果，将识别结果写入对应通道的环形缓冲队列中最新的转发数据包里；

G2.对应通道的转发子线程从转发缓冲队列获取转发数据包，发送给客户端；

G3.客户端接收含有识别结果的转发数据包，提取视频帧和识别信息，显示在客户端界面上。

本发明提出快速实时的基于深度神经网络的人体检测及姿态识别方法，包括移动目标快速检测、人体快速检测、人体姿态识别三个阶段。采用多通道并发机制和分布式处理机制将上述三类任务并发并行地完成，在多核处理机系统中能够更好地利用多处理器的并行计算能力，能在同时支持多路视频通道的情况下，更快的实现人体检测和姿态识别。采用深度神经网络进行姿态识别，提取人体关节点信息，构造骨架信息，从而能够屏蔽复杂背景和衣着等噪音的影响，显著提高识别速度和准确率，降低硬件成本，具有很好的应用前景和市场价值。

附图说明

图1：一种面向智能视频监控的多通道快速人体姿态识别方法流程图；

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

下面按照实现步骤，通过对瑜伽教学视频姿态识别实施例，对本发明作进一步描述。实验环境如下：

方法流程如图1所示，本发明方法包括如下步骤：1)搭建面向智能视频监控的多通道快速人体姿态识别系统；2)检测子线程进行移动目标快速检测；3)检测子线程进行人体快速检测；4)快速人体姿态识别；智能分析服务器对人体视频帧采用神经网络进行快速的人体姿态识别，将识别结果发送给转发服务器；5)客户端呈现姿态识别结果；转发服务器将识别结果和相应视频流转发给客户端，客户端接收含有识别结果的转发数据包，客户端将姿态识别结果显示在界面上。下面按照步骤，结合系统实例对本发明作进一步描述：

1.搭建面向智能视频监控的多通道快速人体姿态识别系统架构；

1.1.系统包括客户端，视频转发服务器(简称转发服务器)，智能分析服务器、网络视频录像机；

1.2.客户端向转发服务器发获取瑜伽教学视频的请求，向用户显示视频图像和识别结果；

1.3.转发服务器接收客户端请求，从网络视频录像机获取瑜伽教学视频流转发给客户端；

1.4.转发服务器进行移动目标快速检测和快速人体检测，并向智能分析服务器发送姿态识别请求，接收识别结果后发送给客户端；

1.5.智能分析服务器接收识别请求，识别姿态，并返回识别结果给转发服务器；

1.6.客户端、转发服务器，智能分析服务器之间通过网络控制端口和数据端口进行视频数据、识别信息的通信；

2.检测子线程对关键帧进行移动目标快速检测，具体步骤如下：

2.1.主线程接收客户端请求，从网络视频录像机获取所请求通道的视频流；

2.2.主线程为每一路视频通道创建环形缓冲队列、转发子线程；

2.3.通道对应的检测子线程获取视频帧并进行格式转换，具体步骤如下：

2.3.1.检测子线程从所属通道环形缓冲队列获取转发数据包；

2.3.2.选择nIDR＝1的视频帧，作为关键帧用于后续处理；

2.3.3.将H.264格式视频帧解码为YUV格式，再转换为JPG格式视频帧；

2.4.检测子线程对关键帧进行移动目标快速检测，具体步骤如下：

2.4.1.计算3个连续视频帧的灰度差值，得到t_n-1时刻和t_n时刻的前景图像D_n-1和D_n；

2.4.2.对前景图像做交集及二值化计算得到R_n图像；

2.4.3.统计Rn像素值为255的点的个数，若大于设定阈值30000，则认为该视频中存在移动目标，记为Rn’；

3.检测子线程对Rn’进行人体检测，并向智能分析服务器发送姿态识别请求，具体步骤如下：

3.1.加载包括锚框信息在内的深度神经网络模型(简称网络)参数；

所述的锚框信息，指训练网络时通过聚类得到的锚框的宽高信息，分别为(10，13)， (16，30)，(33，23)，(30，61)，(62，45)，(59，119)，(116，90)，(156，198)，(373，326)；

3.2.将输入图像分辨率处理为464*464，通过网络卷积层和池化层处理输入图片，得到分辨率为13*13的特征图；

3.3.通过网络预测层对上述特征图预测目标框，具体步骤如下：

3.3.1.对特征图上的每个像素，使用锚框预测5个目标框的信息、目标框类别以及对应的置信度和类别概率；

最终得到类别概率前5的目标框信息(x，y，w，h)，分别是(249.5，346，16，449)(249.5，462，15，449)(249.5，461.5，15，449)(249.5，232，82，449)(249.5，404.5，23，449)；

3.3.2.过滤掉置信度低于预先设置的阈值T的目标框，所述的阈值T取0.7；

3.3.3.对留下来的目标框用极大抑制去掉重复目标框；

3.3.4.选取类别概率最高的目标框，并输出左下角和右上角坐标；

最终得到概率最高的目标框坐标，概率为0.97645，输出左下角和右上角坐标分别为 (0，338)(499，354)；

3.4.经过步骤3.3检测的图像帧里有人体，每隔5帧将有人体的原始图像帧和目标框信息打包成姿态识别请求，发送给智能分析服务器；

4.智能分析服务器接收姿态识别请求，进行姿态识别处理，并将结果返回转发服务器，具体步骤如下：

4.1.主线程为每个视频通道创建识别子线程和识别缓冲队列，具体步骤如下：

4.1.1.主线程接收从转发服务器发来的姿态识别请求，将接收到的图像帧挂载到通道对应的识别缓冲队列；

4.1.2.通道对应的识别子线程获取识别缓冲队列中的图像帧，记为原始图片S；

4.2.识别子线程加载由四级网络组成的深度神经网络模型，提取原始图片S中人体关节特征信息，具体步骤如下：

4.2.1.第一级网络包含两路网络N₁₁和N₁₂，生成特征图F¹ ₁～F¹ ₁₄，具体步骤如下：

4.2.1.1.N₁₁网络在原始图片S上利用若干残差模块提取特征，输出14路特征图F_11-1～F_11-14； N₁₂网络在原始图片S上先降采样，然后经过若干残差模块，然后上采样，输出14路特征图 F_12-1～F_12-14；每一路特征图对应一个高斯响应最高的关节点；

4.2.2.基于4.2.1.1的特征图，引入编码器和解码器，生成带有权重W的特征图F‘_11-1～F ‘_11-14和F‘_12-1～F‘_12-14；具体步骤如下：

4.2.2.1.编码器均匀分割F2.1.1的每个特征图为多个区域，称为特征区域a，每个区域对应的编码为y；

所述的特征区域a的集合记为R^D＝{a₁，…，a_i，…，a_L}，其中，a_i表示第i个区域，1＜＝i＜＝L，L 表示被分割的区域个数；a_i∈R^D，R^D表示以D为切割单位的完整特征图，D表示区域的像素个数，如区域大小为14*14，则D＝196；

4.2.2.2.解码器对F2.1.1的每个特征图计算权重W_11-1～W_11-14和W_12-1～W_12-14：每个权重W是该特征图中所有特征区域的权重w的集合，记为W＝{w₁，…，w_i，…，w_L}；每个特征区域的权重w_i表示该特征区域输入到下一级处理时所占的比例系数，是利用该特征区域a及编码y进行计算的结果；

4.2.3.融合特征图F‘_11-1～F‘_11-14和F‘_12-1～F‘_12-14得到该级网络输出特征图F¹ ₁～F¹ ₁₄；

4.2.4.将原始图片S和特征图F¹ ₁～F¹ ₁₄作为下一级网络的输入；

4.2.5.第二级子网络包含两路网络N₂₁和N₂₂，以第一级子网络输出的特征图F¹ ₁～F¹ ₁₄和原始图片S为输入，重复步骤4.2.1的具体步骤，得到输出F² ₁～F² ₁₄；

4.2.6.第三级子网络包含两路网络N₃₁和N₃₂，以第二级子网络输出的特征图F² ₁～F² ₁₄和原始图片S为输入，重复步骤4.2.1下的具体步骤，得到输出F³ ₁～F³ ₁₄；

4.2.7.第四级子网络包含两路网络N₄₁和N₄₂，以第三阶子网络输出的特征图F³ ₁～F³ ₁₄和原始图片S为输入，重复步骤4.2.1下的具体步骤，得到输出F⁴ ₁～F⁴ ₁₄；

4.2.8.利用特征图F⁴ ₁～F⁴ ₁₄提取所有关节的名称和坐标，按照生理常识连接相邻关节，计算关节点之间的距离，构造骨架图，如下：

以图片左上角为坐标原点，得到头、脖子、右肩，右肘、右腕、左肩、左肘、左腕、右臀、右膝、右踝、左臀、左膝、左踝坐标值分别为 (62，123)(98，120)(108，95)(138，67)(162，85)(107，144)(115，169)(82，161)(166，103)(144， 105)(299，113)(166，131)(248，127)(300，131)；计算得到(头、脖子)、(右肩、右肘)、(右肘、右腕)、(左肩、左肘)、(左肘、左腕)、(右臀，右膝)、(右膝，右踝)、(左臀、左膝)、 (左膝、左踝)连线长度分别为36.12，41.04，30.00，26.25，33.96，78.03，55.58，82.10，52.15；

4.3.识别子线程用SVM分类器对骨架图进行姿态分类，具体步骤如下：

4.3.1.加载已训练好的SVM分类器，对骨架图分类，得到的识别结果分别为：坐：92％，躺：85％，站：95％，跪：80.3％；选取准确度最高的姿态类别为“站”；

4.3.2.将上述骨架信息、姿态类别“站”及其准确度“95％”，作为识别结果返回给转发服务器；

5.转发服务器的主线程接收识别结果，转发给客户端，客户端在界面上显示结果；具体步骤如下：

5.1.主线程接收识别结果，将识别结果写入对应通道的环形缓冲队列中最新的转发数据包里；

5.2.对应通道的转发子线程从转发缓冲队列获取转发数据包，发送给客户端；

5.3.客户端接收含有识别结果的转发数据包，提取视频帧和识别信息，显示在客户端界面上。

最后需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种面向智能视频监控的多通道快速人体姿态识别方法，其步骤包括：

B2.1.创建环形缓冲队列存放各通道对应的转发数据包；

C1.检测子线程从所属通道的环形缓冲队列获取转发数据包；

C2.选择nIDR＝1的视频帧，作为关键帧用于后续处理；

C3.将H.264格式视频帧解码为YUV格式，再转换为JPG格式；

D1.计算3个连续视频帧的灰度差值，具体步骤如下：

D2.1.对D_n-1和D_n做交集计算得到D_n’；

D2.2.1.记d为D_n’中像素点的灰度值；

D2.2.2.若d＞T1，记R_n＝255，即为运动目标点；

D2.2.3.若d＜＝T1，记R_n＝0，即为背景点；

所述的置信度表示所预测的目标框位置信息的准确度；

所述的类别概率表示预测该目标框类别为人体的概率；

E3.3.对留下来的目标框用极大抑制去掉重复目标框；

E5.如果经过步骤E检测的图像帧没有人体，则不做后续处理；

F2.1.1.N₁₁网络在原始图片S上利用若干残差模块提取特征，输出14路特征图F_11-1～F_11-14；N₁₂网络在原始图片S上先降采样，然后经过若干残差模块，然后上采样，输出14路特征图F_12-1～F_12-14；每一路特征图对应一个高斯响应最高的关节点；

F2.1.2.基于F2.1.1的特征图，引入编码器和解码器，生成带有权重W的特征图F‘_11-1～F‘_11-14和F‘_12-1～F‘_12-14，具体步骤如下：

所述的特征区域a的集合记为R^D＝{a₁，…，a_i，…，a_L}，其中a_i表示第i个区域，1＜＝i＜＝L，L表示被分割的区域个数；a_i∈R^D，R^D表示以D为切割单位的完整特征图，D表示区域的像素个数，如区域大小为14*14，则D＝196；

F2.1.2.2.解码器对F2.1.1的每个特征图计算权重W_11-1～W_11-14和W_12-1～W_12-14：每个权重W是该特征图中所有特征区域的权重w的集合，记为W＝{w₁，…，w_i，…，w_L}；每个特征区域的权重w_i表示该特征区域输入到下一级处理时所占的比例系数，是利用该特征区域a及编码y进行计算的结果；