CN111291593B

CN111291593B - 一种检测人体姿态的方法

Info

Publication number: CN111291593B
Application number: CN201811492525.6A
Authority: CN
Inventors: 黄超; 徐滢
Original assignee: Chengdu Pinguo Technology Co Ltd
Current assignee: Chengdu Pinguo Technology Co Ltd
Priority date: 2018-12-06
Filing date: 2018-12-06
Publication date: 2023-04-18
Anticipated expiration: 2038-12-06
Also published as: CN111291593A

Abstract

本发明公开一种检测人体姿态的方法，包括：将预处理后的待检测人体图像输入预先训练的神经网络模型，获取预定数量的热点图，每张热点图包含一个人体关节点；所述神经网络模型包括依次连接的MobileNetV2网络的前14层、维度变换层、第一上采样层、第一卷积神经网络层、BN正则化层、ReLU激活函数层、第二上采样层、第二卷积神经网络层；所述神经网络模型中的卷积运算均采用可分离卷积运算；从预定数量的热点图中获取预定数量的人体关节点坐标；将每个人体关节点坐标缩放至待检测人体图像所在的图像坐标系中，获取待检测人体图像的人体姿态关节点。本发明提供的技术方案，能够在内存较小、CPU与GPU运算能力有限的终端上对人体姿态进行实时检测。

Description

一种检测人体姿态的方法

技术领域

本发明涉及深度学习技术领域，尤其涉及一种检测人体姿态的方法。

背景技术

对于人体姿态的检测目前可应用于诸多领域中，例如，应用在安防领域，可用于对人体的行为进行识别；应用在游戏娱乐领域，能够增加游戏的趣味性。而对于人体姿态的检测最终归结为对于人体姿态关节点的检测。

目前对于人体姿态关节点的检测主要有两种方法：一种是直接回归关节点法，即使用网络模型直接得到人体姿态关节点；另一种是回归热点图预测法，即使用网络模型得到多张热点图，再对热点图进行处理得到最终的人体关节点坐标，其中，一张热点图对应一个关节点。直接回归关节点法通常由于人体的姿态、着装、人像背景的变化都较大，所以直接回归关节点坐标的效果并不好，同时对网络模型的训练也十分困难，很难收敛得到一个比较好的可用模型。回归热点图预测在效果上虽然较直接回归关节点好，但由于其网络结构复杂、网络模型巨大，不仅使得对网络模型的训练同样困难，而且无法将其应用到内存较小、CPU或GPU运算能力有限的终端上，从而较大地限制了人体姿态检测的应用和推广。

发明内容

本发明旨在提供一种检测人体姿态的方法，能够在内存较小、CPU或GPU运算能力有限的终端上对人体姿态进行实时检测。

为达到上述目的，本发明采用的技术方案如下：

一种检测人体姿态的方法，包括：将预处理后的待检测人体图像输入预先训练的神经网络模型，获取预定数量的热点图，每张所述热点图包含一个人体关节点；所述神经网络模型包括依次连接的MobileNetV2网络的前14层、维度变换层、第一上采样层、第一卷积神经网络层、BN正则化层、ReLU激活函数层、第二上采样层、第二卷积神经网络层；所述神经网络模型中的卷积运算均采用可分离卷积运算；从所述预定数量的热点图中获取预定数量的人体关节点坐标；将每个所述人体关节点坐标缩放至所述待检测人体图像所在的图像坐标系中，获取所述待检测人体图像的人体姿态关节点。

优选地，对所述神经网络模型进行训练包括：对预先获取的原始训练图像进行人体框和关节点标注；将所述原始训练图像按照所述人体框进行剪裁，获取剪裁图像；将所述剪裁图像按预定比例缩放并填充至预定大小，获取训练输入图像；将所述原始训练图像中标注的关节点的坐标转换成所述训练输入图像中的坐标，并采用二维高斯分布函数生成ground truth值；采用所述训练输入图像和所述ground truth值对所述神经网络模型进行训练。

优选地，所述训练输入图像的大小为240×192；所述ground truth值的大小为60×48。

优选地，所述神经网络模型的损失函数采用均方损失函数：

loss(x，y)＝(x-y)²

其中，x为所述神经网络模型的预测值，y为所述ground truth值。

进一步地，还包括：在对所述神经网络模型进行训练过程中，采用Adam优化函数对所述神经网络模型进行优化。

优选地，所述第一上采样层和第二上采样层均采用2倍上采样；所述第一卷积神经网络层和第二卷积神经网络层均为3×3卷积神经网络。

优选地，所述预先训练的神经网络模型在移动终端上运行；所述待检测人体图像由所述移动终端获取。

本发明实施例提供的检测人体姿态的方法，摒弃了现有复杂的人体姿态检测网络模型，自定义了一个简洁高效的神经网络模型，同时，该神经网络模型中的卷积运算均采用可分离卷积运算。网络模型结构的简化和可分离卷积运算的使用，使得本发明的神经网络模型的计算量大大减小、模型本身也大大减小，并且训练过程更加容易。与现有技术相比，本发明提供的技术方案能够在内存较小、CPU与GPU运算能力有限的移动终端上流畅运行，实现对人体姿态的实时检测。

附图说明

图1为本发明实施例的方法流程图；

图2为本发明实施例中神经网络模型的结构示意图；

图3为本发明实施例中MobileNetV2的前14层网络结构示意图；

图4为本发明实施例中MobileNetV2的bottleneck网络的结构示意图；

图5为本发明实施例中一张热点图的可视化表现图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。

本发明需要自定义一个简洁高效的深度神经网络模型，该模型需要能够在移动终端上高效地运行，于是在本发明实施例中，为了能够高效地进行前向推理，图像的输入高宽为240×192，输出的热点图高宽定义为60×48。

目前在深度神经网络研究上已经有很多实验表明，网络深度越深其能够得到的高维度具体特征就越多，网络表现越好，但是网络越深训练就越困难，因为存在梯度消失训练不收敛的问题，而且极深的网络不利于在移动终端运行，所以本发明会自定义一个简洁高效的CNN(Convolutional Neural Networks，卷积神经网络)残差网络来进行前向推理，因为CNN能够在不同的网络层提取到不同的特征，但是网络层数越高下采样也越严重，而采用残差网络结构可以达到降维的效果，即把低维度与高维度特征相融合，这样多层CNN的结构设计可以反复获取不同尺度下输入图像所包含的信息，从而得到更好的特征提取结果。

对自定义的神经网络模型进行训练包括：对预先获取的原始训练图像进行人体框和关节点标注；将所述原始训练图像按照所述人体框进行剪裁，获取剪裁图像；将所述剪裁图像按预定比例缩放并填充至预定大小，获取训练输入图像；将所述原始训练图像中标注的关节点的坐标转换成所述训练输入图像中的坐标，并采用二维高斯分布函数生成groundtruth值；采用所述训练输入图像和所述ground truth值对所述神经网络模型进行训练。训练好的神经网络模型即可对输入图像中的人体姿态关节点进行检测。上述过程中，可对训练数据做一些常见的增广操作，如镜像、旋转、缩放、图像的色彩信息干扰(如加强或减弱对比度、饱和度)等，并进行归一化与正则化操作。

本发明实施例中神经网络模型的损失函数采用均方损失函数：

loss(x，y)＝(x-y)²

其中，x为所述神经网络模型的预测值，y为所述ground truth值。即逐像素对比x与y之间的差值平方来定义预测值与ground truth值之间的差异有多大，这个值越小越好。

在对神经网络模型进行训练过程中，采用Adam优化函数对所述神经网络模型进行优化，Adam是一种可以替代传统随机梯度下降过程的一阶优化算法，它能基于训练数据迭代地更新神经网络模型的权重。神经网络模型中的卷积运算均采用可分离卷积运算，减小计算量，减小模型大小。

若需要在移动终端上使用本模型，还需要将本模型转换成ONNX(Open NeuralNetwork Exchange，开放式神经网络交换)格式，然后再把ONNX格式的模型转换到移动端运行框架所对应的网络模型格式，如Apple的CoreML，或者Caffe2，或者其它第三方神经网络前馈推理网络支持的模型格式。也就是说ONNX是一种中间模型格式，只要前向推理框架有工具支持ONNX转换，就可以通过转换工具转换成前向推理框架所需要的模型格式。在手机移动端上使用移动端提供的摄像头API(Application Programming Interface，应用程序编程接口)得到摄像头数据，把摄像头的视频帧数据缩放到指定大小，这里默认摄像头数据当中只存在一人的情况，这样做可去除人体框检测，从而节约出大量的时间用来做人体姿态检测。这里把摄像头帧数据直接缩放成网络需要的输入大小即高宽为240x192，图像内容可能会有轻微的拉伸或压缩，不过对于鲁棒性很强的神经网络来说不会有什么影响，使用缩放后的摄像头视频帧数据输入上述训练好并转换至移动端的神经网络模型进行人体姿态检测，从而得到预测热点图。处理预测的热点图，即遍历整个热点图得到其中的最大值，即得到人体姿态的关节点坐标值。

下面描述本发明所定义的神经网络模型的具体结构：

如图2所示，所述神经网络模型包括依次连接的MobileNetV2网络的前14层、维度变换层、第一上采样层、第一卷积神经网络层、BN正则化层、ReLU激活函数层、第二上采样层、第二卷积神经网络层。图3示出了MobileNetV2的前14层网络结构示意图，其中，t代表通道扩容维度的倍数，c为输出的通道，n为这个bottleneck结构的重复次数。这里共有5组bottleneck结构，每一组bottleneck之后产生的特证图尺寸都会变小，体现出网络低层提取出抽象特征网络高层提取出更具体特征的思想，s为CNN中Filter采取的步幅。

图4示出了MobileNetV2的bott leneck网络的结构示意图，其中，bottleneck为一个瓶颈网络结构，其内部先进行升维，再做CNN卷积操作，最后再降维，这样反复提取特征数据，并同时根据s的值与输入通道与输出通道是否相等来决定是否使用shortcut连接，这里需要说明的是，当n＞1时，每一组第一个bottleneck层的s为对应的s值，其他重复层的s均为1，当s为1，输入维度与输出维度相等时网络存在shortcut连接，即残差网络思想。

在输入数据经过了上述MobileNetV2网络的前14层网络与维度变换层之后，接着进入一个姿态关节点特征提取与上采样网络层，该网络的输入特征是上层网络的输出，该网络首先对特征的高宽进行了2倍上采样。例如，此时该网络的输入为(r²C，H，W)，经过2倍上采样后，输出(C，rH，rW)，这里的r即为进行几倍上采样，如本文的2倍上采样，此时r＝2，也就是经过了第一上采样层PixelShuffle之后，通道数需除以r²，而H，W则扩大了r倍。

在经过第一上采样层之后，数据经过第一卷积神经网络层3×3Conv再次进行特征提取，同时后面接Batch Norml ization正则化，在经过了BN(Batch Normlization)之后，网络经过一个ReLU激活函数让数据更具表达力，之后再次接上采样(即第二上采样层)，这一步的作用是降低通道数，提升输出高宽让数据特征表现更明显，第二卷积神经网络层3×3Conv则是最终的预测热点图输出，把数据输出通道设置成所需要预测的关节点数，即完成整个人体姿态关节点网络的全部构建。整个网络的卷积运算全部采用可分离卷积运算，即先对每一个通道进行各自的卷积操作，有多少个通道就有多少个过滤器，得到新的通道特征图之后，这时再对这批新的通道特征图进行标准的1×1跨通道卷积操作，这两步操作可将由原来传统卷积操作的参数量降低至九分之一，大大减小模型大小，同时由于参数的减少也使得运算量大大减小。

为了更好的说明整个网络流程，这里举例来说明一下整个网络的数据流向：

输入已经裁剪缩放填充好并且经过了数据增广同时归一化正则化了的图像数据input(3×240×192)，3代表图像数据是3通道，240代表图像高，192代表图像宽，此时在经过了MobileNetV2的前14层网络结构之后的特征输出是output(96，15，12)，这时我们使用一个维度变换层来把(96，15，12)扩展到output(512，15，12)维度，这一层先用一个1x1的卷积层操作把维度扩展到512之后再Batch Normlization与ReLU6。扩展维度是为了增加特征数据的表达能力，同时也为了与后面的姿态关节点特征提取网络的输入高宽相对应。此时512代表有512个通道维度，15代表特征图高，12代表特征图宽。

把output(512，15，12)输入姿态关节点特征提取网络，在经过第一上采样层PixelShuffle上采样之后，输出为output(128，30，24)，可以看到这里对通道维度进行了降维同时扩大高宽，可以这么做的原因是使用PixelShuffle进行上采样是图像从低分辨率到高分辨率放大的过程，插值参数被隐含地包含在前面的卷积层中，可以自动学习到，由于PixelShuffle只是简单的进行像素洗牌，所以效率十分高。

把output(128，30，24)输入到后续网络，在经过了第一卷积神经网络层3×3Conv，此层的输出维度设置为256、BN正则化层、ReLU激活函数层后，再次PixelShuffle上采样之后，网络输出为(64，60，48)。再次经过一个stride为1，padding为1的3×3卷积之后，得到最终的特征热点图输出，即此时的结果为output(N，60，48)，这里的N为关节点个数，60为之前定义的热点图输出高，48为之前定义的热点图输出宽。如此时我们把N定义为17，则输出17个关节点，同时第二上采样层PixelShuffle在本文中的输出是64通道维度，则最后的3×3卷积网络层的输入为64通道，输出通道维度为N，在本文中定义为17个关节点，即17张60×48的热点图输出。

本发明的神经网络模型的训练过程为：使用事先标注好的人体框与关节点数据，裁剪出对应的单人体框，按比例缩放填充到定义好的输入大小同时做数据增广并归一化与正则化。把标注好的人体关节点坐标转换成最终输入的240×192大小的图像所在坐标系中，使用二维高斯分布函数来生成ground truth值。一个关节点生成一张热点图，如有17个关节点则生成17张热点图。使用MSELoss均方损失函数来评判预测结果与真实值之前的差异。同时使用Adam优化算法来进行梯度更新，更新整个网络的权重数据，学习率设置为0.001，训练次数为100个Epoch，训练时可使用Batch进行批训练如一个BatchSize为100，则对应的输入数据的shape为input(100，3，240，192)。在Coco数据集上使用本文方法可得到80％以上的正确率，同时模型大小只有6M左右，足以在移动端上进行人体的实时姿态检测。一张热点图的可视化表现图如图5所示，其中的白色点即代表一个对应的关节点。

在得到了训练好的神经网络模型之后，可通过Open Neural Network Exchange(ONNX，开放式神经网络交换)中间模型，把源模型转换成移动端上可运行的目标模型，转换过程为源模型->ONNX->目标模型。如转换成i0S上的CoreML模型，或者Caffe2模型，或者其它第三方神经网络运行框架模型。这里需要注意的是如果前馈推理运行框架有不支持的运算操作符则需要添加自定义实现层。在本实施例中，从摄像头获取视频帧图像数据直接缩放到240×192大小之后输入网络模型以进行前馈推理预测，在得到17个60x48大小热点图之后处理17个热点图得到对应的人体关节点坐标，再将每个人体关节点坐标转换至未缩放时的待检测人体图像所在的图像坐标系中，即可获取待检测人体图像的人体姿态关节点。

本发明实施例提供的检测人体姿态的方法，摒弃了现有复杂的人体姿态检测网络模型，自定义了一个简洁高效的神经网络模型，同时，该神经网络模型中的卷积运算均采用可分离卷积运算。网络模型结构的简化和可分离卷积运算的使用，使得本发明的神经网络模型的计算量大大减小、模型本身也大大减小，并且训练过程更加容易，节约时间与成本。与现有技术相比，本发明提供的技术方案能够在内存较小、CPU与GPU运算能力有限的移动终端上流畅运行，实现对人体姿态的实时检测，进而能够应用于移动终端的体感游戏、人体的美型瘦身、人体的关节点贴图装饰，或其它有趣的应用。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种检测人体姿态的方法，其特征在于，包括：

将预处理后的待检测人体图像输入预先训练的神经网络模型，获取预定数量的热点图，每张所述热点图包含一个人体关节点；所述神经网络模型包括依次连接的MobileNetV2网络的前14层、维度变换层、第一上采样层、第一卷积神经网络层、BN正则化层、ReLU激活函数层、第二上采样层、第二卷积神经网络层；所述神经网络模型中的卷积运算均采用可分离卷积运算；

从所述预定数量的热点图中获取预定数量的人体关节点坐标；

将每个所述人体关节点坐标缩放至所述待检测人体图像所在的图像坐标系中，获取所述待检测人体图像的人体姿态关节点；

对所述神经网络模型进行预先训练包括：

对预先获取的原始训练图像进行人体框和关节点标注；

将所述原始训练图像按照所述人体框进行剪裁，获取剪裁图像；

将所述剪裁图像按预定比例缩放并填充至预定大小，获取训练输入图像；

将所述原始训练图像中标注的关节点的坐标转换成所述训练输入图像中的坐标，并采用二维高斯分布函数生成ground truth值；

采用所述训练输入图像和所述ground truth值对所述神经网络模型进行训练。

2.根据权利要求1所述的检测人体姿态的方法，其特征在于，所述训练输入图像的大小为240×192；所述ground truth值的大小为60×48。

3.根据权利要求1所述的检测人体姿态的方法，其特征在于，所述神经网络模型的损失函数采用均方损失函数：

loss(x,y)＝(x-y)²

4.根据权利要求1所述的检测人体姿态的方法，其特征在于，还包括：在对所述神经网络模型进行训练过程中，采用Adam优化函数对所述神经网络模型进行优化。

5.根据权利要求1所述的检测人体姿态的方法，其特征在于，所述第一上采样层和第二上采样层均采用2倍上采样；所述第一卷积神经网络层和第二卷积神经网络层均为3×3卷积神经网络。

6.根据权利要求1所述的检测人体姿态的方法，其特征在于，所述预先训练的神经网络模型在移动终端上运行；所述待检测人体图像由所述移动终端获取。