CN115393963A

CN115393963A - 运动动作纠正方法、系统、存储介质、计算机设备及终端

Info

Publication number: CN115393963A
Application number: CN202211070820.9A
Authority: CN
Inventors: 贺王鹏; 刘伟; 周悦; 胡德顺
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-09-02
Filing date: 2022-09-02
Publication date: 2022-11-25

Abstract

本发明属于计算机视觉技术领域，公开了一种运动动作纠正方法、系统、存储介质、计算机设备及终端，该方法包括：人体运动姿态识别数据的收集；运动动作分类神经网络模型的设计以及模型的训练；单帧图像姿态的对比和动作时间序列的DTW(Dynamic Time Warping，动态时间归整)距离比对。本发明采用由普通USB摄像头获取人体运动图像，通过笔记本电脑进行人体姿态识别神经网络模型结构的推理，通过骨架提取和姿态分类，并完成错误动作比对纠正，通用性高，计算量小，精确度较高，很好的满足了日常生活需求。本发明使用的关键帧动作和时间序列对比双重比对策略，一是通过关键动作来进行针对部位的动作修正，二是通过一个完整的动作片段来对比。这样的纠正策略相比一般系统来说更加精确和合理。

Description

运动动作纠正方法、系统、存储介质、计算机设备及终端

技术领域

本发明属于计算机视觉技术领域，尤其涉及一种运动动作纠正方法、系统、存储介质、计算机设备及终端。

背景技术

目前，在社会经济的蓬勃发展的今日，一些人们需要的是更加专业的运动指导，但是私教又过于昂贵和教学质量参差不齐，所以目前市面上出现了许多运动动作纠正系统。

现有的运动动作辅助系统常见的是一种是惯性动作捕捉技术，惯性动作捕捉系统由姿态传感器、信号接收器和数据处理系统组成。姿态固定于人体各主要肢体部位，通过蓝牙等无线传输方式将姿态信号传送至数据处理系统，进行运动解算。姿态传感器通过集成惯性传感器、重力传感器、加速度计等元素，得到各部分肢体的姿态信息，再结合骨骼的长度信息和骨骼层级连接关系，计算出关节点的空间位置信息；而另一种是光学动作捕捉技术，是基于计算机视觉原理，由多个高速相机从不同角度对目标特征点的监视和跟踪，同时结合骨骼解算的算法来完成动作捕捉。理论上对于空间中的任意一个点，只要它能同时被两台以上相机所见，就可以确定这一时刻该点在空间中的3D位置。当相机以高帧率连续拍摄时，从图像序列中就可以得到该点的运动轨迹，得出一些有意义的指标等等。

但是以上所说的光学动作捕捉系统也存在着诸多缺点，并不利于日常用户使用和普及，无法更加方便快捷的进行部署：1)多机位架设困难。成本高，所需空间较大。2)帧同步技术复杂。其中设计多余的硬件设备，这更加造成了系统的冗杂和维护成本。3)计算机视觉和机器学习设备算力需求大。这样无法保证整个系统的便携性和实时性处理。4)可移植性差。目前专业的运动动作纠正软件都是对于专项运动作出的特别设计，如果涉及新的动作，将会有更大的移植难度。因此，亟需设计一种新的运动动作纠正方法及系统。

通过上述分析，现有技术存在的问题及缺陷为：

(1)现有光学动作捕捉系统的多机位架设困难，成本高，所需空间较大，并不利于日常用户使用和普及，无法更加方便快捷的进行部署。

(2)现有光学动作捕捉系统的帧同步技术复杂；其中设计多余的硬件设备，这更加造成了系统的冗杂和维护成本。

(3)现有计算机视觉和机器学习设备算力需求大，这样无法保证整个系统的便携性和实时性处理。

(4)现有光学动作捕捉系统可移植性差，目前专业的运动动作纠正软件都是对于专项运动作出的特别设计，如果涉及新的动作，会有更大的移植难度。

解决以上问题及缺陷的难度为：以上所采用的方案是目前人体运动动作纠正系统的主流方案，但是使用场景集中于专业场景中。由于专业运动需要专业指导，所以要保证硬件等特征条件较好，所以本发明在降低硬件成本和场地成本的情况下，同时还要保证算法的有效性和适配性，难度较大。

解决以上问题及缺陷的意义为：控制纠正系统开发成本、降低场地和硬件设备限制、使用场景和业务丰富、使用简单、迭代周期短。

发明内容

针对现有技术存在的问题，本发明提供了一种运动动作纠正方法、系统、存储介质、计算机设备及终端，尤其涉及一种基于Cascade PoseNet人体姿态识别的运动动作纠正方法、系统、存储介质、计算机设备及终端。

本发明是这样实现的，一种运动动作纠正方法，所述运动动作纠正方法包括以下步骤：

步骤一，针对性地进行人体运动姿态识别数据的收集；

该步骤的目的对人物的运动动作进行图像采集。由于在体育运动的图像特征变化性较大，不同于一般的人体姿态图像采集。所以除了采集正常运动姿态之外，还需要对某些特定情况进行考虑，例如：关键点遮挡、背景复杂、运动模糊、光照条件不佳等等情况。该步骤中收集得到数据集中的人体运动图像场景更加全面、特征更加多样性、所考虑的姿态类别较为单一，这些数据集特性有别于传统的人体姿态估计数据集，更加有利于运动中人体姿态检测识别的模型训练。

步骤二，进行运动动作分类神经网络模型的设计以及模型的训练；

该步骤的目的是设计轻量化的人体姿态检测识别网络，该网络具有骨骼关键点位置检测与人体姿态分类两种作用。其中轻量化网络作为整个算法的核心，其作用是保证整个系统的实时性以部署于嵌入式设备中；骨骼关键点位置检测的作用是得到人体骨骼关键点2D空间坐标信息，标准运动动作的空间坐标信息是一致的，所以这些信息可以用来反映动作的正确或者错误；人体姿态分类的作用是通过关键点位置坐标，来判断运动动作类别，可以用来将标准动作与待纠正动作进行匹配。

步骤三，进行单帧图像姿态的对比和动作时间序列的DTW距离比对。

该步骤中的单帧图像人物姿态对比，具体指运动员标准动作与普通人在静态单幅图像中的待纠正动作对比。主要的作用是通过静态图像中标准与错误的相关骨骼关键点的2D位置比对，来对普通人运动过程中的某些关键动作进行纠正；动作时间序列的DTW距离比对，具体指运动员与普通人在连续图像帧中的某一连续动作的对比。主要的作用是将人物骨骼关键点在连续图像帧中的2D空间位在时间方向构成序列，通过DTW算法去对比标准动作序列和待纠正动作序列的相似度，依据动作序列相似度对该动作进行评判打分。

进一步，所述步骤一中的人体运动姿态识别数据的收集包括：

数据集信息均采集于日常图像，从网络上收集运动员视频资料，并使用视频帧截取的方式将获得的视频中运动员的某一动作进行截图；其中，所述视频资料包含网球运动员单人的运动过程。

所有静态姿态图片均为三通道彩色RGB，文件格式为jpg格式。在一段时长合适的视频中获得动作标签网球关键动作图像数据集。

在训练中，将图像数据集划分为训练集、验证集和测试集；其中，所述训练集用于在训练过程中输入神经网络进行训练；所述验证集用于在训练过程中周期性地验证方法的合理性；所述测试集用于在完成时对方法的性能进行评估。

进一步，所述步骤一中的人体运动姿态识别数据收集后，还包括图像输入和图像增强；其中，所述图像输入和图像增强的方法包括：

利用图像水平翻转、垂直翻转、图像随机旋转0～10度、图像亮度随机变化、图像对比度随机变化、图像扭曲、图像缩放在内的七种图像增强策略，最终以两两组合的方式对输入模型的训练图像进行增强。

进一步，所述步骤二中的人体姿态识别的神经网络的设计包括：

采用Cascade PoseNet神经网络对收集的人体运动姿态数据集进行训练，输入是单人运动姿态图像，输出是2D图像中人体姿态关键点的坐标和该图像中的动作的类别。

该网络由PoseNet人体姿态估计网络作为backbone和分类网络组成，整个网络中的PoseNet部分输出17个人体姿态关键点，包含鼻子，左眼，右眼，左耳，右耳，左肩，右肩，左肘，右肘，左腕，右腕，左髋，右髋，左膝，右膝，左踝，右踝；同时将17个点作为特征，输入后续分类网络部分做分类，得到图像中动作的类别。

其中Cascade PoseNet中的PoseNet部分为人体运动姿态估计网络，PoseNet 的核心架构为MobileNetv1，由28层构成，第一层采用标准卷积核，其余的卷积层均用深度可分离卷积。

其中，所述卷积层用于对输入图像数据进行卷积运算，在对输入图像进行分析训练的过程中，神经网络由浅到深逐渐提取手势图像数据集特征进行分析。基本的卷积操作如下：

其中，x为卷积输入的图像，h为卷积核，y为卷积后的结果，卷积操作是基于深度学习的图像处理中基本的计算方法，通过对卷积核进行参数更新，实现对输入图像特征提取的效果。

所述批标准层，用于通过一定的规范化手段，把每层神经网络任意神经元向非线性函数映射后逐渐向取值区间极限饱和区靠拢的输入值的分布强行拉回到均值0方差为1的比较标准的正态分布。使非线性变换函数的输入值落入对输入比较敏感的区域。

在神经网络的最后部分使用了dropout层进行正则化，并使用全连接层进行分类得到神经网络预测的结果，最后输出17维的向量，分别代表对测试图像进行预测得到人体姿态关键点的x，y坐标和置信度以及该动作的类别。

进一步，所述步骤二中的运动动作分类神经网络模型的训练包括：

在设计好用于训练的姿态动作估计神经网络后，将数据集中的训练集输入到网络中进行计算；训练过程使用5折交叉验证的方法，将训练集分成5个大小相同的互斥子集，并且每个子集中7种图像的数量比接近1：1：1。

从5个子集中任意挑选一个作为训练时的验证集，剩下的四个子集作为训练集；以此类推，总共训练5个批次，每个子集都分别作一次验证集，每个批次训练20个回合。

训练过程中采取的批次为32，优化函数为Adam优化器，其中动量参数为 0.9、0.99，初始学习率为0.01；在每个回合中有目的地对学习率进行衰减，至最后一个回合学习率衰减为0.00001。

在训练中加入early stopping策略，如果在每一个周期计算模型在验证集上的误差，每15次epoch计算一次；当模型在验证集上误差比上一次训练结果差的时候停止训练，并使用上一次迭代结果中的参数作为模型的最终参数。

进一步，所述步骤三中的单帧图像姿态的对比和动作时间序列的DTW距离比对包括：

(1)视频流中的动作片段截取

对用户实时使用摄像头时候采集的视频流，对于每一帧图像，输入到 CascadePoseNet网络进行人体姿态关键点坐标提取，并完成分类，得到已经分类完成的单一动作帧；将得到的单一动作帧，在视频流中与其对应的帧进行匹配，并截取出匹配的动作帧之间的一段时间序列。

其中完成匹配的动作组合是正手引拍和正手挥拍完成、反手引拍和反手挥拍完成，其余动作都主要完成单帧图像的纠正即可。

针对标准图像数据集输入到Cascade PoseNet网络中，使用动作帧捕捉以及动作帧时间序列匹配，再针对用户通过摄像头读取的视频流完成帧截取，得到标准对照组和用户待测数据组。

(2)单帧动作比对和DTW动作片段距离比对

其中单帧图像对比纠正和时间序列DTW对比纠正，均采用vote的方式进行。Vote方式代表投票方式，包括：

确定关键动作点，针对关键点的坐标值进行逐个比对，判断运动不到位部位，选取比例最大的建议，投票得到最合理的纠正建议。

对于DTW时间序列的动作比对，先进行时间序列的作用说明。这样的一段时间序列，是一段一维信号，其中横轴代表的是时间，单位是毫秒，纵轴代表的是某一个人体关键点的x值或y值，该时间空间信号用于反映在一个完整的单一动作过程中某一部位的变化过程，其中包括的两个要素即为空间信息和时间信息，所述空间信息包括坐标点的值，用于反映某一动作的幅度和范围、关节点的相互位置以及等指标是否到位；所述时间信息包括某一动作片段的时间是否过长或过短，使用DTW算法测试与标准动作时间序列的相似程度。

完成对于单一动作帧中关键关节点的位置比对，将基准数据集与用户数据集中关键点在二维图像中的的(x,y)坐标的模糊对比，用于判断某个部位的移动幅度；以及针对一个基准数据集与用户数据集中动作时间序列的DTW距离比对，来判断一个动作片段的时间是否恰当。

本发明的另一目的在于提供一种实施所述的运动动作纠正方法的运动动作纠正系统，所述运动动作纠正系统包括：

运动姿态识别数据采集模块，用于进行人体运动姿态识别数据的收集；

网络模型构建及训练模块，用于进行运动动作分类神经网络模型的设计以及模型的训练；

动作序列截取比对纠正模块，用于分别进行单帧图像姿态的对比和动作时间序列的DTW距离比对。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

进行人体运动姿态识别数据的收集；进行运动动作分类神经网络模型的设计以及模型的训练；进行单帧图像姿态的对比和动作时间序列的DTW距离比对。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述的运动动作纠正系统。

传统的运动动作纠正系统，大多使用在国家队训练等专业场景中，使用场景局限性高。这些运动动作纠正系统由可穿戴设备、多机位高清高帧率摄像头、高性能硬件设备以及大规模算法等等构成。以上这些因素都直接导致了实现运动动作纠正的软硬件系统成本大、流程繁琐、场地限制条件大和入手难度高等诸多问题。由于这些问题的存在，目前该种运动动作纠正系统难以普及到日常用户生活中去，而目前由于疫情的影响，越来越多的家庭用户急需一套合理的运动动作纠正系统来帮助自己完成体育锻炼。本发明提出的运动动作纠正系统，采用单摄像头、单机位、端侧嵌入式设备以及简单范式的算法流程，上手难度低，空间限制小，针对性地解决了目前市场上该领域产品的空白问题。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明提供的运动动作纠正方法，基于光学动作捕捉系统进行改进完善，提出一种基于 Cascade PoseNet的人体姿态识别和DTW距离对比的机器学习算法，来完成运动动作的纠正反馈，该算法要求所需硬件设备少，算力较低，同时处理速度快，精度较高；整套系统具备可便携性等，能够完成大部分家用和户外情景下的运动动作纠正和及时反馈任务，以此来达到大部分用户的需求。

本发明设计的Cascade PoseNet级联网络，以及单帧图像和DTW距离比对算法，经过实验测试，对人体的运动动作纠正正确比例可达到85％，帧率可以达到20fps以上。在一个掌上主机和复杂的算法栈下，可以达到这样的精度基本可以满足日常用户的使用需求。因此，本发明能够针对不同运动姿态完成动作的纠正反馈，实现高准确率和高速的识别速率。

同时，本发明还具有以下有益效果：

(1)本发明采用由普通USB摄像头获取人体运动图像，通过笔记本电脑进行人体姿态识别神经网络模型结构的推理，通过骨架提取和姿态分类，并完成错误动作比对纠正，通用性高，计算量小，精确度较高，很好的满足了日常生活需求。

(2)本发明使用的关键帧动作和时间序列对比双重比对策略，一是通过关键动作来进行针对部位的动作修正，二是通过一个完整的动作片段来对比。这样的纠正策略相比一般系统来说更加精确和合理。

(3)本发明提出了一种Cascade的算法思想，由PoseNet完成姿态识别后，再去激活后续的姿态分类网络，去识别当前状态的人体姿态类型。这样的级联思想降低的系统运行的资源的算力要求。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的运动动作纠正方法流程图。

图2是本发明实施例提供的运动动作纠正系统结构框图；

图中：1、运动姿态识别数据采集模块；2、网络模型构建及训练模块；3、动作序列截取比对纠正模块。

图3是本发明实施例提供的PoseNet部分中基本的深度可分离卷积所带来的改进示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种运动动作纠正方法、系统、存储介质、计算机设备及终端，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的运动动作纠正方法包括以下步骤：

S101，进行人体运动姿态识别数据的收集；

S102，进行运动动作分类神经网络模型的设计以及模型的训练；

S103，进行单帧图像姿态的对比和动作时间序列的DTW距离比对。

如图2所示，本发明实施例提供的运动动作纠正系统包括：

运动姿态识别数据采集模块1，用于进行人体运动姿态识别数据的收集；

网络模型构建及训练模块2，用于进行运动动作分类神经网络模型的设计以及模型的训练；

动作序列截取比对纠正模块3，用于分别进行单帧图像姿态的对比和动作时间序列的DTW距离比对。

下面结合具体实施例对本发明的技术方案作进一步描述。

本发明要解决的技术问题是：提出一种基于Cascade PoseNet的人体姿态识别和DTW距离对比的机器学习算法，来完成运动动作的纠正反馈，该算法要求所需硬件设备少，算力较低，同时处理速度快，精度较高；整套系统具备可便携性等，能够完成大部分家用和户外情景下的运动动作纠正和及时反馈任务，以此来达到大部分用户的需求。

本实施例的基于人体姿态识别和机器学习的运动动作纠正方法，包括以下两个阶段：运动动作分类神经网络的建立和训练，动作序列截取比对纠正。

第一阶段包括以下步骤：人体运动姿态识别数据的收集、神经网络模型的设计以及模型的训练。

一、标准运动动作数据集收集

本发明所使用的数据集信息均采集于日常图像，从网络上收集所需的5个运动员视频资料，尽可能保证运动员所处不同的背景和不同的光照条件。该视频资料包含网球运动员单人的运动过程；

使用视频帧截取的方式，将以上获得的视频中运动员的某一动作进行截图，例如：正手引拍、正手挥拍完成、反手引拍、反手挥拍完成、网球截击、扣发、等候，其中特别说明用例是以上7种。

选择5名专业运动员，每个运动员的运动视频截取2000张图片，共计10000 张图片，其中每个运动员的2000张图片中包含等比例的7种静态运动图片。

所有静态姿态图片均为三通道彩色RGB，文件格式为jpg格式。在一段时长合适的视频中可以获得动作标签共计7种网球关键动作图像数据集。

在实际训练中，首先需要将图像数据集划分为三个部分，分别是训练集、验证集和测试集。其中训练集在训练过程中输入神经网络进行训练，验证集则在训练过程中周期性地验证方法的合理性，而测试集则在方法完成时对方法的性能进行评估。在总共的10000幅图像中，挑选7500幅图像作为训练集的数据，挑选500幅图像作为验证集的数据，其余的2000幅图像作为测试集数据，整个数据分配比例为15：1：4，符合深度学习训练标准。

二、图像输入与图像增强

这一步骤中的主要任务为，使用上一步人体姿态识别神经网络对静态运动图片识别数据集进行训练。在利用神经网络进行训练之前，需要先对将要进行训练的图像进行图像增强处理，可以增加神经网络学习图像特征的难度，并且合理地扩充了数据集。最终的效果算法可以使整个网络更加深入地挖掘图像的特征信息，达到准确的分类效果。

针对采集的运动姿态图像数据集的特点，本发明采取了以下几种图像增强方式：图像水平翻转、垂直翻转、图像随机旋转0～10度、图像亮度随机变化、图像对比度随机变化、图像扭曲、图像缩放等七种图像增强策略，最终以两两组合的方式对输入模型的训练图像进行增强。

三、人体姿态识别的神经网络结构

本发明采用Cascade PoseNet神经网络对收集的人体运动姿态数据集进行训练，输入是单人运动姿态图像，输出是2D图像中17个人体姿态关键点的坐标和该图像中的动作的类别。

该网络由PoseNet人体姿态估计网络作为backbone和分类网络组成，整个网络中的PoseNet部分输出17个人体姿态关键点，包含鼻子，左眼，右眼，左耳，右耳，左肩，右肩，左肘，右肘，左腕，右腕，左髋，右髋，左膝，右膝，左踝，右踝，如表1所示；同时将17个点作为特征，输入后续分类网络部分做分类，得到图像中动作的类别。

表1人体姿态关键点

其中Cascade PoseNet中的PoseNet部分为人体运动姿态估计网络，PoseNet 的核心架构为MobileNetv1，其网络结构如表2所示，一共由28层构成(不包括Avg Pool和FC层，且把深度卷积和逐点卷积分开算)，其除了第一层采用的是标准卷积核之外，剩下的卷积层都用的是深度可分离卷积。图3展示了 PoseNet部分中基本的深度可分离卷积所带来的改进，深度可分离卷积相较标准卷积可以降低大约9倍的计算量。

表2人体运动姿态估计网络结构

其中卷积层的功能即为对输入图像数据进行卷积运算，与传统滤波器的运算方式相似，在对输入图像进行分析训练的过程中，神经网络由浅到深逐渐提取手势图像数据集的特征来进行分析。基本的卷积操作如下：

批标准层的功能是通过一定的规范化手段，把每层神经网络任意神经元向非线性函数映射后逐渐向取值区间极限饱和区靠拢的输入值的分布强行拉回到均值0方差为1的比较标准的正态分布。使非线性变换函数的输入值落入对输入比较敏感的区域，从而避免梯度消失问题的产生，同时梯度的增大也相当于学习的收敛速率的增大，能大大减小训练的时间。

为了避免深层神经网络中的过拟合问题，本发明在神经网络的最后部分使用了dropout层进行正则化，并使用全连接层进行分类得到神经网络预测的结果，最后输出一个17维的向量，分别代表对测试图像进行预测得到人体姿态关键点的x，y坐标和置信度，以及该动作的类别。

四、交叉验证法训练

在设计好用于训练的姿态动作估计神经网络之后，需要将数据集中的训练集输入到网络中进行计算。训练过程使用5折交叉验证的方法，将训练集分成5 个大小相同的互斥子集，每个子集含有1600张姿态图像，并且每个子集中7种图像的数量比接近1：1：1。

首先从5个子集中任意挑选一个作为训练时的验证集，剩下的四个子集作为训练集。以此类推，总共训练5个批次，每个子集都分别作一次验证集，每个批次训练20个回合。通过交叉验证训练的方式可以充分利用数据集，使神经网络能够充分学习图像的特征信息，并且有效避免了过拟合的问题。

训练过程中采取的批次为32，优化函数为Adam优化器，其中动量参数为 0.9、0.99，初始学习率为0.01。在每个回合中有目的地对学习率进行衰减，至最后一个回合学习率衰减为0.00001。

同时为了防止过拟合，本发明在训练中加入early stopping策略，如果在每一个周期计算模型在验证集上的误差，每15次epoch计算一次；当模型在验证集上误差比上一次训练结果差的时候停止训练，并使用上一次迭代结果中的参数作为模型的最终参数。

最后，通过对整个神经网络模型训练180回合之后，模型准确率达到98.9％。此时模型在掌上电脑上的推断速度为23ms/帧，整个模型所占用的大小为5Mb。

第二阶段包含了单帧图像姿态的对比和动作时间序列的DTW距离比对

一、视频流中的动作片段截取

对用户实时使用摄像头时候采集的视频流，对于每一帧图像，输入到CascadePoseNet网络进行人体姿态关键点坐标提取，并完成分类，得到已经分类完成的单一动作帧。将得到的单一动作帧，在视频流中与其对应的帧进行匹配(例如，正手引拍和正手挥拍完成这是一对匹配的动作)进行匹配，并截取出匹配的动作帧之间的一段时间序列。

其中具体要完成匹配的动作组合是正手引拍和正手挥拍完成、反手引拍和反手挥拍完成。因为这两组动作是网球运动中最基本的运动动作，具有很大的纠正价值。其余动作都主要完成单帧图像的纠正即可。

针对标准图像数据集输入到Cascade PoseNet网络中，使用动作帧捕捉以及动作帧时间序列匹配，再针对用户通过摄像头读取的视频流完成帧截取，也完成以上过程，这样就有了标准对照组和用户待测数据组。

二、单帧动作比对和DTW动作片段距离比对

其中单帧图像对比纠正和时间序列DTW对比纠正，均采用vote的方式进行。Vote方式代表投票方式，因为对于用户的某一个运动动作，来进行的标准数据集中存在着1000多个标准动作，其中标准动作大多数都是较为正确的，职业运动员也会存在着错误的运动动作，所以在单帧图像动作比对中，本发明采用以下方式：一是确定关键动作点，例如挥拍动作主要的点是右手腕、右手肘和右肩，以及辅助的左手臂系统，所以本发明针对以上的6个关键点，共计12 个坐标值进行逐个比对，来判断某个部位的运动不到位，其中vote思想体现在某个部位的纠正建议在1000多个比对图像中有1000多条，本发明选取其中比例最大的一种建议，投票投出最合理的纠正建议，这样较为合理。

对于DTW时间序列的动作比对，先进行时间序列的作用说明。这样的一段时间序列，是一段一维信号，其中横轴代表的是时间，单位是毫秒，纵轴代表的是某一个人体关键点的x值(或者y值)，这样的一个时间空间信号，可以反映在一个完整的单一动作过程中某一部位的变化过程，其中包含的两个要素就是其简单的空间信息和时间信息：空间信息包含了坐标点的值，反映了某一动作的幅度和范围、关节点的相互位置以及等指标是否到位；时间信息包含了某一动作片段的时间是否过长或过短，使用DTW算法测试与标准动作时间序列的相似程度，尤其可以针对某一个部位的x或者是y坐标，更加精确细致。

完成对于单一动作帧中关键关节点的位置比对，其中具体表现为基准数据集与用户数据集中关键点在二维图像中的的(x,y)坐标的模糊对比，来判断某个部位的移动幅度；以及针对一个基准数据集与用户数据集中动作时间序列的DTW 距离比对，来判断一个动作片段的时间是否恰当。

本发明采用由普通USB摄像头获取人体运动图像，通过笔记本电脑进行人体姿态识别神经网络模型结构的推理，通过骨架提取和姿态分类，并完成错误动作比对纠正，通用性高，计算量小，精确度较高，很好的满足了日常生活需求。

本发明使用的关键帧动作和时间序列对比双重比对策略，一是通过关键动作来进行针对部位的动作修正，二是通过一个完整的动作片段来对比。这样的纠正策略相比一般系统来说更加精确和合理；本发明提出了一种Cascade的算法思想，由PoseNet完成姿态识别后，再去激活后续的姿态分类网络，去识别当前状态的人体姿态类型。这样的级联思想降低的系统运行的资源的算力要求。

下面结合仿真实验对本发明的技术效果作详细的描述。

1.实验条件：

本发明的测试平台是LattePanda Delta，其中配置是Intel第八代Celeron N4100处理器，它在被用作一个机器人控制器、交互式项目核心、物联网边缘设备以及AI大脑时，在价格和性能上都是最完美的选择。采用的系统是 ubuntu16.04；

摄像头采用的是罗技Webcam C270，分辨率和帧率是720p/30fps，固定焦距，视野是60°；

采用软件平台为vscode、OpenCV和electron，对分辨率为640px×480px的三通道RGB图像数据集进行测试。

2.实验结果：

本发明设计的Cascade PoseNet级联网络，以及单帧图像和DTW距离比对算法，经过实验测试，对人体的运动动作纠正正确比例可达到85％，帧率可以达到20fps以上。在一个掌上主机和复杂的算法栈下，可以达到这样的精度基本可以满足日常用户的使用需求。

综述，本发明能够针对不同运动姿态完成动作的纠正反馈，实现高准确率和高速的识别速率。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL) 或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如软盘、硬盘、磁带)、光介质 (例如DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种运动动作纠正方法，其特征在于，所述运动动作纠正方法包括以下步骤：

步骤一，进行人体运动姿态识别数据的收集；

2.如权利要求1所述的运动动作纠正方法，其特征在于，所述步骤一中的人体运动姿态识别数据的收集包括：

数据集信息均采集于日常图像，从网络上收集运动员视频资料，并使用视频帧截取的方式将获得的视频中运动员的某一动作进行截图；其中，所述视频资料包含网球运动员单人的运动过程；

所有静态姿态图片均为三通道彩色RGB，文件格式为jpg格式；在一段时长合适的视频中获得动作标签网球关键动作图像数据集；

3.如权利要求1所述的运动动作纠正方法，其特征在于，所述步骤一中的人体运动姿态识别数据收集后，还包括图像输入和图像增强；其中，所述图像输入和图像增强的方法包括：

4.如权利要求1所述的运动动作纠正方法，其特征在于，所述步骤二中的人体姿态识别的神经网络的设计包括：

采用Cascade PoseNet神经网络对收集的人体运动姿态数据集进行训练，输入是单人运动姿态图像，输出是2D图像中人体姿态关键点的坐标和该图像中的动作的类别；

网络由PoseNet人体姿态估计网络作为backbone和分类网络组成，整个网络中的PoseNet部分输出17个人体姿态关键点，包含鼻子，左眼，右眼，左耳，右耳，左肩，右肩，左肘，右肘，左腕，右腕，左髋，右髋，左膝，右膝，左踝，右踝；同时将17个点作为特征，输入后续分类网络部分做分类，得到图像中动作的类别；

其中Cascade PoseNet中的PoseNet部分为人体运动姿态估计网络，PoseNet的核心架构为MobileNetv1，由28层构成，第一层采用标准卷积核，其余的卷积层均用深度可分离卷积；

其中，所述卷积层用于对输入图像数据进行卷积运算，在对输入图像进行分析训练的过程中，神经网络由浅到深逐渐提取手势图像数据集特征进行分析；基本的卷积操作如下：

其中，x为卷积输入的图像，h为卷积核，y为卷积后的结果，卷积操作是基于深度学习的图像处理中基本的计算方法，通过对卷积核进行参数更新，实现对输入图像特征提取的效果；

所述批标准层，用于通过一定的规范化手段，把每层神经网络任意神经元向非线性函数映射后逐渐向取值区间极限饱和区靠拢的输入值的分布强行拉回到均值0方差为1的比较标准的正态分布；使非线性变换函数的输入值落入对输入比较敏感的区域；

在神经网络的最后部分使用dropout层进行正则化，并使用全连接层进行分类得到神经网络预测的结果，最后输出17维的向量，分别代表对测试图像进行预测得到人体姿态关键点的x，y坐标和置信度以及该动作的类别。

5.如权利要求1所述的运动动作纠正方法，其特征在于，所述步骤二中的运动动作分类神经网络模型的训练包括：

在设计好用于训练的姿态动作估计神经网络后，将数据集中的训练集输入到网络中进行计算；训练过程使用5折交叉验证的方法，将训练集分成5个大小相同的互斥子集，并且每个子集中7种图像的数量比接近1：1：1；

从5个子集中任意挑选一个作为训练时的验证集，剩下的四个子集作为训练集；以此类推，总共训练5个批次，每个子集都分别作一次验证集，每个批次训练20个回合；

训练过程中采取的批次为32，优化函数为Adam优化器，其中动量参数为0.9、0.99，初始学习率为0.01；在每个回合中有目的地对学习率进行衰减，至最后一个回合学习率衰减为0.00001；

6.如权利要求1所述的运动动作纠正方法，其特征在于，所述步骤三中的单帧图像姿态的对比和动作时间序列的DTW距离比对包括：

(1)视频流中的动作片段截取

对用户实时使用摄像头时候采集的视频流，对于每一帧图像，输入到Cascade PoseNet网络进行人体姿态关键点坐标提取，并完成分类，得到已经分类完成的单一动作帧；将得到的单一动作帧，在视频流中与其对应的帧进行匹配，并截取出匹配的动作帧之间的一段时间序列；

其中完成匹配的动作组合是正手引拍和正手挥拍完成、反手引拍和反手挥拍完成，其余动作都主要完成单帧图像的纠正即可；

针对标准图像数据集输入到Cascade PoseNet网络中，使用动作帧捕捉以及动作帧时间序列匹配，再针对用户通过摄像头读取的视频流完成帧截取，得到标准对照组和用户待测数据组；

(2)单帧动作比对和DTW动作片段距离比对

其中单帧图像对比纠正和时间序列DTW对比纠正，均采用vote的方式进行；Vote方式代表投票方式，包括：

确定关键动作点，针对关键点的坐标值进行逐个比对，判断运动不到位部位，选取比例最大的建议，投票得到最合理的纠正建议；

对于DTW时间序列的动作比对，先进行时间序列的作用说明，该时间序列是一段一维信号，其中横轴代表的是时间，单位是毫秒，纵轴代表的是某一个人体关键点的x值或y值，该时间空间信号用于反映在一个完整的单一动作过程中某一部位的变化过程，其中包括的两个要素即为空间信息和时间信息，所述空间信息包括坐标点的值，用于反映某一动作的幅度和范围、关节点的相互位置以及等指标是否到位；所述时间信息包括某一动作片段的时间是否过长或过短，使用DTW算法测试与标准动作时间序列的相似程度；

完成对于单一动作帧中关键关节点的位置比对，将基准数据集与用户数据集中关键点在二维图像中的(x,y)坐标的模糊对比，用于判断某个部位的移动幅度；以及针对一个基准数据集与用户数据集中动作时间序列的DTW距离比对，来判断一个动作片段的时间是否恰当。

7.一种实施权利要求1～6任意一项所述的运动动作纠正方法的运动动作纠正系统，其特征在于，所述运动动作纠正系统包括：

8.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

10.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现如权利要求7所述的运动动作纠正系统。