CN115393963A - 运动动作纠正方法、系统、存储介质、计算机设备及终端 - Google Patents
运动动作纠正方法、系统、存储介质、计算机设备及终端 Download PDFInfo
- Publication number
- CN115393963A CN115393963A CN202211070820.9A CN202211070820A CN115393963A CN 115393963 A CN115393963 A CN 115393963A CN 202211070820 A CN202211070820 A CN 202211070820A CN 115393963 A CN115393963 A CN 115393963A
- Authority
- CN
- China
- Prior art keywords
- action
- image
- training
- motion
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉技术领域,公开了一种运动动作纠正方法、系统、存储介质、计算机设备及终端,该方法包括:人体运动姿态识别数据的收集;运动动作分类神经网络模型的设计以及模型的训练;单帧图像姿态的对比和动作时间序列的DTW(Dynamic Time Warping,动态时间归整)距离比对。本发明采用由普通USB摄像头获取人体运动图像,通过笔记本电脑进行人体姿态识别神经网络模型结构的推理,通过骨架提取和姿态分类,并完成错误动作比对纠正,通用性高,计算量小,精确度较高,很好的满足了日常生活需求。本发明使用的关键帧动作和时间序列对比双重比对策略,一是通过关键动作来进行针对部位的动作修正,二是通过一个完整的动作片段来对比。这样的纠正策略相比一般系统来说更加精确和合理。
Description
技术领域
本发明属于计算机视觉技术领域,尤其涉及一种运动动作纠正方法、系统、 存储介质、计算机设备及终端。
背景技术
目前,在社会经济的蓬勃发展的今日,一些人们需要的是更加专业的运动 指导,但是私教又过于昂贵和教学质量参差不齐,所以目前市面上出现了许多 运动动作纠正系统。
现有的运动动作辅助系统常见的是一种是惯性动作捕捉技术,惯性动作捕 捉系统由姿态传感器、信号接收器和数据处理系统组成。姿态固定于人体各主 要肢体部位,通过蓝牙等无线传输方式将姿态信号传送至数据处理系统,进行 运动解算。姿态传感器通过集成惯性传感器、重力传感器、加速度计等元素, 得到各部分肢体的姿态信息,再结合骨骼的长度信息和骨骼层级连接关系,计 算出关节点的空间位置信息;而另一种是光学动作捕捉技术,是基于计算机视 觉原理,由多个高速相机从不同角度对目标特征点的监视和跟踪,同时结合骨 骼解算的算法来完成动作捕捉。理论上对于空间中的任意一个点,只要它能同 时被两台以上相机所见,就可以确定这一时刻该点在空间中的3D位置。当相机 以高帧率连续拍摄时,从图像序列中就可以得到该点的运动轨迹,得出一些有 意义的指标等等。
但是以上所说的光学动作捕捉系统也存在着诸多缺点,并不利于日常用户 使用和普及,无法更加方便快捷的进行部署:1)多机位架设困难。成本高,所 需空间较大。2)帧同步技术复杂。其中设计多余的硬件设备,这更加造成了系 统的冗杂和维护成本。3)计算机视觉和机器学习设备算力需求大。这样无法保 证整个系统的便携性和实时性处理。4)可移植性差。目前专业的运动动作纠正 软件都是对于专项运动作出的特别设计,如果涉及新的动作,将会有更大的移 植难度。因此,亟需设计一种新的运动动作纠正方法及系统。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有光学动作捕捉系统的多机位架设困难,成本高,所需空间较大, 并不利于日常用户使用和普及,无法更加方便快捷的进行部署。
(2)现有光学动作捕捉系统的帧同步技术复杂;其中设计多余的硬件设备, 这更加造成了系统的冗杂和维护成本。
(3)现有计算机视觉和机器学习设备算力需求大,这样无法保证整个系统 的便携性和实时性处理。
(4)现有光学动作捕捉系统可移植性差,目前专业的运动动作纠正软件都 是对于专项运动作出的特别设计,如果涉及新的动作,会有更大的移植难度。
解决以上问题及缺陷的难度为:以上所采用的方案是目前人体运动动作纠 正系统的主流方案,但是使用场景集中于专业场景中。由于专业运动需要专业 指导,所以要保证硬件等特征条件较好,所以本发明在降低硬件成本和场地成 本的情况下,同时还要保证算法的有效性和适配性,难度较大。
解决以上问题及缺陷的意义为:控制纠正系统开发成本、降低场地和硬件 设备限制、使用场景和业务丰富、使用简单、迭代周期短。
发明内容
针对现有技术存在的问题,本发明提供了一种运动动作纠正方法、系统、 存储介质、计算机设备及终端,尤其涉及一种基于Cascade PoseNet人体姿态识 别的运动动作纠正方法、系统、存储介质、计算机设备及终端。
本发明是这样实现的,一种运动动作纠正方法,所述运动动作纠正方法包 括以下步骤:
步骤一,针对性地进行人体运动姿态识别数据的收集;
该步骤的目的对人物的运动动作进行图像采集。由于在体育运动的图像特 征变化性较大,不同于一般的人体姿态图像采集。所以除了采集正常运动姿态 之外,还需要对某些特定情况进行考虑,例如:关键点遮挡、背景复杂、运动 模糊、光照条件不佳等等情况。该步骤中收集得到数据集中的人体运动图像场 景更加全面、特征更加多样性、所考虑的姿态类别较为单一,这些数据集特性 有别于传统的人体姿态估计数据集,更加有利于运动中人体姿态检测识别的模 型训练。
步骤二,进行运动动作分类神经网络模型的设计以及模型的训练;
该步骤的目的是设计轻量化的人体姿态检测识别网络,该网络具有骨骼关 键点位置检测与人体姿态分类两种作用。其中轻量化网络作为整个算法的核心, 其作用是保证整个系统的实时性以部署于嵌入式设备中;骨骼关键点位置检测 的作用是得到人体骨骼关键点2D空间坐标信息,标准运动动作的空间坐标信息 是一致的,所以这些信息可以用来反映动作的正确或者错误;人体姿态分类的 作用是通过关键点位置坐标,来判断运动动作类别,可以用来将标准动作与待 纠正动作进行匹配。
步骤三,进行单帧图像姿态的对比和动作时间序列的DTW距离比对。
该步骤中的单帧图像人物姿态对比,具体指运动员标准动作与普通人在静 态单幅图像中的待纠正动作对比。主要的作用是通过静态图像中标准与错误的 相关骨骼关键点的2D位置比对,来对普通人运动过程中的某些关键动作进行纠 正;动作时间序列的DTW距离比对,具体指运动员与普通人在连续图像帧中的 某一连续动作的对比。主要的作用是将人物骨骼关键点在连续图像帧中的2D空 间位在时间方向构成序列,通过DTW算法去对比标准动作序列和待纠正动作序 列的相似度,依据动作序列相似度对该动作进行评判打分。
进一步,所述步骤一中的人体运动姿态识别数据的收集包括:
数据集信息均采集于日常图像,从网络上收集运动员视频资料,并使用视 频帧截取的方式将获得的视频中运动员的某一动作进行截图;其中,所述视频 资料包含网球运动员单人的运动过程。
所有静态姿态图片均为三通道彩色RGB,文件格式为jpg格式。在一段时 长合适的视频中获得动作标签网球关键动作图像数据集。
在训练中,将图像数据集划分为训练集、验证集和测试集;其中,所述训 练集用于在训练过程中输入神经网络进行训练;所述验证集用于在训练过程中 周期性地验证方法的合理性;所述测试集用于在完成时对方法的性能进行评估。
进一步,所述步骤一中的人体运动姿态识别数据收集后,还包括图像输入 和图像增强;其中,所述图像输入和图像增强的方法包括:
利用图像水平翻转、垂直翻转、图像随机旋转0~10度、图像亮度随机变化、 图像对比度随机变化、图像扭曲、图像缩放在内的七种图像增强策略,最终以 两两组合的方式对输入模型的训练图像进行增强。
进一步,所述步骤二中的人体姿态识别的神经网络的设计包括:
采用Cascade PoseNet神经网络对收集的人体运动姿态数据集进行训练,输 入是单人运动姿态图像,输出是2D图像中人体姿态关键点的坐标和该图像中的 动作的类别。
该网络由PoseNet人体姿态估计网络作为backbone和分类网络组成,整个 网络中的PoseNet部分输出17个人体姿态关键点,包含鼻子,左眼,右眼,左 耳,右耳,左肩,右肩,左肘,右肘,左腕,右腕,左髋,右髋,左膝,右膝, 左踝,右踝;同时将17个点作为特征,输入后续分类网络部分做分类,得到图 像中动作的类别。
其中Cascade PoseNet中的PoseNet部分为人体运动姿态估计网络,PoseNet 的核心架构为MobileNetv1,由28层构成,第一层采用标准卷积核,其余的卷 积层均用深度可分离卷积。
其中,所述卷积层用于对输入图像数据进行卷积运算,在对输入图像进行 分析训练的过程中,神经网络由浅到深逐渐提取手势图像数据集特征进行分析。 基本的卷积操作如下:
其中,x为卷积输入的图像,h为卷积核,y为卷积后的结果,卷积操作是 基于深度学习的图像处理中基本的计算方法,通过对卷积核进行参数更新,实 现对输入图像特征提取的效果。
所述批标准层,用于通过一定的规范化手段,把每层神经网络任意神经元 向非线性函数映射后逐渐向取值区间极限饱和区靠拢的输入值的分布强行拉回 到均值0方差为1的比较标准的正态分布。使非线性变换函数的输入值落入对 输入比较敏感的区域。
在神经网络的最后部分使用了dropout层进行正则化,并使用全连接层进行 分类得到神经网络预测的结果,最后输出17维的向量,分别代表对测试图像进 行预测得到人体姿态关键点的x,y坐标和置信度以及该动作的类别。
进一步,所述步骤二中的运动动作分类神经网络模型的训练包括:
在设计好用于训练的姿态动作估计神经网络后,将数据集中的训练集输入 到网络中进行计算;训练过程使用5折交叉验证的方法,将训练集分成5个大 小相同的互斥子集,并且每个子集中7种图像的数量比接近1:1:1。
从5个子集中任意挑选一个作为训练时的验证集,剩下的四个子集作为训 练集;以此类推,总共训练5个批次,每个子集都分别作一次验证集,每个批 次训练20个回合。
训练过程中采取的批次为32,优化函数为Adam优化器,其中动量参数为 0.9、0.99,初始学习率为0.01;在每个回合中有目的地对学习率进行衰减,至 最后一个回合学习率衰减为0.00001。
在训练中加入early stopping策略,如果在每一个周期计算模型在验证集上 的误差,每15次epoch计算一次;当模型在验证集上误差比上一次训练结果差 的时候停止训练,并使用上一次迭代结果中的参数作为模型的最终参数。
进一步,所述步骤三中的单帧图像姿态的对比和动作时间序列的DTW距离 比对包括:
(1)视频流中的动作片段截取
对用户实时使用摄像头时候采集的视频流,对于每一帧图像,输入到 CascadePoseNet网络进行人体姿态关键点坐标提取,并完成分类,得到已经分 类完成的单一动作帧;将得到的单一动作帧,在视频流中与其对应的帧进行匹 配,并截取出匹配的动作帧之间的一段时间序列。
其中完成匹配的动作组合是正手引拍和正手挥拍完成、反手引拍和反手挥 拍完成,其余动作都主要完成单帧图像的纠正即可。
针对标准图像数据集输入到Cascade PoseNet网络中,使用动作帧捕捉以及 动作帧时间序列匹配,再针对用户通过摄像头读取的视频流完成帧截取,得到 标准对照组和用户待测数据组。
(2)单帧动作比对和DTW动作片段距离比对
其中单帧图像对比纠正和时间序列DTW对比纠正,均采用vote的方式进 行。Vote方式代表投票方式,包括:
确定关键动作点,针对关键点的坐标值进行逐个比对,判断运动不到位部 位,选取比例最大的建议,投票得到最合理的纠正建议。
对于DTW时间序列的动作比对,先进行时间序列的作用说明。这样的一段 时间序列,是一段一维信号,其中横轴代表的是时间,单位是毫秒,纵轴代表 的是某一个人体关键点的x值或y值,该时间空间信号用于反映在一个完整的 单一动作过程中某一部位的变化过程,其中包括的两个要素即为空间信息和时 间信息,所述空间信息包括坐标点的值,用于反映某一动作的幅度和范围、关 节点的相互位置以及等指标是否到位;所述时间信息包括某一动作片段的时间 是否过长或过短,使用DTW算法测试与标准动作时间序列的相似程度。
完成对于单一动作帧中关键关节点的位置比对,将基准数据集与用户数据 集中关键点在二维图像中的的(x,y)坐标的模糊对比,用于判断某个部位的移动幅 度;以及针对一个基准数据集与用户数据集中动作时间序列的DTW距离比对, 来判断一个动作片段的时间是否恰当。
本发明的另一目的在于提供一种实施所述的运动动作纠正方法的运动动作 纠正系统,所述运动动作纠正系统包括:
运动姿态识别数据采集模块,用于进行人体运动姿态识别数据的收集;
网络模型构建及训练模块,用于进行运动动作分类神经网络模型的设计以 及模型的训练;
动作序列截取比对纠正模块,用于分别进行单帧图像姿态的对比和动作时 间序列的DTW距离比对。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器 和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行 时,使得所述处理器执行如下步骤:
进行人体运动姿态识别数据的收集;进行运动动作分类神经网络模型的设 计以及模型的训练;进行单帧图像姿态的对比和动作时间序列的DTW距离比 对。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序, 所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
进行人体运动姿态识别数据的收集;进行运动动作分类神经网络模型的设 计以及模型的训练;进行单帧图像姿态的对比和动作时间序列的DTW距离比 对。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终 端用于实现所述的运动动作纠正系统。
传统的运动动作纠正系统,大多使用在国家队训练等专业场景中,使用场 景局限性高。这些运动动作纠正系统由可穿戴设备、多机位高清高帧率摄像头、 高性能硬件设备以及大规模算法等等构成。以上这些因素都直接导致了实现运 动动作纠正的软硬件系统成本大、流程繁琐、场地限制条件大和入手难度高等 诸多问题。由于这些问题的存在,目前该种运动动作纠正系统难以普及到日常 用户生活中去,而目前由于疫情的影响,越来越多的家庭用户急需一套合理的 运动动作纠正系统来帮助自己完成体育锻炼。本发明提出的运动动作纠正系统, 采用单摄像头、单机位、端侧嵌入式设备以及简单范式的算法流程,上手难度 低,空间限制小,针对性地解决了目前市场上该领域产品的空白问题。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明提 供的运动动作纠正方法,基于光学动作捕捉系统进行改进完善,提出一种基于 Cascade PoseNet的人体姿态识别和DTW距离对比的机器学习算法,来完成运 动动作的纠正反馈,该算法要求所需硬件设备少,算力较低,同时处理速度快, 精度较高;整套系统具备可便携性等,能够完成大部分家用和户外情景下的运 动动作纠正和及时反馈任务,以此来达到大部分用户的需求。
本发明设计的Cascade PoseNet级联网络,以及单帧图像和DTW距离比对 算法,经过实验测试,对人体的运动动作纠正正确比例可达到85%,帧率可以 达到20fps以上。在一个掌上主机和复杂的算法栈下,可以达到这样的精度基本 可以满足日常用户的使用需求。因此,本发明能够针对不同运动姿态完成动作 的纠正反馈,实现高准确率和高速的识别速率。
同时,本发明还具有以下有益效果:
(1)本发明采用由普通USB摄像头获取人体运动图像,通过笔记本电脑 进行人体姿态识别神经网络模型结构的推理,通过骨架提取和姿态分类,并完 成错误动作比对纠正,通用性高,计算量小,精确度较高,很好的满足了日常 生活需求。
(2)本发明使用的关键帧动作和时间序列对比双重比对策略,一是通过关 键动作来进行针对部位的动作修正,二是通过一个完整的动作片段来对比。这 样的纠正策略相比一般系统来说更加精确和合理。
(3)本发明提出了一种Cascade的算法思想,由PoseNet完成姿态识别后, 再去激活后续的姿态分类网络,去识别当前状态的人体姿态类型。这样的级联 思想降低的系统运行的资源的算力要求。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所 需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下 还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的运动动作纠正方法流程图。
图2是本发明实施例提供的运动动作纠正系统结构框图;
图中:1、运动姿态识别数据采集模块;2、网络模型构建及训练模块;3、 动作序列截取比对纠正模块。
图3是本发明实施例提供的PoseNet部分中基本的深度可分离卷积所带来的 改进示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例, 对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以 解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种运动动作纠正方法、系统、 存储介质、计算机设备及终端,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的运动动作纠正方法包括以下步骤:
S101,进行人体运动姿态识别数据的收集;
S102,进行运动动作分类神经网络模型的设计以及模型的训练;
S103,进行单帧图像姿态的对比和动作时间序列的DTW距离比对。
如图2所示,本发明实施例提供的运动动作纠正系统包括:
运动姿态识别数据采集模块1,用于进行人体运动姿态识别数据的收集;
网络模型构建及训练模块2,用于进行运动动作分类神经网络模型的设计以 及模型的训练;
动作序列截取比对纠正模块3,用于分别进行单帧图像姿态的对比和动作时 间序列的DTW距离比对。
下面结合具体实施例对本发明的技术方案作进一步描述。
本发明要解决的技术问题是:提出一种基于Cascade PoseNet的人体姿态识 别和DTW距离对比的机器学习算法,来完成运动动作的纠正反馈,该算法要求 所需硬件设备少,算力较低,同时处理速度快,精度较高;整套系统具备可便 携性等,能够完成大部分家用和户外情景下的运动动作纠正和及时反馈任务, 以此来达到大部分用户的需求。
本实施例的基于人体姿态识别和机器学习的运动动作纠正方法,包括以下 两个阶段:运动动作分类神经网络的建立和训练,动作序列截取比对纠正。
第一阶段包括以下步骤:人体运动姿态识别数据的收集、神经网络模型的 设计以及模型的训练。
一、标准运动动作数据集收集
本发明所使用的数据集信息均采集于日常图像,从网络上收集所需的5个 运动员视频资料,尽可能保证运动员所处不同的背景和不同的光照条件。该视 频资料包含网球运动员单人的运动过程;
使用视频帧截取的方式,将以上获得的视频中运动员的某一动作进行截图, 例如:正手引拍、正手挥拍完成、反手引拍、反手挥拍完成、网球截击、扣发、 等候,其中特别说明用例是以上7种。
选择5名专业运动员,每个运动员的运动视频截取2000张图片,共计10000 张图片,其中每个运动员的2000张图片中包含等比例的7种静态运动图片。
所有静态姿态图片均为三通道彩色RGB,文件格式为jpg格式。在一段时 长合适的视频中可以获得动作标签共计7种网球关键动作图像数据集。
在实际训练中,首先需要将图像数据集划分为三个部分,分别是训练集、 验证集和测试集。其中训练集在训练过程中输入神经网络进行训练,验证集则 在训练过程中周期性地验证方法的合理性,而测试集则在方法完成时对方法的 性能进行评估。在总共的10000幅图像中,挑选7500幅图像作为训练集的数据, 挑选500幅图像作为验证集的数据,其余的2000幅图像作为测试集数据,整个 数据分配比例为15:1:4,符合深度学习训练标准。
二、图像输入与图像增强
这一步骤中的主要任务为,使用上一步人体姿态识别神经网络对静态运动 图片识别数据集进行训练。在利用神经网络进行训练之前,需要先对将要进行 训练的图像进行图像增强处理,可以增加神经网络学习图像特征的难度,并且 合理地扩充了数据集。最终的效果算法可以使整个网络更加深入地挖掘图像的 特征信息,达到准确的分类效果。
针对采集的运动姿态图像数据集的特点,本发明采取了以下几种图像增强 方式:图像水平翻转、垂直翻转、图像随机旋转0~10度、图像亮度随机变化、 图像对比度随机变化、图像扭曲、图像缩放等七种图像增强策略,最终以两两 组合的方式对输入模型的训练图像进行增强。
三、人体姿态识别的神经网络结构
本发明采用Cascade PoseNet神经网络对收集的人体运动姿态数据集进行训 练,输入是单人运动姿态图像,输出是2D图像中17个人体姿态关键点的坐标 和该图像中的动作的类别。
该网络由PoseNet人体姿态估计网络作为backbone和分类网络组成,整个 网络中的PoseNet部分输出17个人体姿态关键点,包含鼻子,左眼,右眼,左 耳,右耳,左肩,右肩,左肘,右肘,左腕,右腕,左髋,右髋,左膝,右膝, 左踝,右踝,如表1所示;同时将17个点作为特征,输入后续分类网络部分做 分类,得到图像中动作的类别。
表1人体姿态关键点
其中Cascade PoseNet中的PoseNet部分为人体运动姿态估计网络,PoseNet 的核心架构为MobileNetv1,其网络结构如表2所示,一共由28层构成(不包 括Avg Pool和FC层,且把深度卷积和逐点卷积分开算),其除了第一层采用 的是标准卷积核之外,剩下的卷积层都用的是深度可分离卷积。图3展示了 PoseNet部分中基本的深度可分离卷积所带来的改进,深度可分离卷积相较标准 卷积可以降低大约9倍的计算量。
表2人体运动姿态估计网络结构
其中卷积层的功能即为对输入图像数据进行卷积运算,与传统滤波器的运 算方式相似,在对输入图像进行分析训练的过程中,神经网络由浅到深逐渐提 取手势图像数据集的特征来进行分析。基本的卷积操作如下:
其中,x为卷积输入的图像,h为卷积核,y为卷积后的结果,卷积操作是 基于深度学习的图像处理中基本的计算方法,通过对卷积核进行参数更新,实 现对输入图像特征提取的效果。
批标准层的功能是通过一定的规范化手段,把每层神经网络任意神经元向 非线性函数映射后逐渐向取值区间极限饱和区靠拢的输入值的分布强行拉回到 均值0方差为1的比较标准的正态分布。使非线性变换函数的输入值落入对输 入比较敏感的区域,从而避免梯度消失问题的产生,同时梯度的增大也相当于 学习的收敛速率的增大,能大大减小训练的时间。
为了避免深层神经网络中的过拟合问题,本发明在神经网络的最后部分使 用了dropout层进行正则化,并使用全连接层进行分类得到神经网络预测的结果, 最后输出一个17维的向量,分别代表对测试图像进行预测得到人体姿态关键点 的x,y坐标和置信度,以及该动作的类别。
四、交叉验证法训练
在设计好用于训练的姿态动作估计神经网络之后,需要将数据集中的训练 集输入到网络中进行计算。训练过程使用5折交叉验证的方法,将训练集分成5 个大小相同的互斥子集,每个子集含有1600张姿态图像,并且每个子集中7种 图像的数量比接近1:1:1。
首先从5个子集中任意挑选一个作为训练时的验证集,剩下的四个子集作 为训练集。以此类推,总共训练5个批次,每个子集都分别作一次验证集,每 个批次训练20个回合。通过交叉验证训练的方式可以充分利用数据集,使神经 网络能够充分学习图像的特征信息,并且有效避免了过拟合的问题。
训练过程中采取的批次为32,优化函数为Adam优化器,其中动量参数为 0.9、0.99,初始学习率为0.01。在每个回合中有目的地对学习率进行衰减,至 最后一个回合学习率衰减为0.00001。
同时为了防止过拟合,本发明在训练中加入early stopping策略,如果在每 一个周期计算模型在验证集上的误差,每15次epoch计算一次;当模型在验证 集上误差比上一次训练结果差的时候停止训练,并使用上一次迭代结果中的参 数作为模型的最终参数。
最后,通过对整个神经网络模型训练180回合之后,模型准确率达到98.9%。 此时模型在掌上电脑上的推断速度为23ms/帧,整个模型所占用的大小为5Mb。
第二阶段包含了单帧图像姿态的对比和动作时间序列的DTW距离比对
一、视频流中的动作片段截取
对用户实时使用摄像头时候采集的视频流,对于每一帧图像,输入到CascadePoseNet网络进行人体姿态关键点坐标提取,并完成分类,得到已经分 类完成的单一动作帧。将得到的单一动作帧,在视频流中与其对应的帧进行匹 配(例如,正手引拍和正手挥拍完成这是一对匹配的动作)进行匹配,并截取 出匹配的动作帧之间的一段时间序列。
其中具体要完成匹配的动作组合是正手引拍和正手挥拍完成、反手引拍和 反手挥拍完成。因为这两组动作是网球运动中最基本的运动动作,具有很大的 纠正价值。其余动作都主要完成单帧图像的纠正即可。
针对标准图像数据集输入到Cascade PoseNet网络中,使用动作帧捕捉以及 动作帧时间序列匹配,再针对用户通过摄像头读取的视频流完成帧截取,也完 成以上过程,这样就有了标准对照组和用户待测数据组。
二、单帧动作比对和DTW动作片段距离比对
其中单帧图像对比纠正和时间序列DTW对比纠正,均采用vote的方式进 行。Vote方式代表投票方式,因为对于用户的某一个运动动作,来进行的标准 数据集中存在着1000多个标准动作,其中标准动作大多数都是较为正确的,职 业运动员也会存在着错误的运动动作,所以在单帧图像动作比对中,本发明采 用以下方式:一是确定关键动作点,例如挥拍动作主要的点是右手腕、右手肘 和右肩,以及辅助的左手臂系统,所以本发明针对以上的6个关键点,共计12 个坐标值进行逐个比对,来判断某个部位的运动不到位,其中vote思想体现在 某个部位的纠正建议在1000多个比对图像中有1000多条,本发明选取其中比 例最大的一种建议,投票投出最合理的纠正建议,这样较为合理。
对于DTW时间序列的动作比对,先进行时间序列的作用说明。这样的一段 时间序列,是一段一维信号,其中横轴代表的是时间,单位是毫秒,纵轴代表 的是某一个人体关键点的x值(或者y值),这样的一个时间空间信号,可以 反映在一个完整的单一动作过程中某一部位的变化过程,其中包含的两个要素 就是其简单的空间信息和时间信息:空间信息包含了坐标点的值,反映了某一 动作的幅度和范围、关节点的相互位置以及等指标是否到位;时间信息包含了 某一动作片段的时间是否过长或过短,使用DTW算法测试与标准动作时间序列 的相似程度,尤其可以针对某一个部位的x或者是y坐标,更加精确细致。
完成对于单一动作帧中关键关节点的位置比对,其中具体表现为基准数据 集与用户数据集中关键点在二维图像中的的(x,y)坐标的模糊对比,来判断某个部 位的移动幅度;以及针对一个基准数据集与用户数据集中动作时间序列的DTW 距离比对,来判断一个动作片段的时间是否恰当。
本发明采用由普通USB摄像头获取人体运动图像,通过笔记本电脑进行人 体姿态识别神经网络模型结构的推理,通过骨架提取和姿态分类,并完成错误 动作比对纠正,通用性高,计算量小,精确度较高,很好的满足了日常生活需 求。
本发明使用的关键帧动作和时间序列对比双重比对策略,一是通过关键动 作来进行针对部位的动作修正,二是通过一个完整的动作片段来对比。这样的 纠正策略相比一般系统来说更加精确和合理;本发明提出了一种Cascade的算法 思想,由PoseNet完成姿态识别后,再去激活后续的姿态分类网络,去识别当前 状态的人体姿态类型。这样的级联思想降低的系统运行的资源的算力要求。
下面结合仿真实验对本发明的技术效果作详细的描述。
1.实验条件:
本发明的测试平台是LattePanda Delta,其中配置是Intel第八代Celeron N4100处理器,它在被用作一个机器人控制器、交互式项目核心、物联网边缘 设备以及AI大脑时,在价格和性能上都是最完美的选择。采用的系统是 ubuntu16.04;
摄像头采用的是罗技Webcam C270,分辨率和帧率是720p/30fps,固定焦 距,视野是60°;
采用软件平台为vscode、OpenCV和electron,对分辨率为640px×480px的 三通道RGB图像数据集进行测试。
2.实验结果:
本发明设计的Cascade PoseNet级联网络,以及单帧图像和DTW距离比对 算法,经过实验测试,对人体的运动动作纠正正确比例可达到85%,帧率可以 达到20fps以上。在一个掌上主机和复杂的算法栈下,可以达到这样的精度基本 可以满足日常用户的使用需求。
综述,本发明能够针对不同运动姿态完成动作的纠正反馈,实现高准确率 和高速的识别速率。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组 合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程 序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指 令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可 以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算 机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向 另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、 计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL) 或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器 或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的 任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据 存储设备。所述可用介质可以是磁性介质(例如软盘、硬盘、磁带)、光介质 (例如DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于 此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明 的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的 保护范围之内。
Claims (10)
1.一种运动动作纠正方法,其特征在于,所述运动动作纠正方法包括以下步骤:
步骤一,进行人体运动姿态识别数据的收集;
步骤二,进行运动动作分类神经网络模型的设计以及模型的训练;
步骤三,进行单帧图像姿态的对比和动作时间序列的DTW距离比对。
2.如权利要求1所述的运动动作纠正方法,其特征在于,所述步骤一中的人体运动姿态识别数据的收集包括:
数据集信息均采集于日常图像,从网络上收集运动员视频资料,并使用视频帧截取的方式将获得的视频中运动员的某一动作进行截图;其中,所述视频资料包含网球运动员单人的运动过程;
所有静态姿态图片均为三通道彩色RGB,文件格式为jpg格式;在一段时长合适的视频中获得动作标签网球关键动作图像数据集;
在训练中,将图像数据集划分为训练集、验证集和测试集;其中,所述训练集用于在训练过程中输入神经网络进行训练;所述验证集用于在训练过程中周期性地验证方法的合理性;所述测试集用于在完成时对方法的性能进行评估。
3.如权利要求1所述的运动动作纠正方法,其特征在于,所述步骤一中的人体运动姿态识别数据收集后,还包括图像输入和图像增强;其中,所述图像输入和图像增强的方法包括:
利用图像水平翻转、垂直翻转、图像随机旋转0~10度、图像亮度随机变化、图像对比度随机变化、图像扭曲、图像缩放在内的七种图像增强策略,最终以两两组合的方式对输入模型的训练图像进行增强。
4.如权利要求1所述的运动动作纠正方法,其特征在于,所述步骤二中的人体姿态识别的神经网络的设计包括:
采用Cascade PoseNet神经网络对收集的人体运动姿态数据集进行训练,输入是单人运动姿态图像,输出是2D图像中人体姿态关键点的坐标和该图像中的动作的类别;
网络由PoseNet人体姿态估计网络作为backbone和分类网络组成,整个网络中的PoseNet部分输出17个人体姿态关键点,包含鼻子,左眼,右眼,左耳,右耳,左肩,右肩,左肘,右肘,左腕,右腕,左髋,右髋,左膝,右膝,左踝,右踝;同时将17个点作为特征,输入后续分类网络部分做分类,得到图像中动作的类别;
其中Cascade PoseNet中的PoseNet部分为人体运动姿态估计网络,PoseNet的核心架构为MobileNetv1,由28层构成,第一层采用标准卷积核,其余的卷积层均用深度可分离卷积;
其中,所述卷积层用于对输入图像数据进行卷积运算,在对输入图像进行分析训练的过程中,神经网络由浅到深逐渐提取手势图像数据集特征进行分析;基本的卷积操作如下:
其中,x为卷积输入的图像,h为卷积核,y为卷积后的结果,卷积操作是基于深度学习的图像处理中基本的计算方法,通过对卷积核进行参数更新,实现对输入图像特征提取的效果;
所述批标准层,用于通过一定的规范化手段,把每层神经网络任意神经元向非线性函数映射后逐渐向取值区间极限饱和区靠拢的输入值的分布强行拉回到均值0方差为1的比较标准的正态分布;使非线性变换函数的输入值落入对输入比较敏感的区域;
在神经网络的最后部分使用dropout层进行正则化,并使用全连接层进行分类得到神经网络预测的结果,最后输出17维的向量,分别代表对测试图像进行预测得到人体姿态关键点的x,y坐标和置信度以及该动作的类别。
5.如权利要求1所述的运动动作纠正方法,其特征在于,所述步骤二中的运动动作分类神经网络模型的训练包括:
在设计好用于训练的姿态动作估计神经网络后,将数据集中的训练集输入到网络中进行计算;训练过程使用5折交叉验证的方法,将训练集分成5个大小相同的互斥子集,并且每个子集中7种图像的数量比接近1:1:1;
从5个子集中任意挑选一个作为训练时的验证集,剩下的四个子集作为训练集;以此类推,总共训练5个批次,每个子集都分别作一次验证集,每个批次训练20个回合;
训练过程中采取的批次为32,优化函数为Adam优化器,其中动量参数为0.9、0.99,初始学习率为0.01;在每个回合中有目的地对学习率进行衰减,至最后一个回合学习率衰减为0.00001;
在训练中加入early stopping策略,如果在每一个周期计算模型在验证集上的误差,每15次epoch计算一次;当模型在验证集上误差比上一次训练结果差的时候停止训练,并使用上一次迭代结果中的参数作为模型的最终参数。
6.如权利要求1所述的运动动作纠正方法,其特征在于,所述步骤三中的单帧图像姿态的对比和动作时间序列的DTW距离比对包括:
(1)视频流中的动作片段截取
对用户实时使用摄像头时候采集的视频流,对于每一帧图像,输入到Cascade PoseNet网络进行人体姿态关键点坐标提取,并完成分类,得到已经分类完成的单一动作帧;将得到的单一动作帧,在视频流中与其对应的帧进行匹配,并截取出匹配的动作帧之间的一段时间序列;
其中完成匹配的动作组合是正手引拍和正手挥拍完成、反手引拍和反手挥拍完成,其余动作都主要完成单帧图像的纠正即可;
针对标准图像数据集输入到Cascade PoseNet网络中,使用动作帧捕捉以及动作帧时间序列匹配,再针对用户通过摄像头读取的视频流完成帧截取,得到标准对照组和用户待测数据组;
(2)单帧动作比对和DTW动作片段距离比对
其中单帧图像对比纠正和时间序列DTW对比纠正,均采用vote的方式进行;Vote方式代表投票方式,包括:
确定关键动作点,针对关键点的坐标值进行逐个比对,判断运动不到位部位,选取比例最大的建议,投票得到最合理的纠正建议;
对于DTW时间序列的动作比对,先进行时间序列的作用说明,该时间序列是一段一维信号,其中横轴代表的是时间,单位是毫秒,纵轴代表的是某一个人体关键点的x值或y值,该时间空间信号用于反映在一个完整的单一动作过程中某一部位的变化过程,其中包括的两个要素即为空间信息和时间信息,所述空间信息包括坐标点的值,用于反映某一动作的幅度和范围、关节点的相互位置以及等指标是否到位;所述时间信息包括某一动作片段的时间是否过长或过短,使用DTW算法测试与标准动作时间序列的相似程度;
完成对于单一动作帧中关键关节点的位置比对,将基准数据集与用户数据集中关键点在二维图像中的(x,y)坐标的模糊对比,用于判断某个部位的移动幅度;以及针对一个基准数据集与用户数据集中动作时间序列的DTW距离比对,来判断一个动作片段的时间是否恰当。
7.一种实施权利要求1~6任意一项所述的运动动作纠正方法的运动动作纠正系统,其特征在于,所述运动动作纠正系统包括:
运动姿态识别数据采集模块,用于进行人体运动姿态识别数据的收集;
网络模型构建及训练模块,用于进行运动动作分类神经网络模型的设计以及模型的训练;
动作序列截取比对纠正模块,用于分别进行单帧图像姿态的对比和动作时间序列的DTW距离比对。
8.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
进行人体运动姿态识别数据的收集;进行运动动作分类神经网络模型的设计以及模型的训练;进行单帧图像姿态的对比和动作时间序列的DTW距离比对。
9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
进行人体运动姿态识别数据的收集;进行运动动作分类神经网络模型的设计以及模型的训练;进行单帧图像姿态的对比和动作时间序列的DTW距离比对。
10.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现如权利要求7所述的运动动作纠正系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211070820.9A CN115393963A (zh) | 2022-09-02 | 2022-09-02 | 运动动作纠正方法、系统、存储介质、计算机设备及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211070820.9A CN115393963A (zh) | 2022-09-02 | 2022-09-02 | 运动动作纠正方法、系统、存储介质、计算机设备及终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115393963A true CN115393963A (zh) | 2022-11-25 |
Family
ID=84124795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211070820.9A Pending CN115393963A (zh) | 2022-09-02 | 2022-09-02 | 运动动作纠正方法、系统、存储介质、计算机设备及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115393963A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118016242A (zh) * | 2024-04-09 | 2024-05-10 | 南京康尼机电股份有限公司 | 一种人体运动功能纠正训练方案的生成方法及系统 |
-
2022
- 2022-09-02 CN CN202211070820.9A patent/CN115393963A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118016242A (zh) * | 2024-04-09 | 2024-05-10 | 南京康尼机电股份有限公司 | 一种人体运动功能纠正训练方案的生成方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021129064A9 (zh) | 姿态获取方法、关键点坐标定位模型的训练方法和装置 | |
US12051273B2 (en) | Method for recognizing actions, device and storage medium | |
CN110135249B (zh) | 基于时间注意力机制和lstm的人体行为识别方法 | |
WO2021098616A1 (zh) | 运动姿态识别方法、运动姿态识别装置、终端设备及介质 | |
CN113269013B (zh) | 对象行为分析方法、信息显示方法及电子设备 | |
WO2020042542A1 (zh) | 眼动控制校准数据获取方法和装置 | |
CN111723707B (zh) | 一种基于视觉显著性的注视点估计方法及装置 | |
CN110458235B (zh) | 一种视频中运动姿势相似度比对方法 | |
CN112329525A (zh) | 一种基于时空图卷积神经网络的手势识别方法和装置 | |
Zhang et al. | Multimodal spatiotemporal networks for sign language recognition | |
CN112258555A (zh) | 实时姿态估计运动分析方法、系统、计算机设备及存储介质 | |
Gao et al. | A novel multiple-view adversarial learning network for unsupervised domain adaptation action recognition | |
CN110633004A (zh) | 基于人体姿态估计的交互方法、装置和系统 | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
CN112069943A (zh) | 基于自顶向下框架的在线多人姿态估计与跟踪方法 | |
CN115393964A (zh) | 基于BlazePose的健身动作识别方法及装置 | |
Ait-Bennacer et al. | Applying Deep Learning and Computer Vision Techniques for an e-Sport and Smart Coaching System Using a Multiview Dataset: Case of Shotokan Karate. | |
CN115131879B (zh) | 一种动作评价方法及装置 | |
Dong et al. | An improved deep neural network method for an athlete's human motion posture recognition | |
CN115393963A (zh) | 运动动作纠正方法、系统、存储介质、计算机设备及终端 | |
CN111222459A (zh) | 一种视角无关的视频三维人体姿态识别方法 | |
Liu et al. | Key algorithm for human motion recognition in virtual reality video sequences based on hidden markov model | |
Pavitra et al. | Deep learning-based yoga learning application | |
JP2022095332A (ja) | 学習モデル生成方法、コンピュータプログラム及び情報処理装置 | |
CN114093030B (zh) | 一种基于人体姿态学习的射击训练分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |