CN117351557A

CN117351557A - 一种深度学习的车载手势识别方法

Info

Publication number: CN117351557A
Application number: CN202311035586.0A
Authority: CN
Inventors: 郝敬宾; 丁梦森; 刘新华; 华德正; 孙晓凯; 梁赐; 刘晓帆; 周皓; 王晴晴
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2023-08-17
Filing date: 2023-08-17
Publication date: 2024-01-05

Abstract

本发明公开了一种深度学习的车载手势识别方法，包括实时跟踪手势，并获取操作人的手势图像；基于Faster‑RCNN算法对动态手势进行识别；基于结合注意力机制优化的三维卷积神经网络手势识别用户的手势指令，将其传输给车载控制器达到控制车辆的作用。本发明使用Faster‑RCNN的锚框生成方法和ROI池化方法，实现动态手势动作的时间区间的分类和回归，实现对图像数据序列中动态手势时间区间的定位检测，相比传统的提取手势识别可以准确判断手势指令发生的时间和位置；基于三维卷积神经网络的动态手势识别，构建了动态手势识别模型，实现动作手势的识别任务。

Description

一种深度学习的车载手势识别方法

技术领域

本发明涉及一种车载手势识别方法，具体为一种深度学习的车载手势识别方法，属于车载手势识别技术领域。

背景技术

近年来，随着汽车成为大部分的代步工具，传统的控制车辆的方法逐渐不满足于当下，基于声音和面部表情以及手势识别技术逐渐应用于车载控制。其中，手势识别具有自然、直观以及灵活等优点，成为当下人机交互领域的热点研究。手势识别应用场景广泛，如智能家居领域：可以通过手势控制智能家电等设备，交互方式更加自然；医疗领域：外科医生可以在手术操作中使用手势识别技术；越来越多的驾驶员有操作车载信息的需要，车载信息系统带来智能化、便利化的同时也能解决安全隐患，在驾驶员因驾驶疲劳、分心等原因做出不好手势动作时，可以及时识别给予提醒避免安全隐患。

目前，车载装置上的操作装置大多都是遥控器或者是一些按钮，并且由于空间小，很多功能都是需要来回切换才可以。繁琐的功能操作极容易将驾驶员分心，容易出现交通事故；现有技术中，还有如公开号为CN110070058A所公开的一种车载手势识别装置及系统，包括处理器、控制器、设置于车顶内部上的鱼眼镜头和可旋转的摄像模组；其中，鱼眼镜头，用于获取车内的第一图像信息；处理器，用于对第一图像信息进行分析，判断是否存在与预设启动手势一致的启动手势，若是，则识别启动手势的位置信息，并依据位置信息生成启动控制指令；还用于对第二图像信息进行分析识别出当前的操作手势，并生成操作指令；摄像模组，用于依据启动控制指令开启，并将摄像头对准与位置信息对应的位置处，获取与位置处的第二图像信息；控制器，用于依据操作指令控制相应的设备执行与操作手势对应的操作。在使用过程中能给其他的乘客带来便利，并避免影响驾驶员的注意力，提高行车安全，但在实际操作时，无法较好地实现动态手势动作的时间区间的分类和回归，进而不能实现对图像数据序列中动态手势时间区间的精准定位检测，无法准确判断手势指令发生的时间和位置，驾驶员容易分神造成的交通事故，且行车过程中的智能性较低。

发明内容

本发明的目的就在于为了解决上述手势识别背景单一、手势指令少、识别效率和实时性低的技术问题而提供一种深度学习的车载手势识别方法，通过获取的手势对卷积神经网络进行训练，利用训练过的卷积神经网络来识别司机的手势，根据司机的手势对车辆装置进行操作。

本发明通过以下技术方案来实现上述目的：一种深度学习的车载手势识别方法，包括以下步骤：

步骤1、实时跟踪手势，并获取操作人的手势图像；动态手势跟踪与采集具体包括：

步骤101：在驾驶室内对相机位置进行标定，确保Kinect相机能够实时获取手势图像；在PC上配置Kinect SDK，并将实时采集的图像通过USB传输至PC端口中；

步骤102：Kinect通过在PC处理端编程处理后，实时检测手势是否存在，若没有，继续检测，若有，执行下一步；

步骤103：在不同的场景下，采集驾驶者的动态手势图，建立一个包含多场景、不同光照下的RGB-D双模手势数据库，并对手势进行标签设定；

步骤104：在Python中调用opencv模块，对得到的数据进行图像预处理；

步骤2：基于Faster-RCNN算法对动态手势进行识别，首先帧集图像特征提取，再进行动作区域检测框架、最后对手势的起始位置进行定位；

步骤3：手势动作的起始位置定位后，采用基于结合注意力机制优化的三维卷积神经网络手势识别算法对数据的时间特征和空间特征进行提取，对手势姿态进行识别和归类，发送相应的控制指令给车载控制器。

作为本发明再进一步的方案：步骤101中具体包括：利用Kinect体感相机随机选择30张进行标定，获得相机内部参数，再对深度相机进行标定，先同时利用左右红外相机获取多张多角度棋盘格图像分别获取左右红外相机的内参，进一步得到深度相机内参，通过刚体转换，将两坐标系进行统一，使得彩色深度对齐。

作为本发明再进一步的方案：步骤104中具体包括：图像预处理包括先对图像进行平滑处理消除滤波，再进行拉普拉斯锐化处理对图像边缘进行强化，然后采用最大类间方差法进行图像的二值化；最终进行形态化的处理，利用膨胀和腐蚀算法得到最终的图像。

作为本发明再进一步的方案：步骤2中，改进的Faster-RCNN算法具体包括：

步骤201：采用VGG16网络架构来提取图像特征，在手势动作定位中，对每张图像提取手势存在值，网络同步训练和测试所有图像；

步骤202：以100帧为单位定位动态手势的区域，通过生成的候选框与原始的标记框确定交叠率IOU；

步骤203：在经过图像特征提取后，数据变成一组一维特征，利用候选区域生成网络生成多个目标可能存在的候选区域，通过极大值抑制算法将动作定位中冗余检测区域去除，得到置信度较优的一些检测区域结果；

步骤204：根据对某类动作候选区域的分类置信度Score排序，保存置信度Score最大区域作为检测结果，计算Score最大的区域与其余区域的重叠率IOU；

步骤205：IOU大于一定值，则消除该候选区域，若小于该值，保留候选框；

步骤206：重复以上步骤，循环至所有采集的数据的区域已处理。

步骤207：得到大量候选区域后，使用一维池化层固定为1*3尺寸特征的候选框分别包含候选区域上限、下限和中心值，边界区域的回归以下式表示：

t_u＝x_u-5*w_s

t_d＝x_d-5*h_s

其中t_u,t_d分别代表候选区域上下帧数，x_u,x_d分别为锚框的区域的上下帧数，w_s,h_s就是需要回归的两个参数；

步骤208：在训练阶段，以上述候选区域的锚框匹配数值作为输入，t_u,t_d作为回归目标进行训练，以最小均值方差方法进行训练，损失函数为：

训练识别动态手势的起始帧值和该区域的动作类别。

作为本发明再进一步的方案：步骤3中，用结合注意力机制优化的三维卷积神经网络手势识别算法具体包括：

步骤301：利用RGB-D图像对手势区域进行分割提取，获得去除背景的手部图像；

步骤302：然后利用相邻图像像素标准差算法对图像序列中相邻图像帧差进行计算，对帧差大小进行排序，完成关键帧的提取，根据帧数选择RGB图像和Depth图像；

步骤303：CBAM对三维卷积神经网络结构优化，完成空间维度和时间维度重要特征提取，强化网络特征提取效果，在注意力机制网络中，输入的特征图为F＝R^C×H×W，CBA推断1D通道注意力图M_c∈R^C×1×1，2D空间注意力图M_s∈R^1×H×W,流程公式为：

步骤304：在空间维度上进行最大池化和平均池化，得到两个只有通道维度的向量，再通过一个两层的神经网络，对特征进行相加和Sigmoid激活处理。然后将得到的通道注意力向量乘上特征图，得到空间注意力处理的输入，输出公式如下：

M_c(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F)))

步骤305：采用双模态的输入使用串联融合方式进行特征融合，在融合过程中可保留各部分的特征，避免缺失。对图像进行模型训练，其中训练步数为101步，批量大小为16，初始学习率为0.01，学习率衰减因子为每3000次迭代衰减0.1；最后根据识别相对于标签数据得到的最大识别概率进行归类，直到将双模手势库的所有手势姿态图识别完成，训练结束；

步骤306：用户根据标签图像，随意选择展示训练好的手势动作；

步骤307：将用户做出的手势在经过处理后，将手势二值图像数据送入训练好的手势识别网络在线识别；

步骤308：最后根据识别的手势类别与控制车辆装置对应关系，通知车载控制器对所述车辆装置进行控制。

本发明的有益效果是：本发明使用Faster-RCNN的锚框生成方法和ROI池化方法，实现动态手势动作的时间区间的分类和回归，实现对图像数据序列中动态手势时间区间的定位检测，相比传统的提取手势识别可以准确判断手势指令发生的时间和位置；安装Kinect相机通过结构光的方式获取驾驶者的手势图像并获得RGB-D双模手势数据库，进行车载指定标签设定；然后使用最大类间方差法对手势图像进行二值化处理，再对图像形态学处理进行膨胀和腐蚀运算得到最终的手势二值化图像；接着基于Faster-RCNN算法对动态手势进行识别，基于三维卷积神经网络的动态手势识别，构建动态手势识别模型，实现动作手势的识别任务，使用关键帧提取技术和多模态联合训练让神经网络的性能更加稳定。

附图说明

图1为本发明实施例的手势识别流程图；

图2为帧差法计算流程图；

图3为动态手势定位算法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一，如图1至图3所示，一种深度学习的车载手势识别方法，包括以下步骤：

实施例二，本实施例中除包括实施例一中的所有技术特征之外，还包括：

步骤101中具体包括：利用Kinect体感相机随机选择30张进行标定，获得相机内部参数，再对深度相机进行标定，先同时利用左右红外相机获取多张多角度棋盘格图像分别获取左右红外相机的内参，进一步得到深度相机内参，通过刚体转换，将两坐标系进行统一，使得彩色深度对齐。

步骤104中具体包括：图像预处理包括先对图像进行平滑处理消除滤波，再进行拉普拉斯锐化处理对图像边缘进行强化，然后采用最大类间方差法进行图像的二值化；最终进行形态化的处理，利用膨胀和腐蚀算法得到最终的图像。

实施例三，本实施例中除包括实施例一中的所有技术特征之外，还包括：

步骤2中，改进的Faster-RCNN算法具体包括：

t_u＝x_u-5*w_s

t_d＝x_d-5*h_s

训练识别动态手势的起始帧值和该区域的动作类别。

实施例四，本实施例中除包括实施例一中的所有技术特征之外，还包括：

步骤3中，用结合注意力机制优化的三维卷积神经网络手势识别算法具体包括：

步骤303：CBAM对三维卷积神经网络结构优化，完成空间维度和时间维度重要特征提取，强化网络特征提取效果，在注意力机制网络中，输入的特征图为F＝R^C×H×W，CBA推断1D通道注意力图M_c∈R^C×1×1，2D空间注意力图,流程公式为：

M_c(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F)))

工作原理：安装Kinect相机通过结构光的方式获取驾驶者的手势图像并获得RGB-D双模手势数据库，进行车载指定标签设定；然后使用最大类间方差法对手势图像进行二值化处理，再对图像形态学处理进行膨胀和腐蚀运算得到最终的手势二值化图像；接着基于Faster-RCNN算法对动态手势进行识别，首先帧集图像特征提取，再进行动作区域检测框架、最后对手势的起始位置进行定位；最后基于结合注意力机制优化的三维卷积神经网络手势识别用户的手势指令，将其传输给车载控制器达到控制车辆的作用。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种深度学习的车载手势识别方法，其特征在于，所述车载手势识别方法包括以下步骤：

步骤101：在驾驶室内对相机位置进行标定，确保Kinect相机实时获取手势图像；在PC上配置Kinect SDK，并将实时采集的图像通过USB传输至PC端口中；

2.根据权利要求1所述的车载手势识别方法，其特征在于：所述步骤101中，具体包括：利用Kinect体感相机随机选择30张进行标定，获得相机内部参数，再对深度相机进行标定，先同时利用左右红外相机获取多张多角度棋盘格图像分别获取左右红外相机的内参。

3.根据权利要求1所述的车载手势识别方法，其特征在于：所述步骤104中，具体包括：图像预处理包括先对图像进行平滑处理消除滤波，再进行拉普拉斯锐化处理对图像边缘进行强化，然后采用最大类间方差法进行图像的二值化；最终进行形态化的处理，利用膨胀和腐蚀算法得到最终的图像。

4.根据权利要求1所述的车载手势识别方法，其特征在于：所述步骤2中，改进的Faster-RCNN算法具体包括：

t_u＝x_u-5*w_s

t_d＝x_d-5*h_s

训练识别动态手势的起始帧值和该区域的动作类别。

5.根据权利要求1所述的车载手势识别方法，其特征在于：所述步骤3中，用结合注意力机制优化的三维卷积神经网络手势识别算法具体包括：

M_c(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F)))