CN117351557A - 一种深度学习的车载手势识别方法 - Google Patents
一种深度学习的车载手势识别方法 Download PDFInfo
- Publication number
- CN117351557A CN117351557A CN202311035586.0A CN202311035586A CN117351557A CN 117351557 A CN117351557 A CN 117351557A CN 202311035586 A CN202311035586 A CN 202311035586A CN 117351557 A CN117351557 A CN 117351557A
- Authority
- CN
- China
- Prior art keywords
- gesture
- image
- vehicle
- frame
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000013135 deep learning Methods 0.000 title claims abstract description 8
- 230000009471 action Effects 0.000 claims abstract description 19
- 238000001514 detection method Methods 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 230000007246 mechanism Effects 0.000 claims abstract description 11
- 238000011176 pooling Methods 0.000 claims abstract description 11
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 10
- 230000000694 effects Effects 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 25
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 230000007797 corrosion Effects 0.000 claims description 5
- 238000005260 corrosion Methods 0.000 claims description 5
- 230000000877 morphologic effect Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 claims description 3
- 230000009901 attention process Effects 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000007499 fusion processing Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 238000005286 illumination Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000003238 somatosensory effect Effects 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 206010039203 Road traffic accident Diseases 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30204—Marker
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Biodiversity & Conservation Biology (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种深度学习的车载手势识别方法,包括实时跟踪手势,并获取操作人的手势图像;基于Faster‑RCNN算法对动态手势进行识别;基于结合注意力机制优化的三维卷积神经网络手势识别用户的手势指令,将其传输给车载控制器达到控制车辆的作用。本发明使用Faster‑RCNN的锚框生成方法和ROI池化方法,实现动态手势动作的时间区间的分类和回归,实现对图像数据序列中动态手势时间区间的定位检测,相比传统的提取手势识别可以准确判断手势指令发生的时间和位置;基于三维卷积神经网络的动态手势识别,构建了动态手势识别模型,实现动作手势的识别任务。
Description
技术领域
本发明涉及一种车载手势识别方法,具体为一种深度学习的车载手势识别方法,属于车载手势识别技术领域。
背景技术
近年来,随着汽车成为大部分的代步工具,传统的控制车辆的方法逐渐不满足于当下,基于声音和面部表情以及手势识别技术逐渐应用于车载控制。其中,手势识别具有自然、直观以及灵活等优点,成为当下人机交互领域的热点研究。手势识别应用场景广泛,如智能家居领域:可以通过手势控制智能家电等设备,交互方式更加自然;医疗领域:外科医生可以在手术操作中使用手势识别技术;越来越多的驾驶员有操作车载信息的需要,车载信息系统带来智能化、便利化的同时也能解决安全隐患,在驾驶员因驾驶疲劳、分心等原因做出不好手势动作时,可以及时识别给予提醒避免安全隐患。
目前,车载装置上的操作装置大多都是遥控器或者是一些按钮,并且由于空间小,很多功能都是需要来回切换才可以。繁琐的功能操作极容易将驾驶员分心,容易出现交通事故;现有技术中,还有如公开号为CN110070058A所公开的一种车载手势识别装置及系统,包括处理器、控制器、设置于车顶内部上的鱼眼镜头和可旋转的摄像模组;其中,鱼眼镜头,用于获取车内的第一图像信息;处理器,用于对第一图像信息进行分析,判断是否存在与预设启动手势一致的启动手势,若是,则识别启动手势的位置信息,并依据位置信息生成启动控制指令;还用于对第二图像信息进行分析识别出当前的操作手势,并生成操作指令;摄像模组,用于依据启动控制指令开启,并将摄像头对准与位置信息对应的位置处,获取与位置处的第二图像信息;控制器,用于依据操作指令控制相应的设备执行与操作手势对应的操作。在使用过程中能给其他的乘客带来便利,并避免影响驾驶员的注意力,提高行车安全,但在实际操作时,无法较好地实现动态手势动作的时间区间的分类和回归,进而不能实现对图像数据序列中动态手势时间区间的精准定位检测,无法准确判断手势指令发生的时间和位置,驾驶员容易分神造成的交通事故,且行车过程中的智能性较低。
发明内容
本发明的目的就在于为了解决上述手势识别背景单一、手势指令少、识别效率和实时性低的技术问题而提供一种深度学习的车载手势识别方法,通过获取的手势对卷积神经网络进行训练,利用训练过的卷积神经网络来识别司机的手势,根据司机的手势对车辆装置进行操作。
本发明通过以下技术方案来实现上述目的:一种深度学习的车载手势识别方法,包括以下步骤:
步骤1、实时跟踪手势,并获取操作人的手势图像;动态手势跟踪与采集具体包括:
步骤101:在驾驶室内对相机位置进行标定,确保Kinect相机能够实时获取手势图像;在PC上配置Kinect SDK,并将实时采集的图像通过USB传输至PC端口中;
步骤102:Kinect通过在PC处理端编程处理后,实时检测手势是否存在,若没有,继续检测,若有,执行下一步;
步骤103:在不同的场景下,采集驾驶者的动态手势图,建立一个包含多场景、不同光照下的RGB-D双模手势数据库,并对手势进行标签设定;
步骤104:在Python中调用opencv模块,对得到的数据进行图像预处理;
步骤2:基于Faster-RCNN算法对动态手势进行识别,首先帧集图像特征提取,再进行动作区域检测框架、最后对手势的起始位置进行定位;
步骤3:手势动作的起始位置定位后,采用基于结合注意力机制优化的三维卷积神经网络手势识别算法对数据的时间特征和空间特征进行提取,对手势姿态进行识别和归类,发送相应的控制指令给车载控制器。
作为本发明再进一步的方案:步骤101中具体包括:利用Kinect体感相机随机选择30张进行标定,获得相机内部参数,再对深度相机进行标定,先同时利用左右红外相机获取多张多角度棋盘格图像分别获取左右红外相机的内参,进一步得到深度相机内参,通过刚体转换,将两坐标系进行统一,使得彩色深度对齐。
作为本发明再进一步的方案:步骤104中具体包括:图像预处理包括先对图像进行平滑处理消除滤波,再进行拉普拉斯锐化处理对图像边缘进行强化,然后采用最大类间方差法进行图像的二值化;最终进行形态化的处理,利用膨胀和腐蚀算法得到最终的图像。
作为本发明再进一步的方案:步骤2中,改进的Faster-RCNN算法具体包括:
步骤201:采用VGG16网络架构来提取图像特征,在手势动作定位中,对每张图像提取手势存在值,网络同步训练和测试所有图像;
步骤202:以100帧为单位定位动态手势的区域,通过生成的候选框与原始的标记框确定交叠率IOU;
步骤203:在经过图像特征提取后,数据变成一组一维特征,利用候选区域生成网络生成多个目标可能存在的候选区域,通过极大值抑制算法将动作定位中冗余检测区域去除,得到置信度较优的一些检测区域结果;
步骤204:根据对某类动作候选区域的分类置信度Score排序,保存置信度Score最大区域作为检测结果,计算Score最大的区域与其余区域的重叠率IOU;
步骤205:IOU大于一定值,则消除该候选区域,若小于该值,保留候选框;
步骤206:重复以上步骤,循环至所有采集的数据的区域已处理。
步骤207:得到大量候选区域后,使用一维池化层固定为1*3尺寸特征的候选框分别包含候选区域上限、下限和中心值,边界区域的回归以下式表示:
tu=xu-5*ws
td=xd-5*hs
其中tu,td分别代表候选区域上下帧数,xu,xd分别为锚框的区域的上下帧数,ws,hs就是需要回归的两个参数;
步骤208:在训练阶段,以上述候选区域的锚框匹配数值作为输入,tu,td作为回归目标进行训练,以最小均值方差方法进行训练,损失函数为:
训练识别动态手势的起始帧值和该区域的动作类别。
作为本发明再进一步的方案:步骤3中,用结合注意力机制优化的三维卷积神经网络手势识别算法具体包括:
步骤301:利用RGB-D图像对手势区域进行分割提取,获得去除背景的手部图像;
步骤302:然后利用相邻图像像素标准差算法对图像序列中相邻图像帧差进行计算,对帧差大小进行排序,完成关键帧的提取,根据帧数选择RGB图像和Depth图像;
步骤303:CBAM对三维卷积神经网络结构优化,完成空间维度和时间维度重要特征提取,强化网络特征提取效果,在注意力机制网络中,输入的特征图为F=RC×H×W,CBA推断1D通道注意力图Mc∈RC×1×1,2D空间注意力图Ms∈R1×H×W,流程公式为:
步骤304:在空间维度上进行最大池化和平均池化,得到两个只有通道维度的向量,再通过一个两层的神经网络,对特征进行相加和Sigmoid激活处理。然后将得到的通道注意力向量乘上特征图,得到空间注意力处理的输入,输出公式如下:
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))
步骤305:采用双模态的输入使用串联融合方式进行特征融合,在融合过程中可保留各部分的特征,避免缺失。对图像进行模型训练,其中训练步数为101步,批量大小为16,初始学习率为0.01,学习率衰减因子为每3000次迭代衰减0.1;最后根据识别相对于标签数据得到的最大识别概率进行归类,直到将双模手势库的所有手势姿态图识别完成,训练结束;
步骤306:用户根据标签图像,随意选择展示训练好的手势动作;
步骤307:将用户做出的手势在经过处理后,将手势二值图像数据送入训练好的手势识别网络在线识别;
步骤308:最后根据识别的手势类别与控制车辆装置对应关系,通知车载控制器对所述车辆装置进行控制。
本发明的有益效果是:本发明使用Faster-RCNN的锚框生成方法和ROI池化方法,实现动态手势动作的时间区间的分类和回归,实现对图像数据序列中动态手势时间区间的定位检测,相比传统的提取手势识别可以准确判断手势指令发生的时间和位置;安装Kinect相机通过结构光的方式获取驾驶者的手势图像并获得RGB-D双模手势数据库,进行车载指定标签设定;然后使用最大类间方差法对手势图像进行二值化处理,再对图像形态学处理进行膨胀和腐蚀运算得到最终的手势二值化图像;接着基于Faster-RCNN算法对动态手势进行识别,基于三维卷积神经网络的动态手势识别,构建动态手势识别模型,实现动作手势的识别任务,使用关键帧提取技术和多模态联合训练让神经网络的性能更加稳定。
附图说明
图1为本发明实施例的手势识别流程图;
图2为帧差法计算流程图;
图3为动态手势定位算法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一,如图1至图3所示,一种深度学习的车载手势识别方法,包括以下步骤:
步骤1、实时跟踪手势,并获取操作人的手势图像;动态手势跟踪与采集具体包括:
步骤101:在驾驶室内对相机位置进行标定,确保Kinect相机能够实时获取手势图像;在PC上配置Kinect SDK,并将实时采集的图像通过USB传输至PC端口中;
步骤102:Kinect通过在PC处理端编程处理后,实时检测手势是否存在,若没有,继续检测,若有,执行下一步;
步骤103:在不同的场景下,采集驾驶者的动态手势图,建立一个包含多场景、不同光照下的RGB-D双模手势数据库,并对手势进行标签设定;
步骤104:在Python中调用opencv模块,对得到的数据进行图像预处理;
步骤2:基于Faster-RCNN算法对动态手势进行识别,首先帧集图像特征提取,再进行动作区域检测框架、最后对手势的起始位置进行定位;
步骤3:手势动作的起始位置定位后,采用基于结合注意力机制优化的三维卷积神经网络手势识别算法对数据的时间特征和空间特征进行提取,对手势姿态进行识别和归类,发送相应的控制指令给车载控制器。
实施例二,本实施例中除包括实施例一中的所有技术特征之外,还包括:
步骤101中具体包括:利用Kinect体感相机随机选择30张进行标定,获得相机内部参数,再对深度相机进行标定,先同时利用左右红外相机获取多张多角度棋盘格图像分别获取左右红外相机的内参,进一步得到深度相机内参,通过刚体转换,将两坐标系进行统一,使得彩色深度对齐。
步骤104中具体包括:图像预处理包括先对图像进行平滑处理消除滤波,再进行拉普拉斯锐化处理对图像边缘进行强化,然后采用最大类间方差法进行图像的二值化;最终进行形态化的处理,利用膨胀和腐蚀算法得到最终的图像。
实施例三,本实施例中除包括实施例一中的所有技术特征之外,还包括:
步骤2中,改进的Faster-RCNN算法具体包括:
步骤201:采用VGG16网络架构来提取图像特征,在手势动作定位中,对每张图像提取手势存在值,网络同步训练和测试所有图像;
步骤202:以100帧为单位定位动态手势的区域,通过生成的候选框与原始的标记框确定交叠率IOU;
步骤203:在经过图像特征提取后,数据变成一组一维特征,利用候选区域生成网络生成多个目标可能存在的候选区域,通过极大值抑制算法将动作定位中冗余检测区域去除,得到置信度较优的一些检测区域结果;
步骤204:根据对某类动作候选区域的分类置信度Score排序,保存置信度Score最大区域作为检测结果,计算Score最大的区域与其余区域的重叠率IOU;
步骤205:IOU大于一定值,则消除该候选区域,若小于该值,保留候选框;
步骤206:重复以上步骤,循环至所有采集的数据的区域已处理。
步骤207:得到大量候选区域后,使用一维池化层固定为1*3尺寸特征的候选框分别包含候选区域上限、下限和中心值,边界区域的回归以下式表示:
tu=xu-5*ws
td=xd-5*hs
其中tu,td分别代表候选区域上下帧数,xu,xd分别为锚框的区域的上下帧数,ws,hs就是需要回归的两个参数;
步骤208:在训练阶段,以上述候选区域的锚框匹配数值作为输入,tu,td作为回归目标进行训练,以最小均值方差方法进行训练,损失函数为:
训练识别动态手势的起始帧值和该区域的动作类别。
实施例四,本实施例中除包括实施例一中的所有技术特征之外,还包括:
步骤3中,用结合注意力机制优化的三维卷积神经网络手势识别算法具体包括:
步骤301:利用RGB-D图像对手势区域进行分割提取,获得去除背景的手部图像;
步骤302:然后利用相邻图像像素标准差算法对图像序列中相邻图像帧差进行计算,对帧差大小进行排序,完成关键帧的提取,根据帧数选择RGB图像和Depth图像;
步骤303:CBAM对三维卷积神经网络结构优化,完成空间维度和时间维度重要特征提取,强化网络特征提取效果,在注意力机制网络中,输入的特征图为F=RC×H×W,CBA推断1D通道注意力图Mc∈RC×1×1,2D空间注意力图,流程公式为:
步骤304:在空间维度上进行最大池化和平均池化,得到两个只有通道维度的向量,再通过一个两层的神经网络,对特征进行相加和Sigmoid激活处理。然后将得到的通道注意力向量乘上特征图,得到空间注意力处理的输入,输出公式如下:
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))
步骤305:采用双模态的输入使用串联融合方式进行特征融合,在融合过程中可保留各部分的特征,避免缺失。对图像进行模型训练,其中训练步数为101步,批量大小为16,初始学习率为0.01,学习率衰减因子为每3000次迭代衰减0.1;最后根据识别相对于标签数据得到的最大识别概率进行归类,直到将双模手势库的所有手势姿态图识别完成,训练结束;
步骤306:用户根据标签图像,随意选择展示训练好的手势动作;
步骤307:将用户做出的手势在经过处理后,将手势二值图像数据送入训练好的手势识别网络在线识别;
步骤308:最后根据识别的手势类别与控制车辆装置对应关系,通知车载控制器对所述车辆装置进行控制。
工作原理:安装Kinect相机通过结构光的方式获取驾驶者的手势图像并获得RGB-D双模手势数据库,进行车载指定标签设定;然后使用最大类间方差法对手势图像进行二值化处理,再对图像形态学处理进行膨胀和腐蚀运算得到最终的手势二值化图像;接着基于Faster-RCNN算法对动态手势进行识别,首先帧集图像特征提取,再进行动作区域检测框架、最后对手势的起始位置进行定位;最后基于结合注意力机制优化的三维卷积神经网络手势识别用户的手势指令,将其传输给车载控制器达到控制车辆的作用。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (5)
1.一种深度学习的车载手势识别方法,其特征在于,所述车载手势识别方法包括以下步骤:
步骤1、实时跟踪手势,并获取操作人的手势图像;动态手势跟踪与采集具体包括:
步骤101:在驾驶室内对相机位置进行标定,确保Kinect相机实时获取手势图像;在PC上配置Kinect SDK,并将实时采集的图像通过USB传输至PC端口中;
步骤102:Kinect通过在PC处理端编程处理后,实时检测手势是否存在,若没有,继续检测,若有,执行下一步;
步骤103:在不同的场景下,采集驾驶者的动态手势图,建立一个包含多场景、不同光照下的RGB-D双模手势数据库,并对手势进行标签设定;
步骤104:在Python中调用opencv模块,对得到的数据进行图像预处理;
步骤2:基于Faster-RCNN算法对动态手势进行识别,首先帧集图像特征提取,再进行动作区域检测框架、最后对手势的起始位置进行定位;
步骤3:手势动作的起始位置定位后,采用基于结合注意力机制优化的三维卷积神经网络手势识别算法对数据的时间特征和空间特征进行提取,对手势姿态进行识别和归类,发送相应的控制指令给车载控制器。
2.根据权利要求1所述的车载手势识别方法,其特征在于:所述步骤101中,具体包括:利用Kinect体感相机随机选择30张进行标定,获得相机内部参数,再对深度相机进行标定,先同时利用左右红外相机获取多张多角度棋盘格图像分别获取左右红外相机的内参。
3.根据权利要求1所述的车载手势识别方法,其特征在于:所述步骤104中,具体包括:图像预处理包括先对图像进行平滑处理消除滤波,再进行拉普拉斯锐化处理对图像边缘进行强化,然后采用最大类间方差法进行图像的二值化;最终进行形态化的处理,利用膨胀和腐蚀算法得到最终的图像。
4.根据权利要求1所述的车载手势识别方法,其特征在于:所述步骤2中,改进的Faster-RCNN算法具体包括:
步骤201:采用VGG16网络架构来提取图像特征,在手势动作定位中,对每张图像提取手势存在值,网络同步训练和测试所有图像;
步骤202:以100帧为单位定位动态手势的区域,通过生成的候选框与原始的标记框确定交叠率IOU;
步骤203:在经过图像特征提取后,数据变成一组一维特征,利用候选区域生成网络生成多个目标可能存在的候选区域,通过极大值抑制算法将动作定位中冗余检测区域去除,得到置信度较优的一些检测区域结果;
步骤204:根据对某类动作候选区域的分类置信度Score排序,保存置信度Score最大区域作为检测结果,计算Score最大的区域与其余区域的重叠率IOU;
步骤205:IOU大于一定值,则消除该候选区域,若小于该值,保留候选框;
步骤206:重复以上步骤,循环至所有采集的数据的区域已处理。
步骤207:得到大量候选区域后,使用一维池化层固定为1*3尺寸特征的候选框分别包含候选区域上限、下限和中心值,边界区域的回归以下式表示:
tu=xu-5*ws
td=xd-5*hs
其中tu,td分别代表候选区域上下帧数,xu,xd分别为锚框的区域的上下帧数,ws,hs就是需要回归的两个参数;
步骤208:在训练阶段,以上述候选区域的锚框匹配数值作为输入,tu,td作为回归目标进行训练,以最小均值方差方法进行训练,损失函数为:
训练识别动态手势的起始帧值和该区域的动作类别。
5.根据权利要求1所述的车载手势识别方法,其特征在于:所述步骤3中,用结合注意力机制优化的三维卷积神经网络手势识别算法具体包括:
步骤301:利用RGB-D图像对手势区域进行分割提取,获得去除背景的手部图像;
步骤302:然后利用相邻图像像素标准差算法对图像序列中相邻图像帧差进行计算,对帧差大小进行排序,完成关键帧的提取,根据帧数选择RGB图像和Depth图像;
步骤303:CBAM对三维卷积神经网络结构优化,完成空间维度和时间维度重要特征提取,强化网络特征提取效果,在注意力机制网络中,输入的特征图为F=RC×H×W,CBA推断1D通道注意力图Mc∈RC×1×1,2D空间注意力图Ms∈R1×H×W,流程公式为:
步骤304:在空间维度上进行最大池化和平均池化,得到两个只有通道维度的向量,再通过一个两层的神经网络,对特征进行相加和Sigmoid激活处理。然后将得到的通道注意力向量乘上特征图,得到空间注意力处理的输入,输出公式如下:
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))
步骤305:采用双模态的输入使用串联融合方式进行特征融合,在融合过程中可保留各部分的特征,避免缺失。对图像进行模型训练,其中训练步数为101步,批量大小为16,初始学习率为0.01,学习率衰减因子为每3000次迭代衰减0.1;最后根据识别相对于标签数据得到的最大识别概率进行归类,直到将双模手势库的所有手势姿态图识别完成,训练结束;
步骤306:用户根据标签图像,随意选择展示训练好的手势动作;
步骤307:将用户做出的手势在经过处理后,将手势二值图像数据送入训练好的手势识别网络在线识别;
步骤308:最后根据识别的手势类别与控制车辆装置对应关系,通知车载控制器对所述车辆装置进行控制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311035586.0A CN117351557A (zh) | 2023-08-17 | 2023-08-17 | 一种深度学习的车载手势识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311035586.0A CN117351557A (zh) | 2023-08-17 | 2023-08-17 | 一种深度学习的车载手势识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117351557A true CN117351557A (zh) | 2024-01-05 |
Family
ID=89354655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311035586.0A Pending CN117351557A (zh) | 2023-08-17 | 2023-08-17 | 一种深度学习的车载手势识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117351557A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108563995A (zh) * | 2018-03-15 | 2018-09-21 | 西安理工大学 | 基于深度学习的人机协作系统手势识别控制方法 |
CN111176443A (zh) * | 2019-12-12 | 2020-05-19 | 青岛小鸟看看科技有限公司 | 一种车载智能系统及其控制方法 |
CN111191646A (zh) * | 2019-12-23 | 2020-05-22 | 福建亿榕信息技术有限公司 | 一种指针式仪表的智能识别方法 |
CN111968090A (zh) * | 2020-08-18 | 2020-11-20 | 杭州爱科科技股份有限公司 | 一种xy刀偏心自动检测方法、设备及存储介质 |
CN113191421A (zh) * | 2021-04-25 | 2021-07-30 | 东北大学 | 一种基于Faster-RCNN的手势识别系统及方法 |
CN114360067A (zh) * | 2022-01-12 | 2022-04-15 | 武汉科技大学 | 一种基于深度学习的动态手势识别方法 |
CN114494045A (zh) * | 2022-01-10 | 2022-05-13 | 南京工大数控科技有限公司 | 一种基于机器视觉的大型直齿轮几何参数测量系统及方法 |
CN116071817A (zh) * | 2022-10-25 | 2023-05-05 | 中国矿业大学 | 一种汽车座舱用手势识别系统的网络架构及训练方法 |
-
2023
- 2023-08-17 CN CN202311035586.0A patent/CN117351557A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108563995A (zh) * | 2018-03-15 | 2018-09-21 | 西安理工大学 | 基于深度学习的人机协作系统手势识别控制方法 |
CN111176443A (zh) * | 2019-12-12 | 2020-05-19 | 青岛小鸟看看科技有限公司 | 一种车载智能系统及其控制方法 |
CN111191646A (zh) * | 2019-12-23 | 2020-05-22 | 福建亿榕信息技术有限公司 | 一种指针式仪表的智能识别方法 |
CN111968090A (zh) * | 2020-08-18 | 2020-11-20 | 杭州爱科科技股份有限公司 | 一种xy刀偏心自动检测方法、设备及存储介质 |
CN113191421A (zh) * | 2021-04-25 | 2021-07-30 | 东北大学 | 一种基于Faster-RCNN的手势识别系统及方法 |
CN114494045A (zh) * | 2022-01-10 | 2022-05-13 | 南京工大数控科技有限公司 | 一种基于机器视觉的大型直齿轮几何参数测量系统及方法 |
CN114360067A (zh) * | 2022-01-12 | 2022-04-15 | 武汉科技大学 | 一种基于深度学习的动态手势识别方法 |
CN116071817A (zh) * | 2022-10-25 | 2023-05-05 | 中国矿业大学 | 一种汽车座舱用手势识别系统的网络架构及训练方法 |
Non-Patent Citations (1)
Title |
---|
段豪杰: "基于深度学习的动态手势识别研究", 《中国优秀硕士论文全文数据库》, no. 01, 15 January 2022 (2022-01-15), pages 10 - 43 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3539054B1 (en) | Neural network image processing apparatus | |
Fujiyoshi et al. | Deep learning-based image recognition for autonomous driving | |
JP4464686B2 (ja) | さまざまな光線条件下におけるリアルタイムの目の検知および追跡 | |
US10445602B2 (en) | Apparatus and method for recognizing traffic signs | |
WO2021016873A1 (zh) | 基于级联神经网络的注意力检测方法、计算机装置及计算机可读存储介质 | |
US20210056388A1 (en) | Knowledge Transfer Between Different Deep Learning Architectures | |
WO2011154558A2 (en) | Monocular 3d pose estimation and tracking by detection | |
JP5598751B2 (ja) | 動作認識装置 | |
CN111158457A (zh) | 一种基于手势识别的车载hud人机交互系统 | |
CN111158491A (zh) | 一种应用于车载hud的手势识别人机交互方法 | |
Dewangan et al. | Towards the design of vision-based intelligent vehicle system: methodologies and challenges | |
CN112287859A (zh) | 物体识别方法、装置和系统,计算机可读存储介质 | |
Barodi et al. | An enhanced artificial intelligence-based approach applied to vehicular traffic signs detection and road safety enhancement | |
CN113158833A (zh) | 一种基于人体姿态的无人车控制指挥方法 | |
CN109919128B (zh) | 控制指令的获取方法、装置及电子设备 | |
CN111062311B (zh) | 一种基于深度级可分离卷积网络的行人手势识别与交互方法 | |
CN109934155B (zh) | 一种基于深度视觉的协作机器人手势识别方法及装置 | |
JP2016024534A (ja) | 移動体追跡装置及び移動体追跡方法、並びにコンピュータ・プログラム | |
CN117351557A (zh) | 一种深度学习的车载手势识别方法 | |
CN112655021A (zh) | 图像处理方法、装置、电子设备和存储介质 | |
JP2021108091A (ja) | 2d画像のラベリング情報に基づく3d画像ラベリング方法及び3d画像ラベリング装置 | |
Blythman et al. | Synthetic thermal image generation for human-machine interaction in vehicles | |
Xu et al. | Real-time road detection and description for robot navigation in an unstructured campus environment | |
Wakatsuki et al. | Development of a robot car by single line search method for white line detection with FPGA | |
KR20210089044A (ko) | 물체 인식을 위한 학습 데이터를 선택하는 방법 및 상기 방법을 이용하여 학습된 물체 인식 모델을 이용하여 물체를 인식하는 물체 인식 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |