[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN108292362A - 用于光标控制的手势识别 - Google Patents

用于光标控制的手势识别 Download PDF

Info

Publication number
CN108292362A
CN108292362A CN201680071274.7A CN201680071274A CN108292362A CN 108292362 A CN108292362 A CN 108292362A CN 201680071274 A CN201680071274 A CN 201680071274A CN 108292362 A CN108292362 A CN 108292362A
Authority
CN
China
Prior art keywords
frame
histogram
motion vector
descriptor
light stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201680071274.7A
Other languages
English (en)
Other versions
CN108292362B (zh
Inventor
O.梅纳德瓦
K.维恩特
M.马德莫尼
M.施瓦茨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN108292362A publication Critical patent/CN108292362A/zh
Application granted granted Critical
Publication of CN108292362B publication Critical patent/CN108292362B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04812Interaction techniques based on cursor appearance or behaviour, e.g. being affected by the presence of displayed objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20072Graph-based image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本文中描述了用于手势识别的系统。系统包含显示器、摄像机、存储器和处理器。存储器将存储指令并且通信地被耦合到摄像机和显示器。处理器通信地被耦合到摄像机、显示器和存储器。在处理器将执行指令时,处理器将使用一对连续帧来估计对象的一个或多个运动向量,并且估计对象的平均运动向量。处理器也将基于来自一个或多个运动向量的光流的直方图(HOOF)的直方图值和平均运动向量来获得描述符,并且将描述符分类为姿势。

Description

用于光标控制的手势识别
对相关申请交叉引用
本申请要求由Menadeva等人在2016年6月29日提交的、标题为“Hand GestureRecognition for Cursor Control”的、序列号15/197,288的美国专利申请的优先权,该申请还要求由Menadeva等人在2016年1月5日提交的、标题为“Hand Gesture Recognitionfor Cursor Control”的、序列号62/275,057的美国临时专利申请的优先权,其公开通过这些引用被并入本文中如同在本文中被完全陈述。
背景技术
电子装置能够通过复制人类视觉的能力来能够实现计算机视觉,复制人类视觉的能力通过电子地感知和理解图像来进行。在一些情况下,电子装置将跟随或跟踪图像序列中一组关注点或对象的移动。具体而言,电子装置能够跟踪人手的移动以实现与电子装置的用户接口。提供手跟踪机构的能力在基于手势来实现自然用户接口中是根本性的。
附图说明
图1是能够被用于能够实现手势识别的电子装置的框图;
图2是用于姿势分类的方法的过程流程图;
图3是红外图像;
图4图示了从手的点击打开帧序列;
图5是由网格划分的手的图示;
图6是运动向量及其在HOOF的每个箱(bin)上的影响的图示;
图7是针对用于光标控制的手势识别的方法的过程流程图;以及
图8是示出含有用于能够实现用于行光标导航的跟踪器的逻辑的介质的框图。
相同的数字贯穿本公开和图被用于引用类似的组件和特征。100系列中的数字指的是原来在图1中存在的特征;200系列中的数字指的是原来在图2中存在的特征;诸如此类。
具体实施方式
如以上所讨论的,手跟踪机构被用于实现基于手势的与电子装置的自然用户接口。手势能够经由多种算法被确定。例如,在一些情况下,三维(3D)模型算法、骨骼模型算法或基于外观的算法被用于识别手势。3D模型和基于骨骼的算法要求手的准确和文件跟踪。实现3D模型是复杂的任务,并且来自此类算法的输出经常是以非确定的方式不准确的和非常有噪声的。基于外观的算法直接从图像得出信息,并且使用空间特征,诸如梯度、模板匹配及诸如此类。基于外观的算法主要用于姿态识别并且依赖特征的不变特性,诸如旋转、比例(scale)及诸如此类。
本文描述的实施例能够实现手势识别。在实施例中,手的主要运动向量被分析。为了评估对象的主要移动,光流算法被用于跟踪在手掩模(hand mask)上的像素。特定点不被跟踪,相反,手的主要运动向量被计算和用于将移动应用到渲染的光标。计算光流的直方图。基于运动向量和光流的直方图可生成描述符。随后,可将描述符分类为姿势。尽管本技术涉及手势,但也可使用关于对象的姿势。
图1是能够被用于能够实现手势识别的电子装置100的框图。除其它外,电子装置100能够是例如膝上型计算机、台式计算机、平板计算机、移动装置或服务器。具体而言,电子装置100能够是诸如蜂窝电话、智能电话、个人数字助理(PDA)、平板手机或平板计算机的移动装置。另外,电子装置100能够是要跟踪各种手、肢体或对象的任何装置,诸如游戏控制台或游戏控制台的组件。电子装置100能够包含配置成执行存储的指令的中央处理单元(CPU)102,以及存储由CPU 102可执行的指令的存储器装置104。CPU能够通过总线106被耦合到存储器装置104。另外,CPU 102能够是单核处理器、多核处理器、计算集群或任何数量的其它配置。此外,电子装置100能够包含多于一个CPU 102。存储器装置104能够包含随机访问存储器(RAM)、只读存储器(ROM)、闪速存储器或任何其它适合的存储器系统。例如,存储器装置104能够包含动态随机访问存储器(DRAM)。
电子装置100能够还包含图形处理单元(GPU)108。如所示出的,CPU 102能够通过总线106被耦合到GPU 108。GPU 108能够配置成在电子装置100内执行任何数量的图形操作。例如,GPU 108能够配置成渲染或操纵要对电子装置100的用户来显示的图形图像、图形帧、视频或诸如此类。在一些实施例中,GPU 108包含多个图形引擎,其中每个图形引擎配置成执行特定图形任务,或者执行特定类型的工作负载。
CPU 102能够通过总线106被链接到显示接口110,显示接口配置成110将电子装置100连接到显示装置112。显示装置112能够包含显示屏幕,其是电子装置100的内置组件。除其它之外,显示装置112能够还包含计算机监视器、电视机或投影仪,其被外部地连接到电子装置100。
CPU 102能够还通过总线106被连接到输入/输出(I/O)装置接口114,I/O装置接口114配置成将电子装置100连接到一个或多个I/O装置116。I/O装置116能够包含例如键盘和指向装置,其中,除其它之外,指点装置能够包含触摸垫或触摸屏。I/O装置116能够是电子装置100的内置组件,或者能够是外部地连接到电子装置100的装置。
电子装置100也包含存储装置118。存储装置118是诸如硬盘驱动器、固态驱动器、光驱动器、拇指型驱动器(thumbdrive)、驱动器的阵列或其任何组合。存储装置118能够还包含诸如用于云计算应用的远程存储驱动器。存储装置118包含配置成在电子装置100上运行的任何数量的应用120。在实施例中,应用可以是能够实现与电子装置的基于姿势的交互或视频游戏游玩的多个应用。
电子装置100能够还包含网络接口控制器(NIC)122。NIC 122能够配置成通过总线106将电子装置100连接到网络124。除其它之外,网络124能够是广域网(WAN)、局域网(LAN)或因特网。电子装置100还包含图像捕获机构126。在一些示例中,图像捕获机构126是摄像机、立体摄像机、扫描仪、红外摄像机/传感器、热耗散摄像机、雷达或诸如此类。图像捕获机构126可捕获场景的深度、红外或颜色图像。另外,图像捕获机构可以是三维摄像机。
电子装置100还包含手势识别单元128。手势识别单元128可从图像捕获机构126获取图像。图像捕获机构可用于捕获场景,其中场景包含摄像机的视野或摄像机的视野的一部分。场景可作为一系列的帧被捕获。手势识别单元128以逐帧的方式将稳健算法应用到来自图像捕获机构126的帧的序列,并且使用手跟踪来获得被跟踪手的掩模。基于光流的直方图的描述符被获得,并且描述符被标准化并且用于输出姿势事件。根据本技术获得的描述符是组合深度、红外和/或RGB数据的描述符。在实施例中,标准化描述符包含将描述符值从像素转换到米(meter)单位。
图1的框图无意于指示电子装置100要包含图1中示出的所有组件。相反,计算系统100能够包含更少或图1中未示出的另外的组件(例如,传感器、功率管理集成电路、另外的网络接口等)。取决于特定实现的细节,电子装置100可包含图1中未示出的任何数量的另外的组件。此外,CPU 102的任何功能性可部分或完全在硬件中和/或在处理器中被实现。例如,功能性可通过专用集成电路、在处理器中实现的逻辑中、在专用图形处理单元中实现的逻辑中或在任何其它装置中被实现。
在实施例中,图像捕获机构被用于获得场景的深度信息。深度信息使场景中手的准确掩模能被获得。使用深度数据以便获得手的掩模去除了一般由各种背景引起的噪声。在本文中使用时,手的掩模或轮廓可以是定义手的剪影的手的部分。使用诸如Lucas-Kanade光流算法的光流算法,建立基于光流的直方图(HOOF)的描述符。在实施例中,Lucas-Kanade光流算法被用于查找在当前帧图像和下一帧上的对应点。Lucas-Kanade算法假设流在考虑的像素的局部邻域(neighborhood)中基本上是不变的,并且使用最小二乘准则对于在那个领域中的所有像素解一组基本光流方程。可将描述符值标准化成在米单位中。在实施例中,描述符值从像素被转换到米单位。另外,在实施例中,能够采用非常直观和快速的方式来水平地和垂直地翻转描述符值。翻转描述符值可用于模拟对于相对手的描述符值,由此使描述符值对每只手相同,不顾手的类型。
图2是用于姿势分类的方法200的过程流程图。在框202,新帧被输入到系统。新帧可包含深度数据、红外(IR)数据和/或RGB数据。深度数据、红外(IR)数据和RGB数据可分别被称为深度图像、红外(IR)图像和RGB图像。在框204,使用深度图像将手分段。在实施例中,手从背景被分段,使得手的准确掩模与IR图像或RGB图像对齐。在实施例中,深度图像可以是深度图或提供深度信息的任何其它图像表示。在实施例中,从背景提取对象的任何算法能够被用于从图像来分段或提取对象。
在框206,基于光流来估计运动向量。在实施例中,特征点与手掩模的相交被跟踪以估计运动向量。为估计运动向量,可使用背景减法器算法、提取器算法或诸如此类来提取手掩模。在提取的掩模上找到良好特征点,并且随后光流算法将跟踪这些点。在运行光流后,对于找到的每个点,存在描述手的移动的运动向量。在实施例中,光流被应用于对于一对帧的IR图像、RGB图像、灰度级图像或其任何组合,其中使用深度图像找到的掩模已被应用于所述帧。
在框208,计算光流向量的直方图。为构建直方图,将可能值的范围置于箱中。换而言之,将值的整个范围被划分成一系列的间隔,落到每个间隔中值的数量被计数。箱是可被表示成变量的连续、非重叠间隔。在实施例中,边界框被应用于手掩模,并且随后被划分到格网中。在实施例中,格网可以是3x3个网格的格网。对于格网中的每个网格,8个箱的光流的直方图(HOOF)对于所有运动向量被计算。在实施例中,8个箱的直方图是45度的8个箱。每个直方图的值除以被用于建立相应直方图的运动向量的数量,以对于格网的每个网格来计算每个箱的平均值。例如,对于九个网格格网中的每个网格,8个箱的直方图将具有对于各个箱的八个平均值,总共72个值。
相应地,所述九个HOOF可被连结成一个向量。换而言之,对于每个网格的直方图值被链接成单个帧描述符。出于示范目的,格网是3x3格网,带有九个网格和计算的九个HOOF。然而,并且网格的数量能够被使用。另外,边界框能够采用任何方式被划分,并且不限于类似格网的形式。将所述九个HOOF组合成一个向量导致基于直方图的光流向量或单个帧特征向量。
在实施例中,可通过翻转描述符值,计算用于每个手型的描述符值。可执行翻转描述符值以使用右手数据来模拟左手描述符,且反之亦然。在实施例中,通过将网格的3x3格网中的右列与左列交换来执行翻转描述符值。同样,对于每个格网网格,也翻转网格中的8个箱。具体而言,将4个左侧方向箱与4个右侧方向箱交换。这导致沿垂直轴的描述符的镜像。
在框210,基于光流来估计整个手运动向量。可从诸如光标跟踪器的任何种类的逐帧的对象跟踪来获得整个手运动向量。整个手运动向量能够使用IR图像或RGB图像作为输入被估计。在框206,光流能够被用于获得整个手运动向量。特定地,在IR图像或RGB图像上找到对象的良好特征点。在实施例中,良好特征点可经由角检测被获得。可在良好特征点上运行光流算法。由光流确定的运动向量可按大小被排序。
预定义的阈值被应用于排序的运动向量,其中阈值(TH)可被表示成百分比以便选择最低百分数的运动向量。例如,如果关于以升序方式归类的总共50个运动向量的TH=0.5,则从运动向量的排序阵列中选择前25个运动向量。随后,使用选择的运动向量来计算均值运动向量。光流导致包含x和y值的多个运动向量。这些运动向量被平均以找到平均x和y值。第三z值能够使用深度信息被计算。结果均值运动向量(x,y,z)表示经由整个手运动向量的估计的对象移动,并且包含三个值。在实施例中,可经由逐帧的对象跟踪来计算整个手运动向量。
在框212,可保存手运动向量和光流向量的直方图。在实施例中,将HOOF的向量与整个手运动向量被保存到循环历史缓冲器中。在实施例中,循环历史缓冲器被用于存储最后n个描述符向量。例如,如果n=20,则保存对于最后二十个帧计算的向量,伴有新帧以循环方式覆盖旧帧。
在框214,基于光流向量的直方图和整个手运动向量,创建描述符。在实施例中,将整个手运动向量添加到对于每个帧的基于直方图的光流向量或单个帧特征向量。描述符可以是含有描述数据的信息的结构。在本技术中,描述符描述手的移动。从观察或分析描述符中的值,能够表示每个帧中的移动。在实施例中,通过连结最后K个向量,可创建描述符,其中所述向量被存储在循环历史缓冲器中。为了检测姿势已发生,从至少K个以前帧中收集数据。对于每个帧,在连结最后K个向量后,将帧描述符保存到缓冲器。为检测姿势是正在发生还是已发生,建立了全描述符。在实施例中,全描述符的大小是K*75,其中K是以前帧的数量。在实施例中,在建立分类器时确定K的值,并且K的值能够取决于执行姿势所用的时间。
例如,帧的描述符可以是75个值的向量。描述符可含有来自在框208计算的九个直方图的72个值,其中格网的九个网格中的每个包含8个箱,使得9*8=72。可将三个另外的值添加到表示如在框210找到的整个手运动向量的描述符。因此,在实施例中,单个帧描述符的总长度是72+3=75个值。为获得全描述符,能够组合对于K个帧的单个帧描述符,使得全描述符是K*75个值。
在框216,可在描述符上运行分类算法。分类算法可被用于确定已发生的具体姿势。在框218,确定姿势是否是已识别的姿势。如果姿势是已识别的姿势,则过程流程继续到框220。如果姿势不是已识别的姿势,则过程流程继续到框222。在框220,响应描述符被分类而输出对应姿势事件。在框222,响应描述符不匹配已知姿势,创建新分类和/或姿势。
相应地,本技术能够实现描述符创建,其组合深度和IR数据两者并且还创建稳健和对比例、旋转与手型(左/右)不变的描述符。另外,本技术能够使用光标位置来定义描述符。使用深度数据来获得手的准确掩模能够实现小但可靠量的特征点,这增大了准确度和性能。为简单起见,本技术被描述为应用于深度和IR图像。然而,能够在仅较小修改的情况下在深度、IR、灰度级和RGB图像的任何子集上应用相同想法。例如,代替IR数据或者与IR数据组合,RGB图像能够被用于创建整个手运动向量。在实施例中,灰度级图像可被计算RGB图像并且被用于获得整个手运动向量。在实施例中,IR图像和灰度级图像两者能够被用于计算光流向量和在结果光流向量上计算描述符。
另外,本技术能够实现深度图像的使用,以便提取准确的手掩模,这能够实现对于位于手本身上的特征点的搜索并且忽略在背景中的噪声点。另外,搜索是对于少量的点的,这有助于保持低的处理时间。除运动向量的大小外,特征向量还基于其角度。使用45度的8个箱来计算基于直方图的光流向量使旋转描述符的过程变得容易,并且由此使得它对于旋转和手型(左对右)是不变的。另外,将运动向量大小标准化成米单位(使用深度数据)使描述符对于比例是不变的。此外,由手跟踪器给出的手运动向量有助于姿势的状态机(例如,仅在手处在静态模式时才能够发生的姿势)。状态机的可能状态包含手闭合姿势、手打开姿势和无姿势。
图3是红外图像300。红外图像300包含对于跟踪的对象,其是手302。手302具有沿手302的多个点。在实施例中,特征点通过沿手302的x来表示。在图3-5中,特征点可通过x来表示。
图4图示了来自手302的点击打开帧序列400。每个帧402包含手302的各种位置。跨帧402A-402I的序列,手302可通过位置的序列进行,这些位置导致跨多个帧的点击打开姿势。在实施例中,特征点是要跟踪的良好特征点的开始点。图3-5还包含表示运动向量的结束点的点(通过光流算法找到)。在开始与结束点之间的线可表示运动向量。运动向量可通过应用光流到每对帧中找到的特征点被找到,导致对于帧的每个连续对的多个运动向量。
图5是通过网格504划分的手302的图示。具体而言,可将边界框502应用于手302。可将边界框划分到格网504中。在示例中,对于格网504的网格506,计算对于网格506内的所有运动向量510的8个箱的光流的直方图。在图5中,每个特征点508A、508B和508C可与相应运动向量510A、510B和510C关联。接着,可将对于格网504的九个HOOF连结成一个向量。因此,对于每个格网,计算一个8个箱的HOOF。在当前的情况中,3x3格网结果具有9个网格,导致9个HOOF。在实施例中,HOOF可以是8个值的阵列。所有HOOF阵列被连结到72个值(其是9个HOOF,每个HOOF包含每HOOF8个值)的一个阵列(向量)中。
图6是运动向量602和其在HOOF的每个箱上的影响的图示。为便于描述,图示了一个运动向量。然而,取决于在每个帧中找到的特征点,可找到多个运动向量。如本文中所述的HOOF是带有对于每个箱45度的8个箱的直方图。下面对于hi(θ)的方程描述将每个流值或运动向量乘以单位向量以将运动向量投射到HOOF中。下面的函数描述指派0值到在手的实际运动的相反方向上出现的运动向量。特定地,如图6中所图示的,对于每第i个空间单元,其中i∈{1,…,NXN}(N=3)并且方向θ∈{0,45,90,135,180,225,215}度,光流直方图hi(θ)被定义,使得
其中Fj表示在每个特征点j的流值,,Bi是在空间箱i中的特征点的集合,,并且uθ是θ方向中的单位向量,并且函数被定义为
通过将HOOF定义为带有每个箱的45度的8个箱的直方图,本技术是稳健的并且对比例、旋转和手型(左/右)是不变的。因此,通过分类算法以前识别的描述符能够被用于基于后面的姿势的描述符来识别它,不管大小、定向或手型。
图7是针对用于光标控制的手势识别的方法700的过程流程图。在框702,可从深度数据提取手掩模。要如以上所讨论的提取手掩模,输入可以是由3D摄像头采集的三维(3D)图像,其包含深度图像和IR图像。本技术可也应用到通过带有RGB到深度映射的常规RGB采集的2D图像。对于每个新帧,提取手的掩模。
在示例中,可获得输入图像,并且可通过来自三维(3D)摄像机的图像的序列来执行手跟踪。在实施例中,图像的序列可以是深度图、红外或颜色图的序列。深度图像含有与从某个视角的场景对象的表面的距离有关的信息。红外图像是显示在其视野中从对象辐射的测量的红外(IR)光的图像。在一些实施例中,2D图像通过带有从RGB到深度图的转化的常规红绿和蓝(RGB)成像来获取。
与斑点跟踪器(blob tracker)组合,前景提取器算法被应用于从帧提取手掩模。在实施例中,从包含深度图像的帧提取手掩模。手掩模是二进制图像,其中手的所有像素具有等于第一值的值,并且帧中的所有其它像素等于第二值。例如,手的所有像素可具有等于255的值,而帧中的所有其它像素具有0的值。对于每个新帧,提取手的斑点或掩模。前景提取器算法被应用到每个帧,并且与斑点跟踪器组合。以此方式,能够执行逐帧的手跟踪,并且提供被跟踪手的掩模或斑点。在本文中使用时,前景提取器是将手(前景)从背景或不是被跟踪对象的其它事物中分离的模块。斑点跟踪器是逐帧跟踪手使得每个前景手被附连到来自以前帧的其对应手的模块。
在框704,基于应用到连续帧中的手掩模的光流来估计多个运动向量。在框706,基于光流来估计平均运动向量。可在IR图像、RGB图像、灰度级图像或任何其它颜色模型或颜色表示上运行光流。
在实施例中,可执行逐帧对象跟踪以获得运动向量的估计。对象跟踪可以是基于特征点的。要跟踪的良好特征点位于以前图像上。如在图4的点击打开序列中所图示的,特征点可以是每个帧上图示的x。使用Harris角算法,能够找到良好特征点,并且它们一定在手的掩模上。对于在以前图像上找到的每个点,使用光流算法在当前图像中找到对应点。在以前点与当前点之间的向量被定义成此点的运动向量。
因此,在特征点上执行光流确定。基于每个单独特征点的运动,描述手的运动。在实施例中,光流确定场景中的对象、表面和边缘的视在运动(apparent motion)的图案。光流用于确定连续帧之间的特征点的运动向量。帧的序列中得对象的移动可被分析以获得表示帧之间的手的估计运动的向量。在实施例中,帧被划分成宏块,并且运动向量表示帧之间的宏块的位置中的更改。可使用Lucas-Kanade光流或Gunnar Farneback的算法来执行光流。在实施例中,光流能够通过能够实现逐帧的像素跟踪的任何算法来实现。
可使用角检测技术来跟踪手掩模。特征点被用作对于光流的开始点。光流算法对于每个特征点查找在下个帧中的对应点。这些特征点应是良好的或提供信息的以正确地跟踪对象。具体而言,特征点必须在手掩模上,并且不在背景上。在实施例中,可经由角检测获得描述手掩模的特征点。特征点是含有关于图像的结构的信息的图像中的点。通常,诸如手的角和交叉的图像组件指示良好特征点,其中良好特征点是能够描述对象的角、交叉或边缘的点。另外,良好特征点可以是局部独特的,空间局部化的和比例不变的。手的角可以是良好特征点,因为它们在两个不同方向上具有大的强度差。另外,角可能在局部是独特的和空间局部化的。
角检测算法可提供对于每个帧的每个像素的计分。分数是像素作为在帧的序列中可检测的特征点的可能性的度量。示例角检测算法是Harris角算法。可将阈值应用到通过Harris角算法找到的分数,以从通过Harris角算法找到的特征点的集合中区分良好特征点。已被确定成定义关注的对象的良好特征点能够用于提供帧的序列中的准确的运动向量。以此方式,计算场景中每个单独手的运动。
一旦提取了手掩模,就能够找到运动向量,并且可基于运动向量来分类手势。在一些情况下,手移动的估计被执行。可使用从光流提取的运动向量的最小一半来执行估计。可将运动向量的最小一半平均成均值运动向量。为基于运动向量来分类手势,可从N个连续帧中建立最终描述符。
可将该多个运动向量连结到单个帧特征向量中。为建立单个帧特征向量,取决于在手与摄像机之间的距离,运动向量被标准化到米单位中。手掩模的边界框被计算。在实施例中,可通过查找含有手掩模的最小容体的区域来确定边界框。接着,可将边界框划分到格网中。在将边界框划分到格网中后,通过先计算格网的每个网格中的所有运动向量的8个箱的HOOF来确定运动描述符。另外,可将运动向量标准化到米单位中。对于网格中的每个运动向量,如图6所示,将来自运动向量的能量添加到4个不同箱。计算的HOOF值除以在建立此直方图中使用的运动向量的数量以获得每个箱的平均值。因此,每个网格具有8个值,导致72个值。
在框708,来自HOOF的值和整个手运动值向量可用于形成描述符。例如,对于每个帧,存在8个箱的直方图,每个直方图带有九个网格,这导致来自HOOF的72个值。平均运动向量可贡献三个值。因此,对于每个帧,总共75个值对于每个单个帧描述符被连结。全描述符被建立并且能够包含K个帧。帧的数量能够变化并且可取决于检测到的姿势。更短的姿势(相对于时间)需要更少的帧来确定完全表示该姿势。通过连结对于K个帧的单个帧描述符,获得一个描述符。
在框710,可基于描述符来输出姿势事件。在实施例中,一旦生成全描述符,就可应用机器学习算法以便将姿势分类。
图8是示出含有用于能够实现对于光标导航的跟踪器的逻辑的介质800的框图。介质800可以是计算机可读介质,包含存储能够由处理器802通过计算机总线804访问的代码的非暂态介质。例如,计算机可读介质800能够是易失性或非易失性数据存储装置。例如,介质800还能够是逻辑单元,诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)或一个或多个集成电路中实现的逻辑门的布置。
介质800可包含配置成执行本文中描述的技术的模块806-810。例如,估计模块806可配置成估计运动向量的数量和平均运动向量。描述符模块808可配置成计算包含对于K个帧的单个帧描述符的全描述符。分类模块810可配置成将姿势分类和基于描述符来输出姿势事件。在一些实施例中,模块806-810可以是配置成引导处理器802的操作的计算机代码的模块。
图8的框图无意于指示介质800要被包含图8中示出的所有组件。此外,取决于特定实现的细节,介质800可包含图8中未示出的任何数量的另外的组件。
示例1是一种用于手势识别的系统。系统包含显示器;摄像机;存储器,用于存储指令并且通信地被耦合到摄像机和显示器;以及通信地耦合到摄像机、显示器和存储器的处理器,其中在处理器要执行指令时,处理器要:使用一对连续帧来估计对象的一个或多个运动向量;估计对象的平均运动向量;基于来自一个或多个运动向量的光流的直方图(HOOF)的直方图值和平均运动向量来获得描述符;以及将描述符分类为姿势。
示例2包含示例1的系统,包含或不包含可选特征。在此示例中,系统包含使用深度图像来提取对象的掩模;以及将光流应用于对象的掩模以获得一个或多个运动向量。
示例3包含示例1至2任一项的系统,包含或不包含可选特征。在此示例中,使用Lucas-Kanade光流算法来建立一个或多个运动向量的光流的直方图(HOOF)。
示例4包含示例1至3任一项的系统,包含或不包含可选特征。在此示例中,直方图值和平均运动向量对于多个帧被连结以获得描述符。
示例5包含示例1至4任一项的系统,包含或不包含可选特征。在此示例中,每个描述符包含对于K个帧的直方图值和平均运动向量,其中K的值取决于姿势的类型。
示例6包含示例1至5任一项的系统,包含或不包含可选特征。在此示例中,机器学习算法被用于将描述符分类为姿势。
示例7包含示例1至6任一项的系统,包含或不包含可选特征。在此示例中,经由应用红外图像、红绿蓝(RGB)图像或灰度级图像的掩模的光流算法,计算一个或多个运动向量。
示例8包含示例1至7任一项的系统,包含或不包含可选特征。在此示例中,使用通过角跟踪确定的良好特征向量来估计平均运动向量。
示例9包含示例1至8任一项的系统,包含或不包含可选特征。在此示例中,对象是手。
示例10包含示例1至9任一项的系统,包含或不包含可选特征。在此示例中,姿势被用于控制光标。
示例11是一种方法。方法包括使用深度数据来提取手掩模;基于经由应用到手掩模的光流,估计多个运动向量;估计来自光流的平均运动向量;基于应用到手掩模的光流的直方图和平均运动向量,生成描述符;以及将描述符分类为姿势。
示例12包含示例11的方法,包含或不包含可选特征。在此示例中,光流的直方图对于帧的多个网格被计算,并且按箱的平均值计算对于光流的直方图的每个箱的值。可选地,平均箱值和平均运动向量对于多个帧被连结以生成描述符。
示例13包含示例11至12任一项的方法,包含或不包含可选特征。在此示例中,方法包含获得对于帧的序列中的多个良好特征点的多个运动向量;选择带有最低长度的运动向量;以及平均带有最低长度的运动向量以获得平均运动向量。
示例14包含示例11至13任一项的方法,包含或不包含可选特征。在此示例中,描述符对于旋转和手型是不变的。
示例15包含示例11至14任一项的方法,包含或不包含可选特征。在此示例中,对应于姿势的移动被应用到显示器上渲染的光标。
示例16包含示例11至15任一项的方法,包含或不包含可选特征。在此示例中,每个描述符包含对于K个帧的连结的多个直方图值和平均运动向量,其中K的值取决于姿势的类型。
示例17包含示例11至16任一项的方法,包含或不包含可选特征。在此示例中,机器学习算法被用于将描述符分类为姿势。
示例18包含示例11至17任一项的方法,包含或不包含可选特征。在此示例中,手掩模被应用到红外图像、红绿蓝(RGB)图像或灰度级图像以估计多个运动向量。
示例19包含示例11至18任一项的方法,包含或不包含可选特征。在此示例中,经由逐帧的像素跟踪来估计平均运动向量和多个运动向量。
示例20是一种用于手势识别的设备。设备包括获得帧的序列的图像捕获机构;用于估计对于帧的序列的每个帧的平均运动向量和多个运动向量的估计器;用于基于对于帧的序列的多个运动向量的直方图和平均运动向量来生成描述符的生成器;以及将描述符分类为姿势的分类器。
示例21包含示例20的设备,包含或不包含可选特征。在此示例中,直方图是光流的直方图,并且所述一个或多个运动向量被投射到光流的直方图上。
示例22包含示例20至21任一项的设备,包含或不包含可选特征。在此示例中,将帧划分成多个网格,并且计算对于每个网格的光流的直方图,并且光流的直方图的每个箱被平均以获得包括直方图值的单个帧特征向量。
示例23包含示例20至22任一项的设备,包含或不包含可选特征。在此示例中,连结对于帧的序列的每个帧的直方图值和平均运动向量以生成描述符。
示例24包含示例20至23任一项的设备,包含或不包含可选特征。在此示例中,每个描述符包含对于K个帧的直方图值的集合和平均运动向量,其中K的值取决于姿势的类型。
示例25包含示例20至24任一项的设备,包含或不包含可选特征。在此示例中,分类器包含机器学习算法。
示例26包含示例20至25任一项的设备,包含或不包含可选特征。在此示例中,平均运动向量基于应用到红外图像、红绿蓝(RGB)图像或灰度级图像的掩模的良好特征点。
示例27包含示例20至26任一项的设备,包含或不包含可选特征。在此示例中,所述多个运动向量基于应用到手掩模的光流。
示例28包含示例20至27任一项的设备,包含或不包含可选特征。在此示例中,从帧的序列的每个帧提取手掩模以估计所述多个运动向量。
示例29包含示例20至28任一项的设备,包含或不包含可选特征。在此示例中,姿势被用于控制光标。
示例30是一种有形、非暂态计算机可读介质。计算机可读介质包括指令,其引导处理器使用深度数据来提取手掩模;基于经由应用到手掩模的光流,估计多个运动向量;估计来自光流的平均运动向量;基于应用到手掩模的光流的直方图和平均运动向量,生成描述符;以及将描述符分类为姿势。
示例31包含示例30的计算机可读介质,包含或不包含可选特征。在此示例中,光流的直方图对于帧的多个网格被计算,并且按箱的平均值计算对于光流的直方图的每个箱的值。可选地,平均箱值和平均运动向量对于多个帧被连结以生成描述符。
示例32包含示例30至31任一项的计算机可读介质,包含或不包含可选特征。在此示例中,计算机可读介质包括获得对于帧序列中的多个良好特征点的多个运动向量;选择带有最低长度的运动向量;以及平均带有最低长度的运动向量以获得平均运动向量。
示例33包含示例30至32任一项的计算机可读介质,包含或不包含可选特征。在此示例中,描述符对于旋转和手型是不变的。
示例34包含示例30至33任一项的计算机可读介质,包含或不包含可选特征。在此示例中,对应于姿势的移动被应用到显示器上渲染的光标。
示例35包含示例30至34任一项的计算机可读介质,包含或不包含可选特征。在此示例中,每个描述符包含对于K个帧的连结的多个直方图值和平均运动向量,其中K的值取决于姿势的类型。
示例36包含示例30至35任一项的计算机可读介质,包含或不包含可选特征。在此示例中,机器学习算法被用于将描述符分类为姿势。
示例37包含示例30至36任一项的计算机可读介质,包含或不包含可选特征。在此示例中,手掩模被应用到红外图像、红绿蓝(RGB)图像或灰度级图像以估计多个运动向量。
示例38包含示例30至37任一项的计算机可读介质,包含或不包含可选特征。在此示例中,经由逐帧的像素跟踪来估计平均运动向量和多个运动向量。
示例39是一种用于手势识别的设备。设备包含指令,其引导处理器到获得帧的序列的图像捕获机构;用于估计对于帧的序列的每个帧的平均运动向量和多个运动向量的部件;用于基于对于帧的序列的多个运动向量的直方图和平均运动向量来生成描述符的部件;以及将描述符分类为姿势的分类器。
示例40包含示例39的设备,包含或不包含可选特征。在此示例中,直方图是光流的直方图,并且所述一个或多个运动向量被投射到光流的直方图上。可选地,将帧划分成多个网格,并且计算对于每个网格的光流的直方图,并且光流的直方图的每个箱被平均以获得包括直方图值的单个帧特征向量。
示例41包含示例39至40任一项的设备,包含或不包含可选特征。在此示例中,连结对于帧的序列的每个帧的直方图值和平均运动向量以生成描述符。
示例42包含示例39至41任一项的设备,包含或不包含可选特征。在此示例中,每个描述符包含对于K个帧的直方图值的集合和平均运动向量,其中K的值取决于姿势的类型。
示例43包含示例39至42任一项的设备,包含或不包含可选特征。在此示例中,分类器包含机器学习算法。
示例44包含示例39至43任一项的设备,包含或不包含可选特征。在此示例中,平均运动向量基于应用到红外图像、红绿蓝(RGB)图像或灰度级图像的掩模的良好特征点。
示例45包含示例39至44任一项的设备,包含或不包含可选特征。在此示例中,所述多个运动向量基于应用到手掩模的光流。
示例46包含示例39至45任一项的设备,包含或不包含可选特征。在此示例中,从帧的序列的每个帧提取手掩模以估计所述多个运动向量。
示例47包含示例39至46任一项的设备,包含或不包含可选特征。在此示例中,姿势用于控制光标。
一些实施例可在硬件、固件和软件之一或组合中被实现。一些实施例也可被实现为存储在有形、非暂态、机器可读介质上的指令,其可由计算平台读取和执行以执行描述的操作。另外,机器可读介质可包含用于以由机器(例如,计算机)可读的形式存储或传送信息的任何机构。例如,除其它之外,机器可读介质可包含只读存储器(ROM);随机访问存储器(RAM);磁盘存储介质;光学存储介质;闪速存储器装置;或例如载波、红外信号、数字信号等的电的、光的、声的或其它形式的传播信号、或传送和/或接收信号的接口。
实施例是实现或示例。说明书中对“一实施例”、“一个实施例”、“一些实施例”、“各种实施例”或“其它实施例”的引用意思是结合实施例所述的具体特征、结构或特性被包含在本技术的至少一些实施中,但不一定是所有实施例中。“一实施例”、“一个实施例”或“一些实施例”的各种出现不一定全部指的是相同的实施例。
并非本文中描述和图示的所有组件、特征、结构、特性等需要被包含在一具体实施例或几个实施例中。例如,如果说明书陈述组件、特征、结构或特性“可(may或might)”、“能够(can或could)”被包含,则具体组件、特征、结构或特性不是必需被包含。如果说明书或权利要求提到“一(a或an)”元件,则那不意味着存在仅一个该元件。如果说明书或权利要求提到“另外的”元件,则这不排除存在多于一个的另外的元件。
要注意的是,虽然一些实施例已参照具体实现被描述,但根据一些实施例,其它实现是可能的。另外,附图中图示和/或本文中描述的电路元件或其它特征的布置和/或顺序不需要以所图示和所描述的具体方式布置。根据一些实施例,许多其它布置是可能的。
在图中示出的每个系统中,一些情况下,元件可每个具有相同的引用标号或不同的引用标号以暗示所表示的元件能够是不同的和/或类似的。然而,元件可足够灵活以具有不同实现,并且对本文中示出或描述的一些或所有系统起作用。图中示出的各种元件可以是相同的或不同的。哪个元件被称为第一元件和哪个元件被叫做第二元件是任意的。
要理解的是,前述的示例中的细节可在一个或多个实施例中在任何位置被使用。例如,以上描述的电子装置的所有可选特征可也相对于本文中描述的方法或计算机可读介质的任何一个被实现。此外,虽然流程图和/或状态图可在本文中已用于描述实施例,但技术不限于那些图或不限于本文中的对应描述。例如,流程不需要移动通过每个图示的框或状态,或者以与本文中所图示的和所描述的完全相同的顺序移动。
本技术不限于本文中所列出的具体细节。转而,受益于本公开的本领域技术人员将领会,在本技术的范围内,从上述描述和附图的许多其它变化可被做出。因此,定义本技术的范围的是包含对其的任何修改的随附权利要求。

Claims (25)

1.一种用于手势识别的系统,包括:
显示器;
摄像机;
存储器,用于将存储指令并且通信地被耦合到所述摄像机和所述显示器;以及
处理器,通信地耦合到所述摄像机、所述显示器和所述存储器,其中在所述处理器要执行所述指令时,所述处理器要:
使用一对连续帧来估计对象的一个或多个运动向量;
估计所述对象的平均运动向量;
基于来自所述一个或多个运动向量的光流的直方图(HOOF)的直方图值和所述平均运动向量来获得描述符;以及
将所述描述符分类为姿势。
2. 根据权利要求1所述的系统,包括:
使用深度图像来提取所述对象的掩模;以及
将所述光流应用到所述对象的所述掩模以获得所述一个或多个运动向量。
3.根据权利要求1所述的系统,其中使用Lucas-Kanade光流算法来建立所述一个或多个运动向量的所述光流的直方图(HOOF)。
4.根据权利要求1所述的系统,其中所述直方图值和所述平均运动向量对于多个帧被连结以获得所述描述符。
5.根据权利要求1所述的系统,其中每个描述符包含对于K个帧的直方图值和所述平均运动向量,其中K的值取决于姿势的类型。
6.一种方法,包括:
使用深度数据来提取手掩模;
基于经由应用到所述手掩模的光流来估计多个运动向量;
从所述光流估计平均运动向量;
基于应用到所述手掩模的光流的直方图和所述平均运动向量,生成描述符;以及
将所述描述符分类为姿势。
7.根据权利要求6所述的方法,其中计算对于帧的多个网格的所述光流的直方图,并且按箱的平均值计算对于所述光流的直方图的每个箱的值。
8.根据权利要求7所述的方法,其中平均箱值和所述平均运动向量对于多个帧被连结以生成所述描述符。
9.根据权利要求6所述的方法,包括:
获得对于帧的序列中的多个良好特征点的所述多个运动向量;
选择带有最低长度的所述运动向量;以及
平均带有所述最低长度的所述运动向量以获得所述平均运动向量。
10.根据权利要求6所述的方法,其中所述描述符对旋转和手型是不变的。
11.一种用于手势识别的设备,包括:图像捕获机构,用于获得帧的序列;
估计器,用于估计对于帧的所述序列的每个帧的多个运动向量和平均运动向量;
生成器,用于基于对于帧的所述序列的所述多个运动向量的直方图和所述平均运动向量来生成描述符;以及
分类器,用于将所述描述符分类为姿势。
12.根据权利要求11所述的设备,其中所述直方图是光流的直方图,并且所述一个或多个运动向量被投射到所述光流的直方图上。
13.根据权利要求11所述的设备,其中将帧划分成多个网格,并且计算对于每个网格的光流的直方图,并且所述光流的直方图的每个箱被平均以获得包括直方图值的单个帧特征向量。
14.根据权利要求11所述的设备,其中所述分类器包含机器学习算法。
15.根据权利要求11所述的设备,其中所述平均运动向量基于应用到红外图像、红绿蓝(RGB)图像或灰度级图像的掩模的良好特征点。
16.一种包括指令的有形、非暂态计算机可读介质,所述指令在由处理器执行时,引导所述处理器:
使用深度数据来提取手掩模;
基于经由应用到所述手掩模的光流来估计多个运动向量;
从所述光流估计平均运动向量;
基于应用到所述手掩模的光流的直方图和所述平均运动向量,生成描述符;以及
将所述描述符分类为姿势。
17.根据权利要求16所述的计算机可读介质,其中对应于所述姿势的移动被应用到显示器上渲染的光标。
18.根据权利要求16所述的计算机可读介质,其中每个描述符包含对于K个帧的连结的多个直方图值和所述平均运动向量,其中K的值取决于所述姿势的类型。
19.根据权利要求16所述的计算机可读介质,其中机器学习算法被用于将所述描述符分类为姿势。
20.根据权利要求16所述的计算机可读介质,其中所述手掩模被应用到红外图像、红绿蓝(RGB)图像或灰度级图像以估计所述多个运动向量。
21.一种用于手势识别的设备,包括:
用于获得帧的序列的图像捕获机构;
用于估计对于帧的所述序列的每个帧的多个运动向量和平均运动向量的部件;
用于基于对于帧的所述序列的所述多个运动向量的直方图和所述平均运动向量,生成描述符的部件;以及
用于将所述描述符分类为姿势的分类器。
22.根据权利要求21所述的设备,其中所述直方图是光流的直方图,并且所述一个或多个运动向量被投射到所述光流的直方图上。
23.根据权利要求21所述的设备,其中将帧划分成多个网格,并且计算对于每个网格的光流的直方图,以及所述光流的直方图的每个箱被平均以获得包括直方图值的单个帧特征向量。
24.根据权利要求21所述的设备,其中对于帧的所述序列的每个帧的直方图值和所述平均运动向量被连结以生成所述描述符。
25.根据权利要求21所述的设备,其中每个描述符包含对于K个帧的直方图值的集合和所述平均运动向量,其中K的值取决于姿势的类型。
CN201680071274.7A 2016-01-05 2016-10-28 用于光标控制的手势识别 Active CN108292362B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662275057P 2016-01-05 2016-01-05
US62/275057 2016-01-05
US15/197,288 US10254845B2 (en) 2016-01-05 2016-06-29 Hand gesture recognition for cursor control
US15/197288 2016-06-29
PCT/US2016/059583 WO2017119940A1 (en) 2016-01-05 2016-10-28 Hand gesture recognition for cursor control

Publications (2)

Publication Number Publication Date
CN108292362A true CN108292362A (zh) 2018-07-17
CN108292362B CN108292362B (zh) 2022-04-12

Family

ID=59235573

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680071274.7A Active CN108292362B (zh) 2016-01-05 2016-10-28 用于光标控制的手势识别

Country Status (3)

Country Link
US (1) US10254845B2 (zh)
CN (1) CN108292362B (zh)
WO (1) WO2017119940A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020253618A1 (zh) * 2019-06-21 2020-12-24 苏宁云计算有限公司 一种视频抖动的检测方法及装置

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9552070B2 (en) * 2014-09-23 2017-01-24 Microsoft Technology Licensing, Llc Tracking hand/body pose
US10254845B2 (en) 2016-01-05 2019-04-09 Intel Corporation Hand gesture recognition for cursor control
US10503968B2 (en) 2016-03-22 2019-12-10 Intel Corporation Identifying a local coordinate system for gesture recognition
KR101745651B1 (ko) * 2016-03-29 2017-06-09 전자부품연구원 손 제스처 인식 시스템 및 방법
US10354129B2 (en) * 2017-01-03 2019-07-16 Intel Corporation Hand gesture recognition for virtual reality and augmented reality devices
US10488938B2 (en) 2017-06-30 2019-11-26 Intel Corporation Adaptive cursor technology
CN107808388B (zh) * 2017-10-19 2021-10-12 中科创达软件股份有限公司 包含运动目标的图像处理方法、装置及电子设备
US10957112B2 (en) 2018-08-13 2021-03-23 Magic Leap, Inc. Cross reality system
US11227435B2 (en) 2018-08-13 2022-01-18 Magic Leap, Inc. Cross reality system
CN113196209A (zh) 2018-10-05 2021-07-30 奇跃公司 在任何位置渲染位置特定的虚拟内容
JP2022551733A (ja) 2019-10-15 2022-12-13 マジック リープ, インコーポレイテッド 位置特定サービスを伴うクロスリアリティシステム
US11632679B2 (en) 2019-10-15 2023-04-18 Magic Leap, Inc. Cross reality system with wireless fingerprints
CN114616509A (zh) 2019-10-31 2022-06-10 奇跃公司 具有关于持久坐标框架的质量信息的交叉现实系统
WO2021096931A1 (en) 2019-11-12 2021-05-20 Magic Leap, Inc. Cross reality system with localization service and shared location-based content
WO2021098666A1 (zh) * 2019-11-20 2021-05-27 Oppo广东移动通信有限公司 手部姿态检测方法和装置、及计算机存储介质
EP4073763A4 (en) 2019-12-09 2023-12-27 Magic Leap, Inc. CROSS-REALLY SYSTEM WITH SIMPLIFIED PROGRAMMING OF VIRTUAL CONTENT
SG10201913029SA (en) * 2019-12-23 2021-04-29 Sensetime Int Pte Ltd Target tracking method and apparatus, electronic device, and storage medium
US11222200B2 (en) * 2020-02-13 2022-01-11 Tencent America LLC Video-based 3D hand pose and mesh estimation based on temporal-aware self-supervised learning
EP4103910A4 (en) 2020-02-13 2024-03-06 Magic Leap, Inc. CROSS-REALLY SYSTEM WITH ACCURATE COMMON MAPS
JP2023514207A (ja) 2020-02-13 2023-04-05 マジック リープ, インコーポレイテッド 位置特定に関するジオロケーション情報の優先順位化を伴うクロスリアリティシステム
JP2023514208A (ja) 2020-02-13 2023-04-05 マジック リープ, インコーポレイテッド マルチ分解能フレーム記述子を使用したマップ処理を伴うクロスリアリティシステム
CN115461787A (zh) 2020-02-26 2022-12-09 奇跃公司 具有快速定位的交叉现实系统
JP2023524446A (ja) 2020-04-29 2023-06-12 マジック リープ, インコーポレイテッド 大規模環境のためのクロスリアリティシステム
CN112929561B (zh) * 2021-01-19 2023-04-28 北京达佳互联信息技术有限公司 一种多媒体数据处理方法、装置、电子设备及存储介质
CN112949531A (zh) * 2021-03-15 2021-06-11 哈尔滨理工大学 一种基于图像处理与机器学习的颈部姿态识别方法
US20220319019A1 (en) * 2021-03-31 2022-10-06 Nvidia Corporation Techniques to determine optical flow
US20230315209A1 (en) * 2022-03-31 2023-10-05 Sony Group Corporation Gesture recognition on resource-constrained devices

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120027252A1 (en) * 2010-08-02 2012-02-02 Sony Corporation Hand gesture detection
CN102395984A (zh) * 2009-04-14 2012-03-28 皇家飞利浦电子股份有限公司 用于视频内容分析的关键帧提取
US20120086864A1 (en) * 2010-10-12 2012-04-12 Nokia Corporation Method and Apparatus for Determining Motion
US20120219213A1 (en) * 2011-02-28 2012-08-30 Jinjun Wang Embedded Optical Flow Features
CN102779268A (zh) * 2012-02-06 2012-11-14 西南科技大学 基于方向运动历史图及竞争机制的手挥运动方向判定方法
CN104049754A (zh) * 2009-11-06 2014-09-17 索尼公司 实时手跟踪、姿态分类和界面控制
CN105205475A (zh) * 2015-10-20 2015-12-30 北京工业大学 一种动态手势识别方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6850252B1 (en) * 1999-10-05 2005-02-01 Steven M. Hoffberg Intelligent electronic appliance system and method
US8218638B2 (en) 2007-10-31 2012-07-10 Broadcom Corporation Method and system for optical flow based motion vector estimation for picture rate up-conversion
US8654250B2 (en) 2010-03-30 2014-02-18 Sony Corporation Deriving visual rhythm from video signals
US8203605B1 (en) 2011-05-11 2012-06-19 Google Inc. Point-of-view object selection
US9218365B2 (en) 2011-12-15 2015-12-22 Yeda Research And Development Co. Ltd. Device, system, and method of visual inference by collaborative composition
US9448635B2 (en) 2012-04-16 2016-09-20 Qualcomm Incorporated Rapid gesture re-engagement
SG11201510254VA (en) 2013-06-12 2016-01-28 Agency Science Tech & Res Method and system for human motion recognition
US9600897B2 (en) 2013-10-31 2017-03-21 Nec Corporation Trajectory features and distance metrics for hierarchical video segmentation
CN104881881B (zh) 2014-02-27 2018-04-10 株式会社理光 运动对象表示方法及其装置
US20170182406A1 (en) 2014-03-21 2017-06-29 Audience Entertainment Llc Adaptive group interactive motion control system and method for 2d and 3d video
US9971418B2 (en) * 2015-12-24 2018-05-15 Intel Corporation Tracker for cursor navigation
US10254845B2 (en) 2016-01-05 2019-04-09 Intel Corporation Hand gesture recognition for cursor control

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102395984A (zh) * 2009-04-14 2012-03-28 皇家飞利浦电子股份有限公司 用于视频内容分析的关键帧提取
CN104049754A (zh) * 2009-11-06 2014-09-17 索尼公司 实时手跟踪、姿态分类和界面控制
US20120027252A1 (en) * 2010-08-02 2012-02-02 Sony Corporation Hand gesture detection
US20120086864A1 (en) * 2010-10-12 2012-04-12 Nokia Corporation Method and Apparatus for Determining Motion
US20120219213A1 (en) * 2011-02-28 2012-08-30 Jinjun Wang Embedded Optical Flow Features
CN102779268A (zh) * 2012-02-06 2012-11-14 西南科技大学 基于方向运动历史图及竞争机制的手挥运动方向判定方法
CN105205475A (zh) * 2015-10-20 2015-12-30 北京工业大学 一种动态手势识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
江冬梅 等: ""基于方向直方图矢量的手势识别"", 《信息技术与信息化》 *
陈威: ""一种基于光流的动态手势识别方法"", 《哈尔滨师范大学自然科学学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020253618A1 (zh) * 2019-06-21 2020-12-24 苏宁云计算有限公司 一种视频抖动的检测方法及装置

Also Published As

Publication number Publication date
US20170192515A1 (en) 2017-07-06
CN108292362B (zh) 2022-04-12
WO2017119940A1 (en) 2017-07-13
US10254845B2 (en) 2019-04-09

Similar Documents

Publication Publication Date Title
CN108292362A (zh) 用于光标控制的手势识别
US10354129B2 (en) Hand gesture recognition for virtual reality and augmented reality devices
CN104202547B (zh) 投影画面中提取目标物体的方法、投影互动方法及其系统
CN111328396A (zh) 用于图像中的对象的姿态估计和模型检索
Liu et al. Depth context: a new descriptor for human activity recognition by using sole depth sequences
KR20180107085A (ko) 증강 현실의 가상 객체들에 영향을 미치는 방법
CN106845494A (zh) 一种检测图像中轮廓角点的方法及装置
Romero et al. FlowCap: 2D human pose from optical flow
Kang et al. Facial depth and normal estimation using single dual-pixel camera
Chen et al. A particle filtering framework for joint video tracking and pose estimation
Obukhov et al. Organization of three-dimensional gesture control based on machine vision and learning technologies
Montserrat et al. Multi-view matching network for 6D pose estimation
Agarwal et al. Weighted Fast Dynamic Time Warping based multi-view human activity recognition using a RGB-D sensor
Boukhers et al. Example-based 3D trajectory extraction of objects from 2D videos
Goyal et al. Moving Object Detection in Video Streaming Using Improved DNN Algorithm
Wang et al. Research and implementation of the sports analysis system based on 3D image technology
US11202000B2 (en) Learning apparatus, image generation apparatus, learning method, image generation method, and program
Barandiaran et al. A New Evaluation Framework and Image Dataset for Keypoint Extraction and Feature Descriptor Matching.
Chen et al. Accurate fingertip detection from binocular mask images
Symeonidis et al. Efficient realistic data generation framework leveraging deep learning-based human digitization
Yang et al. Sparse Color-Code Net: Real-Time RGB-Based 6D Object Pose Estimation on Edge Devices
JP2012226403A (ja) 画像領域追跡装置、画像領域追跡方法、および、コンピュータ・プログラム
JP2018156544A (ja) 情報処理装置及びプログラム
Yan et al. Two-stream convolutional neural networks with natural light and depth images for hand gesture recognition
Cruz-Martinez et al. Real-time enhancement of sparse 3D maps using a parallel segmentation scheme based on superpixels

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant