CN108027884B

CN108027884B - 一种用于监测对象的方法、存储媒体、服务器及设备

Info

Publication number: CN108027884B
Application number: CN201680055151.4A
Authority: CN
Inventors: 潘琪; 罗曼·塔罗尼优; 艾米立欧·梅格吉欧; 斯特凡·沃克
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2015-09-25
Filing date: 2016-08-05
Publication date: 2022-04-29
Anticipated expiration: 2036-08-05
Also published as: CN108027884A; US9727800B2; WO2017052805A1; US20170091943A1

Abstract

公开一种用于检测对象的系统、设备及方法。可接收输入图像帧并在每个帧内形成不同区域。可根据区域的相关联概率从所述区域提取描述符。所提取描述符可与参考描述符匹配。根据区域特性投射特定区域的投票或置信度。可基于向量与其它向量相交或与区域相交而根据中心投票方法确定所述区域特性。选择特定区域的概率可随着每次投票或区域置信度的增加而增加。响应于更新概率，可选择额外区域并且可提取额外描述符。额外投票迭代可更新选择下一区域的概率。可响应于符合一或多个阈值来估计对象姿势。

Description

一种用于监测对象的方法、存储媒体、服务器及设备

相关申请案的交叉参考

本申请案要求2015年9月25日提交的标题为“优化对象检测(OPTIMIZEDOBJECTDETECTION)”的第14/866,781号美国专利申请案的优先权权益，所述申请案通过引用并入本文中。

技术领域

本文所公开的主题大体上涉及用于对象检测的计算机视觉技术。

背景技术

计算机视觉是包含用于获取、分析、处理及理解图像(例如，现实世界图像采集)以提供事件或结果的方法及系统的领域。计算机视觉的一个方面是确定场景内的对象相对于相机的位置及定向。通常从检测关键点、提取描述符、匹配描述符及使用所检测描述符以检测图像内的潜在对象来线性地确定姿势。然而，由于提取实际上并不表示目标对象的描述符，因此线性提取及匹配通常引起资源浪费。举例来说，图像内的所提取描述符可包含不仅来自目标对象，而且通常来自一或多个背景对象或干扰对象的快速及准确检测的其它噪声的描述符。

发明内容

本文所公开的实施例可涉及用于检测目标对象的方法，所述方法可包含：接收输入图像帧；形成所述输入图像帧内的多个不同区域，其中所述多个不同区域具有由所述多个不同区域中的每个相应区域被选择的特定概率组成的第一概率分布；根据所述第一概率分布从所述多个不同区域选择第一区域；从所述第一区域提取来自在所述第一区域内检测到的第一一或多个特征点的第一一或多个描述符；分析所述第一区域的一或多个特性以更新所述第一区域被选择的特定概率；根据所述第一区域被选择的所述特定概率形成所述多个不同区域的第二概率分布；根据所述第二概率分布从所述多个不同区域选择第二区域；从所述第二区域提取来自在所述第二区域内检测到的第二一或多个特征点的第二一或多个描述符；及参考至少所述第一一或多个描述符及所述第二一或多个描述符以检测所述目标对象。

本文所公开的实施例可涉及一种用于提供目标对象检测的服务器，所述服务器包含存储器；处理器，其耦合到所述存储器并且经配置以：接收输入图像帧；形成所述输入图像帧内的多个不同区域，其中所述多个不同区域具有由所述多个不同区域中的每个相应区域被选择的特定概率组成的第一概率分布；根据所述第一概率分布从所述多个不同区域选择第一区域；从所述第一区域提取来自在所述第一区域内检测到的第一一或多个特征点的第一一或多个描述符；分析所述第一区域的一或多个特性以更新所述第一区域被选择的特定概率；根据所述第一区域被选择的所述特定概率形成所述多个不同区域的第二概率分布；根据所述第二概率分布从所述多个不同区域选择第二区域；从所述第二区域提取来自在所述第二区域内检测到的第二一或多个特征点的第二一或多个描述符；及参考至少所述第一一或多个描述符及所述第二一或多个描述符以检测所述目标对象。

本文所公开的实施例可涉及一种具有存储在其中的程序指令的机器可读非暂时性存储媒体，所述程序指令可由处理器执行以：接收输入图像帧；形成所述输入图像帧内的多个不同区域，其中所述多个不同区域具有由所述多个不同区域中的每个相应区域被选择的特定概率组成的第一概率分布；根据所述第一概率分布从所述多个不同区域选择第一区域；从所述第一区域提取来自在所述第一区域内检测到的第一一或多个特征点的第一一或多个描述符；分析所述第一区域的一或多个特性以更新所述第一区域被选择的特定概率；根据所述第一区域被选择的所述特定概率形成所述多个不同区域的第二概率分布；根据所述第二概率分布从所述多个不同区域选择第二区域；从所述第二区域提取来自在所述第二区域内检测到的第二一或多个特征点的第二一或多个描述符；及参考至少所述第一一或多个描述符及所述第二一或多个描述符以检测所述目标对象。

本文所公开的实施例可涉及一种用于实施目标对象检测的设备，所述设备包括：用于接收输入图像帧的装置；用于形成所述输入图像帧内的多个不同区域的装置，其中所述多个不同区域具有由所述多个不同区域中的每个相应区域被选择的特定概率组成的第一概率分布；用于根据所述第一概率分布从所述多个不同区域选择第一区域的装置；用于从所述第一区域提取来自在所述第一区域内检测到的第一一或多个特征点的第一一或多个描述符的装置；用于分析所述第一区域的一或多个特性以更新所述第一区域被选择的特定概率的装置；用于根据所述第一区域被选择的所述特定概率形成所述多个不同区域的第二概率分布的装置；用于根据所述第二概率分布从所述多个不同区域选择第二区域的装置；用于从所述第二区域提取来自在所述第二区域内检测到的第二一或多个特征点的第二一或多个描述符的装置；及用于参考至少所述第一一或多个描述符及所述第二一或多个描述符以检测所述目标对象的装置。

其它特征及优点将从附图及具体实施方式中显而易见。

附图说明

图1是在一个实施例中的其中可实践本发明的方面的系统的框图。

图2说明在一个实施例中的优化对象检测(OOD)工作流概述。

图3A说明在一个实施例中的与图像内的特征相关联的方向向量。

图3B说明在另一实施例中的与图像内的特征相关联的方向向量。

图4说明在一个实施例中的图像的超像素区域分割。

图5A说明在一个实施例中的具有特征点的图像的初始化相同尺寸的区域分割。

图5B到5D说明在一个实施例中的通过用于所选择区域的经调整概率加权的图像的区域分割。

图6说明在另一实施例中的OOD工作流概述。

图7说明在一个实施例中的对象中心投票工作流。

图8A到8C说明在具体实施例中的对象中心投票工作流的视频表示。

图9说明在另一实施例中的OOD工作流。

具体实施方式

词语“示例性”或“实例”在本文中用于表示“充当实例、例子或说明”。本文中描述为“示例性”或描述为“实例”的任何方面或实施例未必应被解释为比其它方面或实施例优选或有利。

在一个实施例中，优化对象检测(OOD)系统使用不同技术来将计算资源集中于在最可能含有目标对象的图像的区域中提取描述符。举例来说，代替通常立即提取一定数量的描述符及在完整提取之后确定姿势，OOD可将图像拆分成区域并从所述区域中的每一者迭代地提取，同时增加确定为最可能包含目标对象的区域的概率。在一个实施例中，可能包含目标对象的区域接收在概率分布中进行处理的置信度“投票”。根据所得的概率分布，包括描述符提取的每个替代可集中于最可能包含目标对象的区域。在一个实施例中，投票系统包含使用指向目标对象中心的向量的中心投票机构，所述向量可进一步优化在描述符提取过程期间对高概率区域的关注。

图1是说明其中可实践OOD的实施例的示例性系统的框图。系统可为装置100，其可包含通用处理器161、图像处理模块171、概率计算器173、对象数据库175及存储器164。装置100还可包含耦合到一或多个总线177或信号线的多个装置传感器，所述一或多个总线177或信号线还耦合到至少图像处理171、概率计算器173模块及对象数据库175。为清晰起见，将模块171、173及175与处理器161及/或硬件162分开说明，但可基于软件165及固件163中的指令将所述模块组合及/或实施于处理器161及/或硬件162中。控制单元160可经配置以实施如本文所描述的执行OOD的方法。举例来说，控制单元160可经配置以实施装置100的功能。

装置100可为：服务器、移动装置、无线装置、蜂窝电话、扩增实境装置(AR)、个人数字助理、可穿戴式装置(例如，眼镜、手表、帽子或类似的身体附接装置)、移动计算机、平板电脑、个人计算机、膝上型计算机、数据处理装置/系统、或具有处理能力的任何类型的装置。

在一个实施例中，装置100是移动/便携式平台(例如，客户端)。装置100可包含用于捕获图像的装置，例如相机114，并且可任选地包含运动传感器111，例如，加速度计、陀螺仪、电子指南针或其它类似运动感测元件。装置100还可在前置或后置相机(例如，相机114)上捕获图像。装置100可进一步包含用户接口150，所述用户接口包含用于显示扩增实境图像的装置，例如，显示器112。用户接口150还可包含用户可经由其将信息输入到装置100中的键盘、小键盘152，或其它输入装置。如果需要，通过触摸屏/传感器将虚拟小键盘集成到显示器112中可免除键盘或小键盘152。用户接口150还可包含麦克风154及扬声器156，例如，在装置100是移动平台，例如，蜂窝电话的情况下。装置100可包含与本发明无关的其它元件，例如卫星定位系统接收器、电力装置(例如，电池)，以及通常与便携式及非便携式电子装置相关联的其它组件。

装置100可通过基于或以其它方式支持任何合适的无线通信技术的无线网络经由一或多个无线通信链路通信。举例来说，在一些方面中，装置100可为客户端或服务器并且可与无线网络相关联。在一些方面中，网络可包括人体局域网络或个人局域网络(例如，超宽带网络)。在一些方面中，网络可包括局域网或广域网。无线装置可支持或以其它方式使用多种无线通信技术、协议或标准中的一或多者，例如，3G、LTE、高级LTE、4G、CDMA、TDMA、OFDM、OFDMA、WiMAX及Wi-Fi。类似地，无线装置可支持或以其它方式使用多种对应调制或多路复用方案中的一或多者。移动无线装置可以无线方式与其它移动装置、蜂窝电话、其它有线及无线计算机、因特网网站等通信。如上所述，装置100可为便携式电子装置(例如，智能电话、专用扩增实境(AR)装置、游戏装置，或具有AR处理及显示能力的其它装置)。实施本文所描述的AR系统的装置可用于多种环境中(例如，商场、街道、办公室，家庭或用户可使用其装置的任何地方)。用户可在各种情况下与其装置100的多个特征介接。在AR情境中，用户可使用其装置来通过其装置的显示器观察现实世界的表示。用户可通过使用其装置的相机与其带有AR功能的装置相互作用以接收现实世界图像/视频，且以将额外或替代信息叠加到装置上的所显示现实世界图像/视频上的方式来处理图像。当用户在其装置上观察AR实施时，可在装置显示器上实时替代或更改现实世界对象或场景。虚拟对象(例如，文本、图像、视频)可插入到装置显示器上描绘的场景的表示中。

图2说明在一个实施例中的OOD工作流概述。如图2中所说明，实施例(例如，OOD)可在框205处执行或触发关键点检测。

在框210处，实施例可执行描述符提取。举例来说，OOD可从相机图像内的特征中提取描述符。如本文所使用的特征(例如，特征点或关注点)作为图像的所关注或显著部分。特征检测可为图像处理操作以检查每一像素来确定特征是否以具体像素存在。特征检测可处理整个所采集图像，或替代地，处理所采集图像的某些部分。从所采集图像的特征中提取的描述符可表示沿着三维空间的不同点(例如，在轴X、Y及Z上的坐标)，并且每一特征点可具有相关联特征位置。对于每个所采集图像或视频帧，在已检测到特征后，可提取特征周围的局部图像分块。可使用例如尺度不变特征变换(SIFT)等的熟知技术提取特征，所述技术局部化特征且产生其描述。如果需要，可使用其它技术，例如，快速鲁棒特征(SURF)、梯度位置朝向直方图(GLOH)、归一化互相关(NCC)或其它可比较技术。当确定图像的所提取特征的数目超过阈值(例如，100个点特征或其它数目的点)时，可将所述图像及特征保存为关键帧。

在框215处，实施例执行描述符匹配。特征的所提取描述符可匹配或无法匹配先前所采集图像的特征(即，与先前所采集图像的特征相同或对应于先前所采集图像的特征)。举例来说，先前所采集的图像可为存储在对象数据库中的图像。

在框220处，实施例执行目标投票。举例来说，目标投票可包含将图像分割成区域及单独地投票或确定目标对象存在于相应区域内的置信度。在一些实施例中，在相应区域内确定到中心向量的方向，并且在向量彼此相交或与相应区域相交时出现区域的投票或置信度。在其它实施例中，当区域内的所提取描述符与数据库中的目标对象的描述符匹配时，增加投票或置信度。在其它实施例中，目标投票可包含如下文在图7中更详细描述的中心投票。

在框225处，实施例执行可能区域估计。举例来说，使用有偏差的蒙特卡洛概率分布，高可能性区域的投票将增加在未来描述符提取迭代中选择那些区域的概率。如所说明，框210到225可迭代两次或两次以上迭代。举例来说，响应于投票及更新概率，提取额外描述符并且将额外描述符与参考数据库匹配，使得可发生概率的额外投票及更新。在一个实施例中，在提取阈值数目的描述符(例如，每一区域或每一图像)，或阈值可信度内检测到/未检测到对象之前，迭代环路240可重复。

在框230处，实施例估计姿势。在一个实施例中，响应于以高置信度检测到对象，OOD起始对象的姿势估计。在一些实施例中，估计姿势、OOD会触发用于追踪对象的合适数据及/或将所述数据发送到追踪系统(例如，SLAM)。

图3A说明在一个实施例中的与图像内的特征相关联的方向向量。如图3A中说明，对于给定图像及视点，可存在不对应于目标对象的多个描述符(例如，因为目标对象不存在或出于其它原因不能够进行检测)。因此，如所说明，不对应于目标对象的方向向量320不通过目标对象中心325，并且替代地可更接近不相关对象中心330。另外，不根据主方向确定的向量(例如，305到315)可不在实际目标对象中心325处相交。

图3B说明在另一实施例中的与图像内的特征相关联的方向向量。图3B说明分别具有主方向向量385、390及395的特征点355、360及365。根据主方向向量及参考数据库，可针对特征点中的每一者估计对象中心340。方向向量370、375及380指向对象中心340并且具有根据比例确定的长度。对于图3B中所说明的图像(例如，关键帧)，对象中心是数据库的一部分，并且数据库中的所有特征对应于要检测的对象。在一个实施例中，所有定向向量通过中心(例如，因为所述定向向量被定义为如此)。

图4说明在一个实施例中的图像的超像素区域分割。在一些实施例中，超像素区域400可通过比相同加权栅格更佳地符合对象边缘来提供增强的对象选择区域。举例来说，碗405及苹果410具有大致符合相应对象的实际形状的区域。因此，通过使用超像素区域，OOD可通过针对对象边界优化的区域初始化。

图5A说明在一个实施例中的具有特征点的图像的初始化相同尺寸的区域分割。举例来说，图像500分割成栅格，其中栅格的每个区段具有相同尺寸。在其它实施例中，所述区段可具有除正方形或矩形之外的不同形状。在另外其它实施例中，不相同尺寸的其它形状可用于分割图像。

图5B到5D说明在一个实施例中的通过用于所选择区域的经调整概率加权的图像的区域分割。图5B说明在一个实施例中的通过对于所有区域相同的初始概率加权(例如，通过均匀阴影515所说明)的图像的相同尺寸区域分割。举例来说，如所说明，格栅内的所有区域可在具有相同被选择概率的时间t₀处开始。换句话说，与任一其它区域相比，OOD针对检测任一其它区域中的对象可能不具有更大置信度。图5C说明(例如，通过变暗阴影区域520及525)在特定区域中针对目标对象(汽车)在时间t₁(例如，其指示在初始化之后的某一时间段或一定迭代次数)处投票已增加继续提取某些较高概率区域内的描述符的可能性。在通过图5D说明的时间t_n处，汽车(目标对象)的区域接收由增加的阴影特定区域/区段表示的额外投票或置信度。举例来说，如所说明，最高概率区域530用区域的最暗阴影表示。

图6说明在一个实施例中的OOD工作流概述。在框605处，实施例(例如，OOD)接收输入图像。

在框610处，实施例形成输入图像内的区域，每个区域具有相关联的选择概率。举例来说，图像可通过选择每个区域的相同概率初始化。在一些实施例中，区域的布置可基于超像素、尺寸相同或基于深度图。其它区域/区段布置也是可能的。

在框615处，实施例检测输入图像内的特征点。在一些实施例中，检测到阈值数目的特征点，并且所述特征点用于起始OOD过程。可每一图像或每一区域确定要检测的特征点的数目。在一些实施例中，OOD接收包含所检测特征点的关键帧图像。

在框620处，实施例根据选择概率选择特定区域，以提取用于特定区域内的一或多个特征点的一或多个描述符。在一些实施例中，在第一描述符提取之前，所有区域可具有相同被选择概率。在其它实施例中，特征根据强度排序，并且较强特征接收较高选择概率。如果所有区域对于部分具有相同概率，则在第一迭代期间，OOD可任意地选择一或多个区域来提取描述符。在一些实施例中，OOD可通过提取每个区域内的两个(或某一其它可配置数目)描述符或从仅一个第一区域提取数字而开始，并且随后在框625处继续确定描述符是否具有匹配。在一些实施例中，后续迭代、所提取的描述符的数目可取决于用于特定区域的投票的数目而变化。举例来说，OOD可确定在接收区域的阈值数目的投票之后，所述所有特征点应该用于提取区域内的描述符。在其它实施例中，对于每次迭代，所提取描述符的数目保持恒定。

在框625处，实施例确定所提取描述符是否与用于目标对象的预定描述符匹配。如果存在匹配，则实施例继续到框630，否则实施例返回到框620。

在框630处，实施例确定区域的投票。

在一个实施例中，对于匹配参考描述符的每个描述符，OOD确定用于描述符的相关联特征点的主方向向量及确定相对于主方向的方向及距离向量。响应于确定方向及距离向量，当区域含有(例如，界定、包封等)两个相交方向向量时，OOD可增加特定区域投票。在一些实施例中，方向及距离向量可延伸到特定区域之外，在此情况下，如果新形成的方向及距离向量的相交点与除特定区域之外的第二区域相交，则第二区域可接收投票。

在一个实施例中，当方向向量与特定区域相交时，特定区域(例如，当前的或当前选择的)接收投票或增加的置信度。举例来说，如果新形成的方向及距离向量与特定区域的一部分相交，则特定区域接收投票。在一些实施例中，如果新产生的方向及距离向量与第二(或第三或更多)区域的区段/部分相交，则相应区域接收投票。举例来说，当第二或更多区域与区域相交时，第二或更多区域可与包含描述符的特定区域相邻或邻近。在一些实施例中，与方向及距离向量相交的每个相应区域将接收相应区域的投票。因此，在一些实施例中，形成/确定单个方向及距离向量可形成多个区域来接收投票。

在用于特定(例如，当前的或当前选自框620的)区域的一个实施例中，响应于确定描述符与参考数据库中的预定描述符匹配，针对特定区域对投票进行计数。

在框635处，实施例根据每一区域的投票调整区域的概率分布。举例来说，OOD可根据来自框630的所有新获取的投票(如果存在)来重新计算概率。

在框640处，实施例确定是否提取阈值数目的特征点或是否已符合对象置信度阈值。如果符合任一个或两个测试，则实施例继续到下一图像并在可能的情况下提供用于姿势估计的数据。否则，实施例继续到通过根据概率选择区域来提取描述符。在一些实施例中，在估计姿势之后，OOD可忽略用于后续图像的所检测对象区域，因为对象的追踪可在单独专用过程中进行。此外，用于第一图像的概率分布可沿用到第二图像。在阈值时间段之后，OOD可完全重设所有区域概率。在框645处，实施例确定姿势并提供所检测对象数据。举例来说，可使用适合假设的对应性的子集(即，对象中心的投票)通过随机抽样一致性(RANSAC)及三点姿势来估计姿势。

图7说明在一个实施例中的对象中心投票工作流。在框705处，实施例(例如，OOD)从参考数据库检索对象中心数据。

在框710处，实施例提取用于图像内(例如，如图6中所描述的所选择区域内)的一或多个特征点的描述符。

在框715处，对于匹配参考描述符的每个描述符，实施例确定用于描述符的相关联特征点的主方向向量及确定相对于主方向的方向及距离向量。

在框720处，当区域含有两个相交的方向向量时，实施例增加区域投票。在一些实施例中，投票表示区域含有目标对象的置信度，并且可调整概率以增加或减小区域选择用于描述符提取的下一次迭代的可能性。在一些实施例中，当方向向量与相应区域相交时，区域接收投票或增加的置信度(相比较在与另一方向向量相交时的投票)。

图8A到8C说明在具体实施例中的对象中心投票工作流的视频表示。图8A说明用于除了目标对象汽车之外的数据库中的其它目标的对象中心投票。图8B说明用于目标对象汽车的对象中心投票。如图8B中所说明，如通过向量的强集群所示，确定汽车的门把手附近的清晰对象中心相交。如图8C中所说明，OOD还可使用区域的相交来投票或调整一或多个区域的置信度。举例来说，穿过区域的向量可增加所述特定区域的投票或置信度(例如，在区域850处的向量相交)。在一些实施例中，当向量穿过这些多个区域时，多个区域可受影响。举例来说，向量850与区域(3,0)以及(3,1)、(4,1)、(4,2)及(5,2)中所说明的区域相交。因此，在一些实施例中，向量850相交/穿过的五个区域可各自接收投票。

图9说明在另一实施例中的OOD工作流。在框905处，实施例(例如，通过装置100实施的OOD)接收输入图像帧。举例来说，输入图像帧可为从相机114产生的图像。

在框910处，实施例形成输入图像帧内的多个不同区域，其中所述多个不同区域具有由多个不同区域中的每个相应区域被选择的特定概率组成的第一概率分布。举例来说，每个区域可通过开始(例如，相同)被选择概率而初始化。在一个实施例中，根据有以下中的一个确定多个区域中的每一者的大小：等面积拆分(例如，正方形、矩形或其它几何形状)、超像素分割(例如，考虑图像内容的分割)，或深度图(例如，可通过将图像中具有类似深度的元素分组在一起来检测对象估计)。

在框915处，实施例根据第一概率分布从多个不同区域选择第一区域。举例来说，第一概率对于所有区域可相同，并且第一选择可为从所述区域中的任一者的随机选择。如果向特定区域加权第一概率，则所述特定区域更可能被选择为第一(所选择)区域。

在框920处，实施例从第一区域提取来自在所述第一区域内检测到的第一一或多个特征点的第一一或多个描述符。举例来说，OOD可起始于一个特征点，或可选择一组特征来提取。在一个实施例中，根据每一输入图像描述符阈值，或每一区域描述符阈值中的一或两者确定要提取的描述符的阈值数目。举例来说，考虑到针对图像可提取的最大数目的描述符，可确定每一区域描述符的数目。在一些实施例中，每个区域具有将在确定在区域内或在图像内是否检测到对象之前提取的最大数目的描述符。

在框925处，实施例分析第一区域的一或多个特性，以更新第一区域被选择的特定概率。举例来说，OOD确定特定(例如，目前所选择)区域含有目标对象的可能性。如果OOD确定(例如，通过一或多个特性)目标对象可至少部分在所述区域内，则OOD可通过所述区域中的增加的可信度的投票或其它确定来标记所述区域。在一些实施例中，分析一或多个特性包含：对于相应区域中的一或多个特征点，计算表示标度及方向的到目标对象的中心的方向向量；及当所述相应区域内的两个或多于两个方向向量相交时，增加相应区域的选择概率。在一些实施例中，分析一或多个特性包含：对于相应区域中的一或多个特征点，计算表示标度及方向的到目标对象的中心的方向向量；及当方向向量与所述相应区域相交时，增加所述相应区域的选择概率。在一些实施例中，分析一或多个特性包含：将所提取的一或多个描述符和与目标对象相关联的预定参考描述符匹配；及响应于所述匹配而增加所述相应区域的选择概率。

在框930处，实施例根据第一区域被选择的特定概率形成多个不同区域的第二概率分布。举例来说，OOD可从第一区域读取置信度的当前投票或其它指示，及根据第一区域的投票或增加的置信度重新计算所有区域的概率分布。作为一个实例，如果特定区域具有新投票，则所述特定区域将更可能(与前一次迭代相比)在下一次迭代中被选择。

在框935处，实施例根据第二概率分布从多个不同区域选择第二区域。第二区域可与第一区域相同，或可为不同区域。

在框940处，实施例从第二区域提取来自在所述第二区域内检测到的第二一或多个特征点的第二一或多个描述符。

在框945处，实施例参考至少第一一或多个描述符及第二一或多个描述符以检测目标对象。

在一些实施例中，根据多个区域的更新概率分布，OOD继续：区域的选择；描述符的提取；及在检测到以下中的一或两者之前一或多个特性的分析：提取阈值数目的描述符、符合用于确认检测目标对象的阈值置信度，或符合用于确定不存在目标对象的阈值置信度。举例来说，OOD将执行描述符提取，随后对一或多个区域进行投票，接着在一次迭代或循环期间更新区域的概率。在检测到对象，或OOD确定对象不太可能在当前图像帧内之前，提取、投票及更新迭代可继续。当OOD迭代通过图像帧的区域时，投票机构会将计算资源集中于最可能包含目标对象的特征的区域，同时因此还避免不太可能找到目标对象的区域。因此，计算资源可集中于图像帧的高置信度区域。在一些实施例中，响应于符合用于检测目标对象的阈值置信度，OOD确定目标对象姿势并且当在下一输入图像中执行额外的目标对象检测时，忽略包括所检测目标对象的区域。举例来说，如果检测目标对象，则可将目标对象传递给将在未来帧中追踪目标的专用追踪器。因此，对于这些未来帧，OOD可集中于不由对象追踪系统覆盖的图像的其它区域，并且潜在地发现所关注的额外对象。

在一些实施例中，响应于符合用于确定不存在目标对象的阈值置信度：OOD将与多个区域相关联的最新概率分布应用于下一输入图像；及在阈值数目的输入图像，或设定的时间量中的一或两者之后重设与多个区域相关联的所有概率。举例来说，响应于无法检测到对象，OOD可继续使用用于设定帧数或设定时间段的当前概率分布。在设定帧数或设定时间段到期之后，OOD可重设所有区域的概率，使得环境的新分析可开始。因此，在阈值时间限制或阈值数目的图像之后，可校正可能已在检测目标对象时误导OOD的任何错误数据。

在一些实施例中，响应于具有用于相应区域的置信度，OOD增加与所述相应区域的一或多个相邻区域的选择概率。举例来说，OOD可基于一个区域的增加的置信度来确定邻近区域具有包含目标对象的增加的可能性。

如上文所描述，装置100可为便携式电子装置(例如，智能手机、专用扩增实境(AR)装置、游戏装置、例如眼镜等的可穿戴式装置，或具有AR处理及显示能力的其它装置)。实施本文所描述的AR系统的装置可用于多种环境中，例如，商场、街道、房间，或用户可采用便携式装置的任何地方。在AR情境中，用户可使用装置100来通过其装置的显示器观察现实世界的表示。用户可通过使用其装置的相机与其具备AR能力的装置交互以接收现实世界图像/视频并且将额外或交替信息叠加或重叠到装置上所显示的现实世界图像/视频上。当用户在其装置上观察AR实施时，可在装置显示器上实时替代或更改现实世界对象或场景。虚拟对象(例如，文本、图像、视频)可插入到装置显示器上描绘的场景的表示中。

装置100及相机114的移动可使显示器实时更新目标(例如，一或多个对象或场景)的扩增。通过装置远离初始参考图像位置的运动，装置可从交替视图中捕获额外的图像。在提取特征及从额外关键帧三角测量之后，可实现扩增的增加的准确性(例如，对象周围的边界可更精确地拟合、场景中的对象的表示将显得更真实，及目标放置相对于相机姿势可更准确)。

在一个实施例中，对象或图形可插入或集成到通过相机114捕获的视频流(或图像)中并且显示在显示器112上。OOD可任选地促使用户为了额外的信息而扩增目标。举例来说，用户可能够添加用户内容以扩增目标的表示。用户内容可为图像、3D对象、视频、文本，或可与目标的表示集成或重叠或替代目标的表示的其它内容类型。显示器可通过从原始场景的顺畅追踪实时更新。举例来说，标志上的文本可用替代文本替代，或3D对象可在战略上放入场景中且显示在装置100上。当用户改变相机114的位置及定向时，可调整或扩增图形或对象以匹配相机114的相对移动。举例来说，如果虚拟对象插入到扩增实境显示器中，则远离虚拟对象的相机运动可减小虚拟对象相对于相机114所行进距离的大小。举例来说，与从虚拟对象退后半步相比，从虚拟对象退后四步应引起虚拟对象大小的更大减小，所有其它变量是相同的。运动图形或动画可在由OOD表示的场景内制成动画。举例来说，动画对象可在扩增实境显示器中所描绘的场景内“移动”。

本领域的技术人员应认识到，本文所描述的实施例可以除AR以外的方式(例如，机器人定位)实施。

ODD可实施为软件、固件、硬件、模块或引擎。在一个实施例中，前一个OOD描述可通过装置100中的通用处理器161实施，以获得先前所需的功能(例如，与图2、图6、图7及图9有关的方法)。在一个实施例中，OOD可实施为引擎或模块。在其它实施例中，所描述的子组件中的一或多者的特征可组合或分割成不同个别组件、模块或引擎。

本文中的教示可并入到(例如，实施于各种设备中或由各种设备执行)各种设备(例如，装置)中。在一个实施例中，OOD可实施为由处理器执行以接收图像或视频作为输入的引擎或模块。本文所教示的一或多个方面可并入到电话(例如，蜂窝电话)、个人数据助理(“PDA”)、平板电脑、移动计算机、笔记本电脑、平板电脑、娱乐装置(例如，音乐或视频装置)、耳机(例如，头戴式耳机、耳机等)、用户I/O装置、计算机、服务器、娱乐装置，或任何其它合适的装置中。这些装置可具有不同电力及数据要求且可引起针对每一特征或特征集合产生的不同电力分布。

在一些方面，无线装置可包括用于通信系统的接入装置(例如，Wi-Fi接入点)。此接入装置可经由有线或无线通信链路通过收发器140提供例如到另一网络(例如，广域网，例如互联网或蜂窝网络)的连接性。因此，接入装置可使得另一装置(例如，Wi-Fi站)能够接入另一网络或一些其它功能性。另外，应了解，所述装置中的一或两者可为便携式的，或在一些情况下，相对非便携式的。

本领域技术人员将理解，可使用多种不同技术及技艺中的任一者来表示信息及信号。举例来说，可通过电压、电流、电磁波、磁场或磁粒子、光场或光粒子或其任何组合来表示在整个上文描述中可能参考的数据、指令、命令、信息、信号、位、符号及芯片。

本领域技术人员将进一步了解，结合本文所公开的实施例描述的各种说明性逻辑块、模块、引擎、电路及算法步骤可实施为电子硬件、计算机软件或两者的组合。为清楚地说明硬件与软件的此互换性，上文已大致关于其功能性而描述了各种说明性组件、块、模块、引擎、电路及步骤。此类功能性是实施为硬件还是软件取决于特定应用及强加于整个系统的设计约束。本领域技术人员可针对每一特定应用以不同方式来实施所描述的功能性，但这样的实施决策不应被解释为会引起脱离本发明的范围。

可使用经设计以执行本文所描述的功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合来实施或执行结合本文中所公开的实施例而描述的各种说明性逻辑块、模块及电路。通用处理器可为微处理器；但在替代方案中，处理器可为任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合，例如，DSP与微处理器的组合、多个微处理器的组合、一或多个微处理器结合DSP核心的组合，或任何其它此种配置。

结合本文中所公开的实施例而描述的方法或算法的步骤可直接体现于硬件、由处理器执行的软件模块或其两者的组合中。软件模块可驻留在RAM存储器、闪存存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM，或本领域中已知的任何其它形式的存储媒体中。示例性存储媒体耦合到处理器，使得处理器可从存储媒体读取信息及将信息写入到存储媒体。在替代方案中，存储媒体可集成到处理器。处理器及存储媒体可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中，处理器及存储媒体可作为离散组件驻留在用户终端中。

在一个实施例中，相机114产生用于OOD的输入图像帧，如本文所描述。此外，作为说明性实例，存储器164可存储指令，所述指令在由处理器161执行时可形成输入图像中的区域、可根据概率选择特定区域、可分析区域的特性及更新区域的概率。

在一或多个示例性实施例中，所描述的功能或模块可实施于硬件(例如，硬件162)、软件(例如，软件165)、固件(例如，固件163)，或其任何组合中。如果在软件中实施为计算机程序产品，则功能或模块可作为一或多个指令或代码存储在非暂时性计算机可读媒体上或经由非暂时性计算机可读媒体传输。计算机可读媒体可包含计算机存储媒体及通信媒体两者，通信媒体包含促进计算机程序从一个位置到另一位置的传送的任何媒体。存储媒体可为可由计算机或数据处理装置/系统访问的任何可用媒体。借助于实例而非限制，此非暂时性计算机可读媒体可包括随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、只读光盘(CD-ROM)或其它光盘存储装置、磁盘存储装置或其它磁性存储装置，或可用于载送或存储呈指令或数据结构形式的所需程序代码并且可由计算机访问的任何其它媒体。并且，适当地将任何连接称作计算机可读媒体。举例来说，如果使用同轴缆线、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电及微波的无线技术从网站、服务器或其它远程源传输软件，则同轴缆线、光纤缆线、双绞线、DSL或例如红外线、无线电及微波的无线技术包含于媒体的定义中。如本文中所使用，磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软磁盘及蓝光光盘，其中磁盘通常以磁性方式再现数据，而光盘用激光以光学方式再现数据。以上各项的组合也应包含在非暂时性计算机可读媒体的范围内。

提供对所公开实施例的先前描述以使得本领域技术人员能够制作或使用本发明。本领域技术人员将容易了解对这些实施例的各种修改，且可在不脱离本发明的精神或范围的情况下将本文定义的一般原理应用到其它实施例。因此，本发明并不预期限于本文中所展示的实施例，而应符合与本文中所公开的原理及新颖特征相一致的最广泛范围。

Claims

1.一种用于检测目标对象的方法，所述方法包括：

接收输入图像帧；

形成所述输入图像帧内的多个不同区域，其中所述多个不同区域具有由所述多个不同区域中的每个相应区域被选择的特定概率组成的第一概率分布；

根据所述第一概率分布从所述多个不同区域选择第一区域；

从所述第一区域提取来自在所述第一区域内检测到的第一一或多个特征点的第一一或多个描述符；

分析所述第一区域的一或多个特性，以更新所述第一区域被选择的特定概率；

根据所述第一区域被选择的所述特定概率形成所述多个不同区域的第二概率分布；

根据所述第二概率分布从所述多个不同区域选择第二区域；

从所述第二区域提取来自在所述第二区域内检测到的第二一或多个特征点的第二一或多个描述符；

及

参考至少所述第一一或多个描述符及所述第二一或多个描述符以检测所述目标对象。

2.根据权利要求1所述的方法，其进一步包括：

根据所述多个区域的更新概率分布继续区域的所述选择、描述符的提取、及一或多个特性的分析，直到检测到以下中的一或两者为止：提取阈值数目的描述符，

符合用于确认检测到所述目标对象的阈值置信度，或符合用于确定不存在所述目标对象的阈值置信度。

3.根据权利要求1所述的方法，其中所述分析所述一或多个特性包括：对于相应区域中的一或多个特征点，计算表示标度及方向的到根据参考数据库确定的所述目标对象的中心的方向向量；

及

当所述相应区域内的两个或多于两个方向向量相交时，增加所述相应区域的选择概率。

4.根据权利要求1所述的方法，其中所述分析所述一或多个特性包括：对于相应区域中的一或多个特征点，计算表示标度及方向的到所述目标对象的中心的方向向量；

及

当所述方向向量与所述相应区域相交时，增加所述相应区域的选择概率。

5.根据权利要求1所述的方法，其中所述分析所述一或多个特性包括：将所述所提取一或多个描述符和同所述目标对象相关联的预定参考描述符匹配；

及

响应于所述匹配而增加所述相应区域的选择概率。

6.根据权利要求2所述的方法，其中响应于符合用于检测到所述目标对象的阈值置信度：

确定目标对象姿势；及

当在下一输入图像中执行额外目标对象检测时，忽略包括所述所检测目标对象的区域。

7.根据权利要求2所述的方法，其中响应于符合用于确定不存在所述目标对象的阈值置信度：

将与所述多个区域相关联的最新概率分布应用于下一输入图像；及

在阈值数目的输入图像，或设定的时间量中的一或两者之后，重设与所述多个区域相关联的概率分布。

8.根据权利要求1所述的方法，其中根据每一输入图像描述符阈值，或每一区域描述符阈值中的一或两者确定要提取的描述符的阈值数目。

9.根据权利要求1所述的方法，其中根据等面积拆分、超像素分割或深度图中的一者确定所述多个区域中的每一者的大小。

10.根据权利要求1所述的方法，其进一步包括：

响应于具有用于相应区域的置信度，增加与所述相应区域的一或多个相邻区域的所述选择概率。

11.一种机器可读的非暂时性存储媒体，其具有存储在其中的程序指令，所述程序指令可由处理器执行以：

接收输入图像帧；

根据所述第一概率分布从所述多个不同区域选择第一区域；从所述第一区域提取来自在所述第一区域内检测到的第一一或多个特征点的第一一或多个描述符；

根据所述第二概率分布从所述多个不同区域选择第二区域；

及

参考至少所述第一一或多个描述符及所述第二一或多个描述符以检测目标对象。

12.根据权利要求11所述的媒体，其进一步包含用于进行以下操作的指令：

13.根据权利要求11所述的媒体，其中所述用于分析所述一或多个特性的指令包括用于进行以下操作的指令：

对于相应区域中的一或多个特征点，计算表示标度及方向的到根据参考数据库确定的所述目标对象的中心的方向向量；及

14.根据权利要求11所述的媒体，其中所述用于分析所述一或多个特性的指令包括用于进行以下操作的指令：

对于相应区域中的一或多个特征点，计算表示标度及方向的到所述目标对象的中心的方向向量；及

15.根据权利要求11所述的媒体，其中所述用于分析所述一或多个特性的指令包括用于进行以下操作的指令：

将所述所提取一或多个描述符和同所述目标对象相关联的预定参考描述符匹配；

及

响应于所述匹配而增加所述相应区域的选择概率。

16.根据权利要求12所述的媒体，其中响应于符合用于检测到所述目标对象的阈值置信度：

确定目标对象姿势；及

17.根据权利要求12所述的媒体，其中响应于符合用于确定不存在所述目标对象的阈值置信度：

18.根据权利要求11所述的媒体，其中根据每一输入图像描述符阈值，或每一区域描述符阈值中的一或两者确定要提取的描述符的阈值数目。

19.根据权利要求11所述的媒体，其中根据等面积拆分、超像素分割或深度图中的一者确定所述多个区域中的每一者的大小。

20.根据权利要求11所述的媒体，其进一步包含用于进行以下操作的指令：

21.一种用于提供目标对象检测的服务器，所述服务器包括：

存储器；

及

处理器，其耦合到所述存储器并且经配置以：

接收输入图像帧；

根据所述第一概率分布从所述多个不同区域选择第一区域；

根据所述第二概率分布从所述多个不同区域选择第二区域；

及

22.根据权利要求21所述的服务器，其进一步包括用于进行以下操作的指令：

23.根据权利要求21所述的服务器，其中所述用于分析所述一或多个特性的指令包括用于进行以下操作的指令：

24.根据权利要求21所述的服务器，其中所述用于分析所述一或多个特性的指令包括用于进行以下操作的指令：

25.根据权利要求21所述的服务器，其中所述用于分析所述一或多个特性的指令包括用于进行以下操作的指令：

及

响应于所述匹配而增加所述相应区域的选择概率。

26.根据权利要求22所述的服务器，其中响应于符合用于检测到所述目标对象的阈值置信度：

确定目标对象姿势；及

27.根据权利要求22所述的服务器，其中响应于符合用于确定不存在所述目标对象的阈值置信度：

28.一种用于目标对象检测的设备，所述设备包括：

用于接收输入图像帧装置；

用于形成所述输入图像帧内的多个不同区域的装置，其中所述多个不同区域具有由所述多个不同区域中的每个相应区域被选择的特定概率组成的第一概率分布；

用于根据所述第一概率分布从所述多个不同区域选择第一区域的装置；

用于从所述第一区域提取来自在所述第一区域内检测到的第一一或多个特征点的第一一或多个描述符的装置；

分析所述第一区域的一或多个特性，以更新所述第一区域被选择的特定概率的装置；

用于根据所述第一区域被选择的所述特定概率形成所述多个不同区域的第二概率分布的装置；

用于根据所述第二概率分布从所述多个不同区域选择第二区域的装置；

用于从所述第二区域提取来自在所述第二区域内检测到的第二一或多个特征点的第二一或多个描述符的装置；

及

用于参考至少所述第一一或多个描述符及所述第二一或多个描述符以检测所述目标对象的装置。

29.根据权利要求28所述的设备，其进一步包括：

用于根据所述多个区域的更新概率分布继续区域的所述选择、描述符的提取、及一或多个特性的分析，直到检测到以下中的一或两者为止的装置：

提取阈值数目的描述符，

30.根据权利要求28所述的设备，其中所述分析所述一或多个特性包括：

用于对于相应区域中的一或多个特征点计算表示标度及方向的到根据参考数据库确定的所述目标对象的中心的方向向量的装置；

及

用于当所述相应区域内的两个或多于两个方向向量相交时增加所述相应区域的选择概率的装置。