CN107430436B

CN107430436B - 全景手势的自动检测

Info

Publication number: CN107430436B
Application number: CN201680016502.0A
Authority: CN
Inventors: 亚历山德罗斯·安德烈·沙拉维; 卡洛斯·赫南德斯·埃斯特班; 张立; 史蒂文·麦克斯维尔·塞茨
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2015-05-20
Filing date: 2016-05-19
Publication date: 2020-06-16
Anticipated expiration: 2036-05-19
Also published as: GB2553926A; DE202016006008U1; CN107430436A; US9936128B2; GB201714753D0; WO2016187412A1; EP3298770A1; EP3298770B1; DE112016002252T5; US20180183997A1; GB2553926B; US20160344930A1; US10397472B2

Abstract

本公开的各个方面涉及通过使用计算装置，诸如计算装置(120、130、和140)，捕获全景图像。例如，所述计算装置可以记录视频帧的集合，诸如视频帧(420、510、和520)，并且可以确定在所述视频帧的集合内的追踪特征，诸如追踪特征(460、470、480、540、和560)，各个追踪特征包括在所述视频帧的集合内的两个或者更多个视频帧中出现的一个或者多个特征。可以通过所述计算装置基于在所述视频帧的集合的两个或者更多个视频帧之间所述追踪特征的位移确定基于帧的特征的集合。还可以通过所述计算装置基于所述基于帧的特征的集合确定历史特征值的集合。所述计算装置然后可以基于所述历史特征值的集合确定用户是否正在试图捕获全景图像。作为响应，所述计算装置可以捕获全景图像。

Description

全景手势的自动检测

相关申请的交叉引用

本申请是于2015年5月20日提交的美国专利申请第14/717,492号的延续，该申请的公开内容通过引用的方式全部并入本文。

背景技术

诸如智能电话、数码相机(轻便型相机、桥式相机、和SLR)、和平板等许多计算装置使用户能够捕获全景图像。在捕获全景图像之前，这些计算装置需要设置成全景图像捕获模式。在一些示例中，需要通过用户界面或者通过切换开关的主动用户输入来将计算装置设置成全景图像捕获模式。在捕获全景图像之前需要用户输入可能会导致错过拍照机会或者用户不知道能够捕获全景图像。

发明内容

在本公开内的实施例大体上涉及自动地捕获全景图像。一个方面包括一种用于在装置上捕获全景图像的方法。可以通过一个或者多个处理装置记录视频帧的集合。然后，该一个或者多个处理装置可以确定在该视频帧的集合内的追踪特征，各个追踪特征包括该视频帧的集合的两个或者更多个视频帧中出现的一个或者多个特征；基于在该视频帧的集合的两个或者更多个视频帧之间追踪特征的位移确定基于帧的特征的集合；基于该基于帧的特征的集合确定历史特征值的集合；基于该历史特征值的集合来确定用户是否正在试图捕获全景图像；以及响应于确定用户正在试图捕获全景图像，捕获全景图像。

另一个实施例提供了一种用于捕获全景图像的系统。该系统可以包括：一个或者多个计算装置；以及存储指令的存储器，该指令可由该一个或者多个计算装置执行。指令可以包括：利用一个或者多个计算装置，记录视频帧的集合；利用一个或者多个计算装置，确定在该视频帧的集合内的追踪特征，各个追踪特征包括该视频帧的集合的两个或者更多个视频帧中出现的一个或者多个特征；利用一个或者多个计算装置，基于在视频帧的集合的两个或者更多个视频帧之间追踪特征的位移确定基于帧的特征的集合；利用一个或者多个计算装置，基于该基于帧的特征的集合确定历史特征值的集合；利用一个或者多个计算装置，基于该历史特征值的集合来确定用户是否正在试图捕获全景图像；以及利用一个或者多个计算装置，响应于确定用户正在试图捕获全景图像，捕获全景图像。

一个实施例提供了一种存储指令的非暂时性计算机可读介质。该指令当由一个或者多个处理器执行时可以使该一个或者多个处理器执行以下步骤：记录视频帧的集合；确定在该视频帧的集合内的追踪特征，各个追踪特征包括该视频帧的集合的两个或者更多个视频帧中出现的一个或者多个特征；基于在视频帧的集合的两个或者更多个视频帧之间追踪特征的位移确定基于帧的特征的集合；基于该基于帧的特征的集合确定历史特征值的集合；基于该历史特征值的集合确定用户是否正在试图捕获全景图像；以及响应于确定用户正在试图捕获全景图像，捕获全景图像。

附图说明

图1是根据本公开的各个方面的示例系统的功能图。

图2是图1的示例系统的实物图。

图3是根据本公开的各个方面的计算装置运动的示例。

图4A是根据本公开的各个方面的计算装置和捕获图像的示例。

图4B是根据本公开的各个方面的图像和追踪特征的示例。

图5是根据本公开的各个方面的图像集合和追踪特征的示例。

图6是根据本公开的各个方面的图像集合和追踪特征的位移的示例。

图7是根据本公开的各个方面的轴对齐运动的示例。

图8是根据本公开的各个方面的角度范围的示例。

图9是根据本公开的各个方面的客户端计算装置和屏幕截图。

图10是根据本公开的各个方面的流程图。

具体实施方式

综述

本技术涉及自动地捕获全景图像，而不需要计算装置的相机首先在“全景捕获”模式下运行。例如，用户可以使具有相机的计算装置进入图像捕获模式或者视频捕获模式，并且开始在各个方向上线性地移动该装置，就好像他或者她正在试图捕获全景图像。当这么做时，计算装置可以记录视频帧并且分析计算装置(或者计算装置的相机)的运动。当计算装置确认运动与用户试图捕获全景图像对应时，计算装置可以自动地切换至全景捕获模式或者简单地将记录的视频帧转换为全景图像。由此，即使在计算装置不在全景捕获模式下运行的情况下，也可以利用用户移动计算装置来捕获全景图像。

为了检测与试图拍摄全景图像相关联的运动，可以分析每一个记录的视频帧。例如，可以分析每个记录的视频帧来确定并且映射在记录的视频帧的多个帧之间的基于梯度的关键点或者追踪特征。追踪特征可以包括像素窗口，该像素窗口包含足够的纹理来使它们能够在记录的视频帧之间进行匹配。

可以通过追踪特征确定基于帧的特征的集合。例如，该基于帧的特征的集合可以包括所有追踪特征在正X轴和负X轴中的中值位移、所有追踪特征在正Y轴和负Y轴中的中值位移、和与所有追踪特征的轴对齐运动的中值角度差。

可以将基于帧的特征元素的集合进行累加以便确定记录的视频帧的历史特征值。可以通过使用当前在滑动窗口内的所有记录的视频帧的基于帧的特征的集合元素来确定历史特征值。历史特征值可以包括运动量、该运动的轴对齐、和该运动的角度。

可以评估每一个历史特征值来确定用户是否正在试图捕获全景图像。例如，当运动的量和角度在预定范围内时，这可以指示用户正在试图捕获全景图像。在一个示例中，当所有的历史特征值在预定阈值内时，计算装置可以确定用户正在试图捕获全景图像或者全景图。

一旦计算装置已经确定用户正在试图捕获全景图像，那么计算装置可以切换至全景图像捕获模式。在这方面，可以使用记录的视频帧中的一个或者多个视频帧和在确定之后捕获的一个或者多个附加视频帧来生成全景图像。在一些示例中，还可以使用用于在记录的视频帧之间对追踪特征进行追踪的相同技术来生成全景图像。

当历史特征值中的任何一个在这些预定范围外时，这可以指示用户没有正在试图捕获全景图像。在这种情况下，随着捕获并且处理附加图像，计算装置可以继续确定并且评估历史特征值，如本文所讨论的。这可以继续直到计算装置已经确定用户正在试图捕获全景图像或者直到已经记录最大数量的视频帧。

本文描述的特征可以允许自动检测何时用户正在试图捕获全景图像。通过这样做，计算装置可以捕获全景图而不需要特定用户输入来选择全景图像捕获模式。这可以使用户捕获到更多全景图像，避免用户认为他或者她正在捕获全景图像但其实并没有捕获到全景图像的情况，并且总体上提高了用户对全景图像的兴趣。这些特征还可以提供优于其它技术的性能优点，因为它们不需要使用在计算装置上的其它传感器(使用这些传感器可能减少计算装置的电池寿命)。另外，还可以使用用于对追踪特征进行追踪的技术来生成全景图像。

示例系统

图1和图2包括可以实施上面描述的特征的示例系统100。不应该被认为是对本公开的范围或者本文描述的特征的有用性的限制。在该示例中，系统100可以包括计算装置110、120、130和140以及存储系统150。各个计算装置110可以包含一个或者多个处理器112、存储器114、和通常存在于通用计算装置中的其它部件。每一个计算装置110、120、130和140的存储器114可以存储可由一个或者多个处理器112访问的信息，包括可以被一个或者多个处理器112执行的指令116。

存储器还可以包括能够被处理器检索、操纵、或者存储的数据118。存储器可以是能够存储可由处理器访问的信息的任何非暂时性类型的存储器，诸如，硬盘驱动器、存储卡、ROM、RAM、DVD、CD-ROM、支持写入的存储器、和只读存储器。

指令116可以是待被一个或者多个处理器直接(诸如，机器码)或者间接(诸如，脚本)执行的指令的任何集合。在这方面，术语“指令”、“应用”、“步骤”和“程序”本文可以互换使用。指令可以按照目标代码格式存储以被处理器直接处理，或者按照任何其它计算装置语言存储，包括：根据需要被解释或者预先编译的脚本或者独立源代码模块的类集。下面更详细地解释指令的功能、方法和例程。

根据指令116，可以通过一个或者多个处理器112来检索、存储或者修改数据118。例如，尽管本文描述的主题不受任何特定数据结构的限制，但是可以将数据存储在计算机寄存器中、存储在作为具有许多不同的字段和记录的表的关系数据库中、或者存储在XML文档中。还可以将数据格式化成任何计算装置可读的格式，诸如但不限于，二进制值、ASCII或者Unicode。而且，数据可以包括足以识别相关信息的任何信息，诸如，数字、描述性文本、专属代码、指针、对其它存储器中(诸如在其它网络位置)存储的数据的引用、或者被函数用来计算相关数据的信息。

一个或者多个处理器112可以包括任何常规处理器，诸如，市售CPU。可替代地，处理器可以是专用部件，诸如，专用集成电路(“ASIC”)或者其它基于硬件的处理器。尽管不必要，但是计算装置110中的一个或者多个可以包括专用硬件组件来更快地或者更高效地执行特定计算进程，诸如，解码视频、将视频帧与图像匹配、使视频失真、对失真的视频进行编码等。

尽管图1从功能上将处理器、存储器、和计算装置110的其它元件图示为位于相同的框中，但是处理器、计算机、计算装置、或者存储器可以实际包括可以或者可以不存储在同一物理外壳内的多个处理器、计算机、计算装置、或者存储器。例如，存储器可以是硬盘驱动器或者位于与计算装置110的外壳不同的外壳中的其它存储介质。因此，对处理器、计算机、计算装置、或者存储器的引用将被理解为包括对可以或者可以不并行运行的处理器、计算机、计算装置、或者存储器的类集的引用。例如，计算装置110可以包括作为负载均衡式服务器场运行的服务器计算装置。又进一步地，尽管将下面描述的一些功能指示为在具有单个处理器的单个计算装置上发生，但是本文描述的主题的各个方面可以通过，例如，通过网络160传送信息的多个计算装置来实施。

每一个计算装置110可以位于网络160的不同节点处并且能够与网络160的其它节点直接和间接通信。尽管在图1至图2中只描绘了少数计算装置，但是应该了解，典型的系统可以包括大量的连接的计算装置，各个不同的计算装置位于网络160的不同节点处。本文描述的网络160和中间节点可以通过使用各种协议和系统来互连，从而使得网络可以是互联网、万维网、特定内联网、广域网、或者局域网的一部分。网络可以利用标准通信协议，诸如，以太网、WiFi和HTTP，一个或者多个公司专有的协议以及前述的各种组合。尽管如上面提到的当传输或者接收到信息时获得了某些优点，但是本文描述的主题的其它方面不受任何特定信息传输方式的限制。

作为示例，每一个计算装置110可以包括能够经由网络与存储系统150以及计算装置120、130、和140通信的web服务器。例如，参照图2，服务器计算装置110中的一个或者多个可以使用网络160来将信息传输至用户，诸如，用户220、230、或者240，并且在显示器，诸如，计算装置120、130、或者140的显示器122、132、或者142上将信息呈现给用户。在这方面，计算装置120、130、和140可以被认为是客户端计算装置并且可以执行本文描述的特征中的全部或者一些。

每一个客户端计算装置120、130、和140可以与服务器计算装置110类似地配置，具有如上面描述的一个或者多个处理器、存储器和指令。各个客户端计算装置120、130、或者140可以是旨在供用户220、230、240使用的个人计算装置，并且具有在与个人计算装置连接时通常使用的所有的部件，诸如，中央处理单元(CPU)、存储数据和指令的存储器(例如，RAM和内部硬盘驱动器)、诸如显示器122、132、或者142等显示器(例如，具有屏幕的监视器、触摸屏、投影仪、电视机、或者可操作来显示信息的其它装置)、和用户输入装置124(例如，鼠标、键盘、触摸屏、或者麦克风)。客户端计算装置还可以包括用于记录视频流的相机、扬声器、网络接口装置、和用于将这些元件彼此连接的所有的部件。

尽管客户端计算装置120、130、和140可以分别包括全尺寸的个人计算装置，但是可替代地，它们可以包括能够通过诸如互联网等网络与服务器无线地交换数据的移动计算装置。仅举例说明，客户端计算装置120可以是移动电话、或者能够经由互联网获得信息的装置，诸如，支持无线的PDA、平板PC、或者上网本。在另一个示例中，客户端计算装置130可以是头戴式计算系统。作为示例，用户可以通过使用小的键盘、键区、麦克风、利用相机来使用视觉信号、或者触摸屏来输入信息。

与存储器114一样，存储系统150可以是能够存储可由服务器计算装置110访问的信息的任何类型的计算机化存储装置，诸如，硬盘驱动器、存储卡、ROM、RAM、DVD、CD-ROM、支持写入的存储器、和只读存储器。另外，存储系统150可以包括将数据存储在多个不同的存储装置上的分布式存储系统，该多个不同的存储装置可以物理地位于相同的或者不同的地理位置。如在图1中示出的，存储系统150可以经由网络160连接至计算装置，和/或可以直接连接至计算装置110、120、130、和140中的任一个计算装置(未示出)。

示例方法

用户可以使具有相机的计算装置进入图像捕获模式或者视频捕获模式，并且开始在各个方向上线性地移动该装置，就好像他或者她正在试图捕获全景图像。在这方面，可以将计算装置沿线性的水平轴或者垂直轴移动。例如，当通过使用相机126捕获全景图像时，使用客户端计算装置120的用户(诸如用户220)可以以线性的水平运动或者垂直运动移动计算装置。图3是当用户正在试图捕获全景图像时可能会期待的不同类型的运动的示例300。在这方面，可以使用围绕y轴的水平运动310来创建风景格式的全景图像。可以使用围绕x轴的垂直运动320来创建肖像格式的全景图像。

当如上面讨论的移动计算装置时，计算装置可以记录视频帧并且分析相机的运动。例如，图4A是计算装置400的示例，该计算装置400在运动310的方向上正被移动，仿佛是要捕获风景格式的全景图像。在这方面，当用户220试图捕获全景图像时，计算装置120可以瞄准兴趣点430的一部分。计算装置120的视场420的方向可以确定在记录的视频帧中正在捕获兴趣点430的哪一部分。当用户220试图捕获整个兴趣点430时，可以使计算装置120相对于运动310的方向的轴线旋转，从而将视场420旋转至兴趣点430的不同部分。

为了检测与试图拍摄全景图像相关联的运动，可以分析每一个记录的视频帧。例如，可以分析各个记录的视频帧来确定并且映射在记录的视频帧的多个帧之间的基于梯度的关键点或者追踪特征。追踪特征可以包括像素窗口，像素窗口包含充足的纹理来使它们能够在记录的视频帧之间进行匹配。在一个示例中，可以使用通过将在记录的视频帧之间的显著特征的强度值进行匹配来检测在记录的视频帧内的显著特征并且映射在记录的视频帧之间的显著特征的位移的技术，如在Kanade-Lucas-Tomasi(KLT)特征追踪技术中发现的，来确定并且映射追踪特征。

可以分析单个记录的视频帧来确定多个追踪特征，诸如100个、或者更多或者更少。在图4B的示例440中，可以确定具有追踪特征的记录的视频帧450。记录的视频帧450可以包含当视场420瞄准兴趣点430的一部分时拍摄的图像。可以分析记录的视频帧450来确定追踪特征460、470、和480。

当移动计算装置时，在记录的视频帧中捕获的特征可以改变，并且由此，如图5中示出的，在记录的视频帧之间可以得到一些追踪特征并且其它追踪特征丢失。在图5的示例500中，可以使计算装置120相对于运动310的方向的轴线旋转来将视场从420切换至510至520。例如，视场420可能会使记录的视频帧440被捕获。然后可以分析记录的视频帧440来确定追踪特征460、470、和480。当使计算装置120在运动310的方向上旋转时，视场可以从420变为510。视场510可能会使记录的视频帧530被捕获。然后可以分析记录的帧530并且可以确定追踪特征470、480、和540。在这方面，当计算装置120从视场420变为视场510时，丢失追踪特征460并且得到追踪特征540。当计算装置120在运动310的方向上前进时，视场510可以变为视场520。视场520可能会使记录的视频帧550被捕获。然后可以分析记录的视频帧550并且可以确定追踪特征480、540、和560。在这方面，当计算装置120从视场510变为视场520时，丢失追踪特征470并且得到追踪特征560。

在一些示例中，当在记录的视频帧中的两个视频帧之间丢失的追踪特征的数量大于或者等于阈值时，可以添加并且追踪新的追踪特征。另外，可以丢弃至少预定数量的记录的视频帧(诸如5个记录的视频帧、或者更多或者更少)中不包括的追踪特征，因为可以认为这种追踪特征是不可靠的，无法提供足够的运动数据。

可以通过追踪特征来确定基于帧的特征的集合。例如，如在表1中示出的，该基于帧的特征的集合可以包括所有追踪特征在正X轴和负X轴中的中值位移、所有追踪特征在正Y轴和负Y轴中的中值位移、和与所有追踪特征的轴对齐运动的中值角度差。

关于下面的表1，可以为基于帧的特征的集合中的各个基于帧的特征分配识别号码(ID)，其中，可以通过如在“基于帧的特征”列下示出的相应公式来确定各个基于帧的特征。在表1中，ID#1至#4分别与在正X方向和负X方向、以及正Y方向和负Y方向中的中值位移相对应。ID#5与轴对齐运动的中值角度差对应。关于ID#1至#4的公式，X₊，X_-，Y₊，Y_-表示在记录的视频帧内的每一个追踪分别在正X方向和负X方向、以及正Y方向和负Y方向中的位移。image_height和image_width分别表示记录的视频帧的高度和宽度。关于表1的ID#5，X表示在记录的视频帧内的每一个追踪特征沿x轴的位移，并且h表示在记录的视频帧内的每一个追踪特征的位移的斜边。在表1中，Med_tracks指的是在相应公式内对在记录的视频帧内的每一个追踪特征的位移取中值。例如，在ID#1Med_tracks中，指的是对在记录的视频帧内的每一个追踪特征沿正x轴的位移取中值。

表1

为了确定中值位移，可以将在记录的视频帧内的各个给定追踪特征的相对位置与在给定追踪位置第一次检测到的参考记录的视频帧内的给定追踪特征的相对位置进行比较。可以使用该比较来确定：相对于在相应参考记录的视频帧内的各个给定追踪特征的位置，在记录的视频帧内的各个追踪特征在正X方向和负X方向以及正Y方向和负Y方向中的位移。然后可以将在记录的视频帧内的所有追踪特征的值进行排序来确定在正X方向和负X方向以及正Y方向和负Y方向中的中值位移。

在图6的示例600中，使用追踪特征480来展示如何可以确定单个追踪特征的位移。在这方面，记录的视频帧440和530被示出为两者都包括追踪特征480，其中，追踪特征480在帧440中第一次被检测到。在记录的视频帧440中，追踪特征480被示出为位于(X₁，Y₁)的位置。在记录的视频帧530中，追踪特征480被示出为位于(X₂，Y₂)的位置。可以通过取X₁和X₂之间的差值、以及Y₁和Y₂之间的差值来确定追踪特征480在记录的视频帧440和530之间的位移。通过使用得到的距离，可以确定追踪特征480在正X方向和负X方向以及正Y方向和负Y方向中的位移。然后可以将在记录的视频帧530内的所有追踪特征的值进行排序来确定在正X方向和负X方向以及正Y方向和负Y方向中的中值位移。

还可以对各个记录的视频帧的中值位移进行归一化。在一个示例中，通过将中值位移除以宽度，相对于记录的视频帧在像素中的宽度，对中值位移进行归一化。可以通过计算装置的相机的特征来限定记录的视频帧的高度和宽度。该归一化可以发生在确定中值位移之前或者之后，换句话说，可以在对所有的追踪特征的值进行排序之前对位移进行归一化。

为了确定与给定记录的视频帧的轴对齐运动的中值角度差，可以确定与各个追踪特征的轴对齐运动的角度差。各个追踪特征的角度差可以基于该追踪特征沿X轴的位移、以及该位移的斜边。可以通过对在给定记录的视频帧内的每一个追踪特征的角度值取平均值来确定给定记录的视频帧的中值角度值。

可以将基于帧的特征元素的集合进行累加以便确定记录的视频帧的历史特征值。历史特征值可以基于过去的用户行动，其指示用户是否正在捕获全景图像。在一个示例中，可以利用使用设定数量的记录的视频帧的滑动窗口技术。作为示例，可以使用设定数量的帧，诸如，至少5个、10个、或者15个记录的视频帧、或者更多或者更少。在使用滑动窗口之前可能需要最小数量的记录的视频帧，诸如，5个或者10个、或者更多或者更少，以便提供有用的历史信息。当记录附加视频帧时，可以通过去除更旧的记录的视频帧并且包括附加的帧来更新在滑动窗口内的记录的视频帧以维持设定数量的帧。

可以通过使用当前在滑动窗口内的所有的记录的视频帧的基于帧的特征的集合元素来确定历史特征值。历史特征值可以包括运动量、运动的轴对齐、和运动的角度。例如，如在表2中示出的，可以通过选择在滑动窗口内的基于帧的特征元素的正X方向和负X方向以及正Y方向和负Y方向的中值位移值的最大值来确定运动量。

关于下面的表2，可以通过被示出为与在“基于历史的聚合”列下的历史特征相邻的相应公式来确定在“历史特征”列下示出的各个历史特征值。如之前关于表1描述的，对于每一个帧，ID#1至#4与分别在正X方向和负X方向以及正Y方向和负Y方向中的中值位移对应，并且ID#5与轴对齐运动的中值角度差对应。在表2中，MAX表示最大值，并且MED_frames表示当前在滑动窗口内的每一个帧的对应位移的中值。例如，Med_frames(#1)指的是对当前在滑动窗口内的所有的记录的视频帧在正X方向上的位移取中值。同样地，可以通过选择在滑动窗口内的基于帧的特征元素的正X方向和负X方向以及正Y方向和负Y方向的中值位移值的最大值来确定运动量。

表2

可以通过对在滑动窗口内的基于帧的特征元素在正X轴上的中值位移与在负X轴上的中值位移之间的差值取第一绝对值，并且对在正Y轴上的中值位移与在负Y轴上的中值位移之间的差值取第二绝对值来确定运动的轴对齐。可以通过在第一绝对值与第二绝对值之间的差的绝对值来确定运动的轴对齐。另外，如在表2中示出的，可以基于在滑动窗口内的基于帧的特征元素的所有的中值角度差的中值来确定该运动的角度。当更新滑动窗口时，也可以更新历史特征值。

可以评估每一个历史特征值来确定用户是否正在试图捕获全景图像。例如，当运动量在预定范围内时，这可以指示用户正在试图捕获全景图像。如图7中示出的，当运动的方向相对于X轴或者Y轴在预定范围(诸如，非常接近0)内时，这可以进一步指示用户正在试图捕获全景图像。在图7的示例700中，示出了不同类型的运动，这些类型的运动产生相对于X轴或者Y轴在预定范围内的运动方向，这是用户正在试图捕获全景图像时可能会期望的。在这方面，可以使用围绕y轴710的水平运动730的方向来创建风景格式的全景图像，并且可以使用围绕x轴720的垂直运动740来创建肖像格式的全景图像。当用户将计算装置围绕偏离x轴720或者y轴710的轴线移动比预定范围更大的量时，这可以指示用户没有正在试图捕获全景图像。

如在图8中示出的，当运动的角度在预定角度范围(诸如，0度、90度、180度、或者270度)内时，这可以指示用户正在试图捕获全景图像。在图8的示例800中，计算装置120可以沿水平的x轴720捕获全景图像。当用户沿x轴720移动计算装置120时，计算装置可以从x轴720移开，向着y轴710移动角度810。可以将角度810与预定角度范围相比较。当角度810在预定角度范围内时，这可以指示用户正在试图捕获全景图像。

在一个示例中，如在图9中示出的，当所有的历史特征值在预定范围内时，计算装置可以确定用户正在试图捕获全景图像。在图9的示例900中，计算装置120可以确定用户正在试图捕获全景图像。因此，计算装置的显示器122可以提供指示计算装置120已经进入全景图像捕获模式的通知920。计算装置的显示器122还可以呈现当前正在被捕获的场景910的部分。

当计算装置确认运动与用户试图捕获全景图像对应时，计算装置可以自动地切换至全景捕获模式或者仅仅将记录的视频帧转换为全景图像。由此，即使在计算装置不在全景捕获模式下运行的情况下，也可以利用用户移动计算装置来捕获全景图像。在一个示例中，一旦计算装置已经确定用户正在试图捕获全景图像，那么计算装置可以切换至全景图像捕获模式。在这方面，可以使用记录的视频帧中的一个或者多个视频帧和在确定之后捕获的一个或者多个附加视频帧来生成全景图像。在一些示例中，还可以使用用于在记录的视频帧之间追踪追踪特征的相同技术来生成全景图像。

当历史特征值中的任何一个在这些预定范围外时，这可以指示用户没有正在试图捕获全景图像。在这种情况下，当更新滑动窗口时，计算装置可以继续确定并且评估历史特征值。该更新可以继续直到计算装置已经确定用户正在捕获全景图像或者直到已经记录最大数量的视频帧。最大数量的帧可以基于预定数量的帧(诸如，200个、或者更多或者更少)或者相机等待的时间量(诸如，大约6秒、或者更多或者更少)。

在一些示例中，可以缩小记录的视频帧的大小来减少计算装置所需的处理量。在这方面，记录的视频帧可以包括确定并且映射在记录的视频帧的多个帧之间的追踪特征所必要的更多图形信息。因此，在一些方面中，可以将记录的视频帧缩小大小来减少它们的相应分辨率，并且因此减少各个记录的视频帧的图形信息量。由此，可以显著地减少执行上面描述的方面所需的处理和其它资源。另外，该缩小大小可以影响记录的视频帧的高度和宽度，并且由此影响上面描述的各种特征和值的确定。

图10的流程图1000是可以由诸如客户端装置110、120、130、和140等一个或者多个计算装置执行的上面描述的一些方面的示例流程图。在该示例中，在框1002处，该一个或者多个计算装置可以记录视频帧的集合。如在步骤1004中示出的，然后一个或者多个计算装置可以确定在该视频帧的集合内的追踪特征。如在框1006中示出的，然后可以通过一个或者多个计算装置找到基于帧的特征的集合。如在框1008中示出的，然后一个或者多个计算装置可以基于该基于帧的特征的集合确定历史特征值的集合。如在步骤1010中示出的，一个或者多个计算装置可以确定用户是否正在试图捕获全景图像。

大多数前述的替代示例不是互斥的，而是可以按照各种组合来实施这些示例以实现独特的优点。因为可以在不脱离权利要求书所限定的主题的情况下利用上面描述的特征的这些和其它变型和组合，所以应该通过说明的方式，而不是通过限制权利要求书所限定的主题的方式，来理解对前述实施例的描述。作为示例，不必按照上面描述的精确顺序来实施之前的操作。相反，可以按照不同的顺序或者同时处理各个步骤。除非另有说明，否则还可以省略步骤。另外，对本文描述的示例(以及用“诸如”、“包括”等表达的短语)的提供不应该被解释为将所要求的主题限制为具体示例；相反，示例旨在说明许多可能的实施例中的仅一个实施例。进一步地，在不同附图中，相同的附图标记可以标识相同或者类似的元件。

Claims

1.一种用于捕获全景图像的方法，包括：

利用一个或者多个处理装置，记录视频帧的集合；

利用所述一个或者多个处理装置，确定在所述视频帧的集合内的追踪特征，所述追踪特征的每一个包括在所述视频帧的集合中的两个或者更多个视频帧中出现的、表示一个或者多个特征的像素窗口；

利用所述一个或者多个处理装置，基于在所述视频帧的集合中的所述两个或者更多个视频帧之间所述追踪特征的位移来确定基于帧的特征的集合；

利用所述一个或者多个处理装置，将在所述视频帧的集合中的预定数量的连续视频帧的基于帧的特征的集合进行累加；

利用所述一个或者多个处理装置，基于所述基于帧的特征的集合确定历史特征值的集合，所述历史特征值的集合包括运动量；

其中，所述运动量是通过使用所累加的基于帧的特征的集合、在下述中的至少一个上所述追踪特征的中值位移的最大值来确定的：第一正坐标轴、第一负坐标轴、第二正坐标轴和第二负坐标轴；

利用所述一个或者多个处理装置，基于所述历史特征值的集合来确定用户是否正在试图捕获全景图像；以及

响应于确定所述用户正在试图捕获全景图像，利用所述一个或者多个处理装置捕获全景图像。

2.根据权利要求1所述的方法，其中，确定所述基于帧的特征的集合包括：在所述两个或者更多个视频帧之间，确定下述中的至少一个：所述追踪特征在所述第一正坐标轴和所述第一负坐标轴上的中值位移、所述追踪特征在所述第二正坐标轴和所述第二负坐标轴上的中值位移、以及与所述追踪特征的轴对齐位移的中值角度差。

3.根据权利要求2所述的方法，其中，确定所述追踪特征在所述第一正坐标轴和所述第一负坐标轴上的所述中值位移进一步包括：确定相对于所述第一正坐标轴和所述第一负坐标轴在当前视频帧中和在参考视频帧中的给定追踪特征之间的距离，其中，所述参考视频帧是所述视频帧的集合中在确定所述给定追踪特征的时间处的第一视频帧。

4.根据权利要求2所述的方法，其中，确定所述追踪特征在所述第二正坐标轴和所述第二负坐标轴上的所述中值位移进一步包括：确定相对于所述第二正坐标轴和所述第二负坐标轴在当前视频帧中和在参考视频帧中的给定追踪特征之间的距离，其中，所述参考视频帧是所述视频帧的集合中在确定所述给定追踪特征的时间处的第一视频帧。

5.根据权利要求2所述的方法，其中，确定与所述追踪特征的轴对齐运动的角度差包括：确定所述追踪特征的位移、以及在当前视频帧与参考视频帧之间给定追踪特征的位移的斜边，其中，所述参考视频帧是所述视频帧的集合中在确定所述给定追踪特征的时间处的第一视频帧。

6.根据权利要求2所述的方法，其中，所述历史特征集合包括运动轴对齐，并且所述方法进一步包括：

在确定所述历史特征集合之前，将所述视频帧的集合中的预定数量的连续视频帧的基于帧的特征的集合进行累加；以及

通过以下操作确定所述运动轴对齐：

通过对在所述第一正坐标轴上的所述中值位移与在所述第一负坐标轴上的所述中值位移之间的差值取绝对值，根据所累加的基于帧的特征的集合来确定第一值，

通过对在所述第二正坐标轴上的所述中值位移与在所述第二负坐标轴上的所述中值位移之间的差值取绝对值，根据所累加的基于帧的特征的集合来确定第二值，以及

确定在所述第一值与所述第二值之间的差值的绝对值。

7.根据权利要求2所述的方法，其中，所述历史特征集合包括中值角度，并且所述方法进一步包括：

通过根据所累加的基于帧的特征的集合确定与追踪特征的轴对齐运动的角度差的中值，来确定所述中值角度。

8.根据权利要求1所述的方法，其中，确定所述基于帧的特征的集合进一步包括：通过所述视频帧的集合中的任何视频帧的宽度和高度中的至少一个，对所述基于帧的特征的集合中的每一个特征进行归一化。

9.根据权利要求1所述的方法，其中，所述方法进一步包括：在确定所述追踪特征之前，

缩小所述视频帧的集合的大小；以及

通过所述视频帧的集合中的任何缩小大小的视频帧的缩小宽度和缩小高度中的至少一个，来对所述基于帧的特征的集合中的每一个特征进行归一化。

10.根据权利要求1所述的方法，其中，确定所述用户是否正在试图捕获全景图像进一步包括：确定所述历史特征值的集合是否满足预定阈值的集合。

11.一种用于捕获全景图像的系统，包括：

一个或者多个计算装置；以及

存储指令的存储器，所述指令可由所述一个或者多个计算装置执行；

其中，所述指令包括：

利用一个或者多个计算装置，记录视频帧的集合；

利用所述一个或者多个计算装置，确定在所述视频帧的集合内的追踪特征，所述追踪特征的每一个包括在所述视频帧的集合中的两个或者更多个视频帧中出现的、表示一个或者多个特征的像素窗口；

利用所述一个或者多个计算装置，基于在所述视频帧的集合中的所述两个或者更多个视频帧之间所述追踪特征的位移来确定基于帧的特征的集合；

利用所述一个或者多个计算装置，将在所述视频帧的集合中的预定数量的连续视频帧的基于帧的特征的集合进行累加；

利用所述一个或者多个计算装置，基于所述基于帧的特征的集合确定历史特征值的集合，所述历史特征值的集合包括运动量；

利用所述一个或者多个计算装置，基于所述历史特征值的集合来确定用户是否正在试图捕获全景图像；以及

响应于确定所述用户正在试图捕获全景图像，利用所述一个或者多个计算装置捕获全景图像。

12.根据权利要求11所述的系统，其中，所述指令进一步包括：

确定所述基于帧的特征的集合包括：在所述两个或者更多个视频帧之间，确定下述中的至少一个：所述追踪特征在所述第一正坐标轴和所述第一负坐标轴上的中值位移、所述追踪特征在所述第二正坐标轴和所述第二负坐标轴上的中值位移、以及与所述追踪特征的轴对齐位移的中值角度差。

13.根据权利要求12所述的系统，其中，所述指令进一步包括：

确定所述追踪特征在所述第一正坐标轴和所述第一负坐标轴上的所述中值位移进一步包括：确定相对于所述第一正坐标轴和所述第一负坐标轴在当前视频帧中和在参考视频帧中的给定追踪特征之间的距离，其中，所述参考视频帧是所述视频帧的集合中在确定所述给定追踪特征的时间处的第一视频帧。

14.根据权利要求12所述的系统，其中，所述指令进一步包括：

确定所述追踪特征在所述第二正坐标轴和所述第二负坐标轴上的所述中值位移进一步包括：确定相对于所述第二正坐标轴和所述第二负坐标轴在当前视频帧中和在参考视频帧中的给定追踪特征之间的距离，其中，所述参考视频帧是所述视频帧的集合中在确定所述给定追踪特征的时间处的第一视频帧。

15.根据权利要求12所述的系统，其中，所述指令进一步包括：

确定与所述追踪特征的轴对齐运动的角度差包括：确定所述追踪特征的位移、以及在当前视频帧与参考视频帧之间给定追踪特征的位移的斜边，其中，所述参考视频帧是所述视频帧的集合中在确定所述给定追踪特征的时间处的第一视频帧。

16.根据权利要求12所述的系统，其中，所述历史特征集合包括运动轴对齐，并且所述指令进一步包括：

通过以下操作来确定所述运动轴对齐：

确定在所述第一值与所述第二值之间的差值的绝对值。

17.根据权利要求12所述的系统，其中，所述历史特征集合包括中值角度，并且所述指令进一步包括：

18.一种存储指令的非暂时性计算机可读介质，所述指令当由一个或者多个处理器执行时使所述一个或者多个处理器执行以下的步骤：

记录视频帧的集合；

确定在所述视频帧的集合内的追踪特征，所述追踪特征的每一个包括所述视频帧的集合中的两个或者更多个视频帧中出现的、表示一个或者多个特征的像素窗口；

基于在所述视频帧的集合中的所述两个或者更多个视频帧之间所述追踪特征的位移来确定基于帧的特征的集合；

将在所述视频帧的集合中的预定数量的连续视频帧的基于帧的特征的集合进行累加；

基于所述基于帧的特征的集合确定历史特征值的集合，所述历史特征值的集合包括运动量；

基于所述历史特征值的集合来确定用户是否正在试图捕获全景图像；以及

响应于确定所述用户正在试图捕获全景图像，捕获全景图像。