CN109313506B

CN109313506B - 信息处理装置、信息处理方法和程序

Info

Publication number: CN109313506B
Application number: CN201780036693.1A
Authority: CN
Inventors: 河野真一; 生江拓也; 深泽辽; 杉原贤次; 佐藤大辅
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2016-06-22
Filing date: 2017-06-08
Publication date: 2022-03-08
Anticipated expiration: 2037-06-08
Also published as: EP3477434A1; EP3477434B1; US10922043B2; US20190138261A1; JPWO2017221721A1; EP3477434A4; WO2017221721A1; JP6885402B2; CN109313506A

Abstract

本技术涉及一种信息处理装置、信息处理方法和能够通过用户指向期望目标来获取与所述期望目标相关联的准确信息的程序。所述信息处理装置包括：指示目标检测单元，所述指示目标检测单元检测指示目标，所述指示目标是指示物体所指向的目标；信息生成单元，所述信息生成单元生成说明信息，所述说明信息包括指示所述指示目标的视觉可辨内容的内容信息和指示与所述指示目标相关联的视觉可辨特性的附加信息；以及输出控制单元，所述输出控制单元控制所述说明信息的语音的输出。例如，本技术适用于可穿戴装置。

Description

信息处理装置、信息处理方法和程序

技术领域

本技术涉及一种信息处理装置、信息处理方法和程序，更具体地，涉及一种在通知与指示物体所指向的目标相关联的信息的情况下适合使用的信息处理装置、信息处理方法和程序。

背景技术

例如，在不直接接触物体的情况下，难以利用手指等从远处位置更准确地指向远处物体、较小物体、密集地排列在物体周围的物体中的物体等。因此，例如，在应用检测用户所指向的目标的技术的装置中，被装置识别为用户所指向的物体与被用户识别为所指向的目标可能彼此不匹配。

关于这一点，在相关领域中，提出了一种技术，其中，利用要由用户确认的语音来通知被识别为用户的手指等所指向的目标的名称等(例如，参照专利文献1)。

引用列表

专利文献

专利文献1：日本专利申请特开2013-88906号公报

发明内容

本发明需要解决的问题

然而，在专利文献1所描述的技术中，例如，在用户指向多个未知物体中的一个物体的情况下，可能会发生识别不匹配，并且即使在利用语音通知与被识别为用户所指向的目标不同的物体的名称等时，用户也无法注意到这种情况。

此处，本技术的一个目的允许用户通过指向期望目标来获取与期望目标相关联的准确信息。

问题的解决方案

根据本技术的一个方面，提供了一种信息处理装置，该信息处理装置包括：指示目标检测单元，该指示目标检测单元检测指示目标，该指示目标是指示物体在三维空间中所指向的目标；信息生成单元，该信息生成单元生成说明信息，该说明信息包括指示指示目标的视觉可辨内容的内容信息和指示与指示目标相关联的视觉可辨特性的附加信息；以及输出控制单元，该输出控制单元控制说明信息的语音的输出。

信息生成单元可以将单个指示目标的视觉可辨特性与在指示目标的外围处的视觉可辨特性相比较以控制附加信息的信息量。

信息生成单元可以将附加信息的信息量控制为能够从外围识别指示目标的一定程度。

在单个指示目标的视觉可辨特性与在指示目标的外围处的视觉可辨特性不类似的情况下，信息生成单元可以仅基于单个指示目标的视觉可辨特性来生成附加信息，并且在单个指示目标的视觉可辨特性与在指示目标的外围处的视觉可辨特性类似的情况下，除了单个指示目标的视觉可辨特性之外，还可以基于指示目标的位置和在指示目标的外围处的视觉可辨特性中的至少一个来生成附加信息。

在仅基于单个指示目标的视觉可辨特性来生成附加信息的情况下，信息生成单元允许将在单个指示目标的视觉可辨特性中与指示目标的外围的视觉可辨特性不同的特性优选地包括在附加信息中。

单个指示目标的视觉可辨特性可以包括指示目标的视觉属性。

信息处理装置可以进一步包括翻译单元，该翻译单元将内容信息翻译为预定语言。输出控制单元可以控制以预定语言对说明信息的语音的输出。

内容信息可以指示指示目标的名称、指示目标的类型和指示目标所视觉表示的事物中的至少一个。

指示物体可以是用户的身体的一部分。

信息处理装置可以进一步包括物体检测单元，该物体检测单元执行对通过拍摄指示目标的外围而获得的图像中的物体的检测。指示目标检测单元从图像中的物体中检测指示目标。

根据本技术的另一方面，提供了一种信息处理方法，该信息处理方法包括：检测指示目标的指示目标检测步骤，该指示目标是指示物体所指向的目标；生成说明信息的信息生成步骤，该说明信息包括指示指示目标的视觉可辨内容的内容信息和指示与指示目标相关联的视觉可辨特性的附加信息；以及控制说明信息的语音的输出的输出控制步骤。

根据本技术的又一方面，提供了一种使计算机执行处理的程序，该处理包括：检测指示目标的指示目标检测步骤，该指示目标是指示物体在三维空间中所指向的目标；生成说明信息的信息生成步骤，该说明信息包括指示指示目标的视觉可辨内容的内容信息和指示与指示目标相关联的视觉可辨特性的附加信息；以及控制说明信息的语音的输出的输出控制步骤。

根据本技术的方面，检测指示目标，该指示目标是指示物体在三维空间中所指向的目标，生成说明信息，该说明信息包括指示指示目标的视觉可辨内容的内容信息和指示与指示目标相关联的视觉可辨特性的附加信息，并且控制说明信息的语音的输出。

发明效果

根据本技术的一个方面，可以通过用户指向期望目标来准确地获取与期望目标相关联的信息。

此外，此处描述的效果不受限制，并且可以是本公开所描述的任何一种效果。

附图说明

图1是图示了应用本技术的信息处理系统的实施例的框图。

图2是图示了由信息处理系统执行的信息处理的流程图。

图3是图示了手指指向方式处理的细节的流程图。

图4是图示了指示方向信息获取处理的细节的流程图。

图5是图示了指示方向图像的拍摄范围的示例的视图。

图6是图示了指示方向图像的示例的视图。

图7是图示了检测指示目标的方法的示例的视图。

图8是图示了指示方向信息列表的示例的图表。

图9是图示了附加信息生成处理的细节的流程图。

图10是图示了附加信息的示例的图表。

图11是图示了附加信息的示例的图表。

图12是图示了附加信息的示例的图表。

图13是图示了计算机的配置示例的框图。

具体实施方式

在下文中，将参照附图详细描述用于执行本发明(在下文中，称为“实施例”)的方式。此外，将按照以下顺序来进行描述。

1.实施例

2.修改示例

<1.实施例>

{信息处理系统10的配置示例}

首先，将参照图1描述应用本技术的信息处理系统10的配置示例。

例如，信息处理系统10是安装在用户上或者由用户携带的系统，并且利用预定语言的语音来通知与用户的手指在三维空间中所指向的目标(在下文中，称为“指示目标”)相关联的内容信息。

此处，内容信息是指示视觉可辨的物体内容的信息。例如，内容信息指示物体的名称、物体类型和物体所视觉表示的事物(在下文中，称为“视觉内容”)中的至少一个。此处，视觉内容的示例包括物体所表示的图像(移动图像、静止图像、图形等)、文字和标志以及物体的形状或移动所表示的文字、标志和消息。另外，在物体是人类的情况下，视觉可辨内容的示例包括姿态(诸如，身体语言和交通管制手势)和面部表情。

信息处理系统10包括信息获取单元11、信息处理单元12和输出单元13。

例如，信息获取单元11具有指环形状，并且安装在当用户指向某物时使用的手指(例如，食指)上。信息获取单元11包括拍摄单元21和传感器单元22。

拍摄单元21拍摄用户的手指所指向的方向(在下文中，称为“指示方向”)，并且向信息处理单元12提供从拍摄获得的图像(在下文中，称为“指示方向图像”)。

例如，传感器单元22包括传感器(例如，加速度传感器和陀螺仪传感器)，该传感器配置为检测用户手指的手势、手指的位置、指示方向等。另外，传感器单元22向信息处理单元12提供指示传感器的检测结果的传感器信号。

例如，信息处理单元12由便携式信息终端构成，诸如，智能手机、平板计算机和可穿戴装置。例如，信息处理单元12包括指示目标检测单元31、物体检测单元32、翻译单元33、信息生成单元34、输出控制单元35和通信单元36。

指示目标检测单元31基于从传感器单元22传输的传感器信息来执行对用户在三维空间中所指向的目标的检测。

物体检测单元32执行对指示方向图像中的物体的检测。

翻译单元33执行两种或多种语言之间的翻译。

信息生成单元34生成指示方向信息列表等，该指示方向信息列表指示与存在于用户所指向的方向上的物体相关联的信息。此外，随后将描述指示方向信息列表的细节。另外，信息生成单元34生成说明信息，该说明信息是用于执行对指示目标的说明的信息。例如，说明信息包括指示目标的内容信息以及指示与指示目标相关联的视觉可辨特性的附加信息。

输出控制单元35控制输出单元13的语音的输出。

通信单元36执行信息获取单元11与输出单元13之间的通信。此外，通信单元36的通信方法并不限于预定方法，并且可以使用包括有线方法和无线方法的各种通信方法中的任意方法。另外，信息获取单元11与输出单元13之间的通信方法可以设置为彼此不同的方法。

输出单元13由可以输出语音的装置构成。例如，输出单元13由扬声器、耳机、听筒、声源等构成。

此外，例如，信息处理单元12和输出单元13可以彼此集成。例如，集成装置由颈带型可穿戴装置构成。

{信息处理系统10的处理}

接下来，将参照图2至图12描述信息处理系统10的处理。

首先，将参照图2的流程图描述由信息处理系统10执行的信息处理。此外，例如，当打开信息处理单元12的电源(未示出)时启动处理，并且当关闭电源时结束处理。

在步骤S1中，指示目标检测单元31确定用户是否用手指指向某物。具体地，指示目标检测单元31基于从传感器单元22传输的传感器信号来执行对用户手指的手势的检测。此外，作为手势检测方法，可以使用任意方法。另外，指示目标检测单元31基于检测到的手势来确定用户是否用手指指向某物。重复执行步骤S1中的确定处理，直到确定用户用手指指向某物，例如，在预定间隔内。另外，在确定用户用手指指向某物的情况下，该处理转到步骤S2。

在步骤S2中，信息处理系统10执行手指指向方式处理。此外，将参照图3的流程图描述手指指向方式处理的细节。

在步骤S51中，信息处理单元12执行指示方向信息获取处理。此外，将参照图4的流程图描述指示方向信息获取处理的细节。

在步骤S101中，物体检测单元32检测指示方向图像中的物体。具体地，物体检测单元32从拍摄单元21获取指示方向图像，并且执行图像识别以检测指示方向图像中的物体，即，存在于用户的手指所指向的方向上的预定范围内的物体。另外，物体检测单元32检测所检测到的物体在指示方向图像中的位置和大小、物体类型、物体的视觉内容、物体的视觉特性(例如，颜色和形状)等。另外，物体检测单元32执行对视觉内容所指示的信息的识别。例如，物体检测单元32识别包括在视觉内容中的具体内容，诸如，图像、字符串、标志和消息。

此外，作为物体检测单元32的检测方法，可以使用任意方法。

另外，在下文中，将描述获得图5所示的商业区的风景中的范围D1内的图像作为指示方向图像的情况。此外，在该图中，未图示建筑物的招牌等。

图6示意性地图示了在图5中的范围D1内的指示方向图像121的具体示例。在指示方向图像121中，拍摄了招牌131、招牌132、窗户133以及招牌134至招牌138。此外，指示方向图像121被图示为单色图像。然而，实际上，相应物体都具有颜色。随后将描述相应物体的主要部分的颜色。

在招牌131的右侧，招牌132、招牌135和招牌138排列在垂直方向上。在招牌132的右侧，窗户133和招牌134排列在水平方向上。在招牌135的右侧，招牌136和招牌137排列在水平方向上。窗户133和招牌136排列在垂直方向上。招牌134和招牌137排列在垂直方向上。

招牌131具有矩形形状，并且白色的韩语字符串显示在绿色背景上。该韩语字符串表示“该建筑物的6F”。

招牌132具有矩形形状，并且白色的韩语字符串显示在蓝色背景上。该韩语字符串表示“家常菜的味道”。

窗户133具有近似正方形的形状，并且框架的颜色是灰色的。

招牌134具有矩形形状，并且具有黄色身体的狗的图像(图形)显示在白色背景上。

招牌135至招牌137分别具有椭圆形状，并且白色的韩语字符串显示在蓝色背景上。招牌135上的韩语字符串表示“餐馆”。招牌136上的韩语字符串表示“体育用品”。招牌137上的韩语字符串表示“宠物店”。

招牌138具有矩形形状，并且黑色的韩语字符串显示在黄色背景上。该韩语字符串表示“该建筑物的5楼”。

此外，对于获得图6中的指示方向图像121的情况来说，将描述每种处理的具体示例。

在步骤S102中，指示目标检测单元31检测用户所指向的目标(指示目标)。例如，在由物体检测单元32检测到的物体存在于指示方向图像的中心处的情况下，指示目标检测单元31将物体检测为指示目标。另一方面，在由物体检测单元32检测到的物体未存在于指示方向图像的中心处的情况下，指示目标检测单元31将最接近指示方向图像的中心的物体检测为指示目标。

例如，如图7所示，在指示方向图像121中，招牌135存在于中心区域C1中。因此，招牌135被检测为指示目标。

在步骤S103中，信息生成单元34生成指示方向信息列表。指示方向信息列表是与在指示方向图像中检测到的相应物体相关联的多条信息的列表。

图8图示了基于图6中的指示方向图像121而生成的指示方向信息列表的示例。

指示方向信息列表包括ID、位置、大小、物体类型、内容类型、详细信息和邻近物体的条目。详细信息包括内容信息、翻译信息、前景颜色、背景颜色和形状的条目。

将ID应用于每个物体以唯一地识别每个物体。在该示例中，分别将ID1至ID8应用于招牌131、招牌132、窗户133以及招牌134至138。

位置表示每个物体在指示方向图像中的位置。例如，设置每个物体的中心在指示方向图像中的坐标。

大小表示每个物体在指示方向图像中的大小。例如，设置在指示方向图像中每个物体的长度在垂直方向上的最大值和每个物体的长度在水平方向上的最大值。

物体类型表示由物体检测单元32所检测到的物体的类型。例如，招牌131、招牌132以及招牌134至138的物体类型是“招牌”，并且窗户133的物体类型是“窗户”。

基本上，内容类型表示由物体检测单元32所检测到的每个物体的视觉内容的类型。然而，对于不具有视觉内容的物体来说，视觉内容类型设置为“物体”。例如，招牌131、招牌132和招牌138的内容类型是“句子”。另外，例如，招牌135至招牌137的内容类型是“单词”。此外，在视觉内容中仅包括一个单词的情况下，内容类型设置为“单词”，并且在视觉内容中包括两个或多个单词的情况下，内容类型设置为“句子”。另外，例如，招牌134的内容类型是“图像”。窗户133不具有视觉内容，因此内容类型设置为“物体”。

在内容类型是作为“物体”的物体的情况下，即，在不具有视觉内容的物体的情况下，物体类型设置为内容信息。另一方面，在内容类型是除了“物体”之外的物体的情况下，即，在包括视觉内容的物体的情况下，设置视觉内容的内容。

例如，招牌134包括作为视觉内容的图像，因此作为图像的内容的“狗”设置为内容信息。窗户133不具有视觉内容，因此作为物体类型的“窗户”设置为内容信息。招牌131、招牌132以及招牌135至招牌138包括作为视觉内容的句子或单词，因此句子或单词设置为源语言(在该示例中，韩语)的内容信息。即，在本说明书中，可以分别认为招牌131、招牌132以及招牌135至招牌138的多条内容信息被定义为“招牌131的源语言信息”、“招牌132的源语言信息”、“招牌135的源语言信息”、“招牌136的源语言信息”、“招牌137的源语言信息”和“招牌138的源语言信息”。

被翻译单元33翻译为用于向用户通知内容信息的语言(在下文中，称为“用户语言”)的信息设置为翻译信息。此外，可以认为用户语言与用户语音的语言相同。

作为前景颜色，在多种颜色中设置包括在每个物体的前景中的具体颜色。例如，在招牌131、招牌132以及招牌135至138的情况下，显示在招牌上的文字的颜色设置为前景颜色。在窗户133的情况下，设置作为窗户颜色的“透明色”。在招牌134的情况下，设置作为狗图像的主要颜色的“黄色”。

作为背景颜色，在多种颜色中设置包括在每个物体的背景中的具体颜色。例如，在招牌131、招牌132以及招牌134至招牌138的情况下，设置每个招牌的背景的主要颜色。在窗户133的情况下，例如，设置作为窗户133的框架的颜色的“灰色”。

作为形状，设置每个物体的形状。

作为邻近物体，设置在指示方向图像中的上侧、下侧、左侧和右侧与每个物体邻近的物体的ID。例如，由于招牌132、招牌138、招牌131和招牌136分别在上侧、下侧、左侧和右侧与ID5的招牌135邻近，所以在“邻近物体”的竖栏中的“上”、“下”、“左”和“右”中分别设置ID2、ID8、ID1和ID6。

然后，指示方向信息获取处理结束。

参照图3，在步骤S52中，信息生成单元34执行附加信息生成处理。此外，将参照图9的流程图描述附加信息生成处理的细节。

在步骤S151中，信息生成单元34从指示方向信息列表中所注册的物体中选择未生成附加信息的一个物体。

在步骤S152中，信息生成单元34选择适合于所选择的物体的模板。

此处，例如，该模板配置为机械地生成附加信息，并且针对每种物体类型或者针对物体类型和内容类型的每个组合预先准备模板。

例如，在物体类型是招牌的情况下，可以使用““前景颜色”的“内容类型”显示在“背景颜色”的背景上的具有“形状”的招牌”的模板。

另外，例如，在物体类型是窗户的情况下，可以使用“具有包括“背景颜色”的框架的“前景颜色”和“形状”的窗户”的模板。

此外，指示方向信息列表的相应条目的数据可以应用于模板的“内容类型”、“前景颜色”、“背景颜色”和“形状”。

在步骤S153中，信息生成单元34基于所选择的模板生成附加信息。具体地，信息生成单元34生成将所选择的物体的指示方向信息列表的数据应用于所选择的模板的附加信息。

图10图示了基于图8的指示方向信息列表而生成的附加信息的示例。

例如，对于ID1的招牌131的附加信息来说，背景颜色是绿色的，前景颜色是白色的，内容类型是句子，并且形状是矩形形状，因此附加信息变成“白色”“句子”显示在“绿色”“背景”上的“矩形”招牌。对于ID3的窗户133的附加信息来说，前景颜色是透明色的，背景颜色是灰色的，并且形状是正方形，因此附加信息变成“是“透明色”的并且包括“灰色”框架的“正方形”窗户”。对于ID4的招牌134的附加信息来说，背景颜色是白色的，前景颜色是黄色的，内容类型是图像，并且形状是矩形形状，因此附加信息变成““黄色”“图像”显示在“白色”背景上的“矩形”招牌”。

此外，严格地说，在图10的示例中，附加信息变成除了物体类型(例如，招牌和窗户)之外的一部分。

另外，在此时，仅基于每个单独物体的视觉可辨特性来生成每个物体的附加信息。即，在此时，基于每个物体的视觉属性(诸如，颜色和形状)来生成每个物体的附加信息。

在步骤S154中，信息生成单元34确定是否生成了所有物体的附加信息。在确定尚未生成所有物体的附加信息的情况下，该处理返回到步骤S151。

然后，在步骤S154中，重复执行从步骤S151到S154的处理，直到确定生成了所有物体的附加信息。根据该配置，生成了指示方向信息列表中所注册的所有物体的附加信息。

另一方面，在步骤S154中，在确定生成了所有物体的附加信息的情况下，该处理转到步骤S155。

在步骤S155中，信息生成单元34确定是否存在类似附加信息。在确定存在类似附加信息的情况下，该处理转到步骤S156。

例如，在图10中的示例的情况下，ID5至ID7的招牌135至招牌137的附加信息类似，因此确定存在类似附加信息。

此外，即使在附加信息中未建立完全匹配的情况下，例如，在仅“前景颜色”或“背景颜色”是不同的并且其颜色彼此类似的情况下、在仅“形状”是不同的情况下以及在形状彼此类似的情况下等，也确定存在类似附加信息。

在步骤S156中，信息生成单元34从类似附加信息的组合中选择一个集合。即，在存在类似附加信息的组合的多个集合的情况下，信息生成单元34从组合中选择一个集合。另一方面，在仅存在类似附加信息的组合的一个集合的情况下，信息生成单元34选择这些组合。

在步骤S157中，信息生成单元34添加用于区分类似附加信息的信息。

例如，信息生成单元34基于每个物体的位置添加信息以使类似附加信息不类似。例如，信息生成单元34通过使用““附加信息”中“方向”的“第“顺序”个物体”的类型”的模板来将位置信息添加到每种类似附加信息中的多条信息。

此外，在添加每个物体的新信息之前的附加信息应用于模板的“附加信息。”基于指示方向信息列表中的“邻近物体”的数据来设置“方向”和“顺序”。指示方向信息列表中的“物体类型”的数据应用于“物体类型”。

图11图示了将位置信息添加到图10中的附加信息以使ID5至ID7的招牌135至招牌137的附加信息不类似的示例。

例如，附加信息类似的招牌135至招牌137排列在水平方向上。另外，在招牌135至招牌137中，招牌135是左边第一个招牌，招牌136是左边第二个招牌，并且招牌137是左边第三个招牌。

因此，基于模板，将招牌135的附加信息更新为“在“白色”“单词”显示在“蓝色”背景上的“椭圆”招牌中“左边”的“第一个”“招牌””。将招牌136的附加信息更新为“在“白色”“单词”显示在“蓝色”背景上的“椭圆”招牌中“左边”的“第二个”“招牌””。将招牌137的附加信息更新为“在“白色”“单词”显示在“蓝色”背景上的“椭圆”招牌中“左边”的“第三个”“招牌””。

可替代地，例如，信息生成单元34添加指示在每个物体的外围处的视觉可辨特性的信息以使附加信息不类似。例如，信息生成单元34通过使用“在“多条附加信息”中，物体类型具有“与在“方向”上邻近的物体相关联的信息””的模板来将与彼此邻近的物体相关联的信息添加到相应的类似附加信息。

此外，在添加每个物体的新信息之前的附加信息应用于模板的“附加信息”。基于指示方向信息列表中的“邻近物体”的数据来设置“方向”。“与邻近的物体相关联的信息”指示彼此邻近的物体的类型、其特性等，并且基于在指示方向信息列表中所注册的邻近物体的“物体类型”、“内容类型”、“前景颜色”、“背景颜色”和“形状”中的一个或多个组合来设置。此外，优选地，与在彼此邻近的物体中具体具有视觉特性的物体相关联的信息设置为“与邻近的物体相关联的信息”。指示方向信息列表中的“物体类型”的数据应用于“物体类型”。

图12图示了将与彼此邻近的物体相关联的信息添加到图10中的附加信息以使ID5至ID7的招牌135至招牌137的附加信息不类似的示例。

例如，具有绿色背景的招牌131存在于招牌135的左边。此处，将招牌135的附加信息更新为“在“白色”“单词”显示在“蓝色”背景上的“椭圆”招牌中“绿色招牌”存在于“左边”的招牌”。

另外，例如，窗户133存在于招牌136的上侧，并且不存在其它窗户。此处，将招牌136的附加信息更新为“在“白色”“单词”显示在“蓝色”背景上的“椭圆”招牌中“窗户”存在于“上侧”的招牌”。

另外，例如，显示黄色狗图像的招牌134存在于招牌137的上侧。此处，将招牌137的附加信息更新为“在“白色”“单词”显示在“蓝色”背景上的“椭圆”招牌中“黄色图像”存在于“上侧”的招牌”。

此外，严格地说，在图11和图12的示例中，附加信息是除了物体类型(例如，招牌和窗户)之外的一部分。

通过这种方式，与在招牌135至招牌137中一样，在单独物体的视觉可辨特性与在物体的外围处的视觉可辨特性类似的情况下，除了单独物体的视觉可辨特性之外，还基于物体的位置、在物体的外围处的视觉可辨特性中的至少一个来生成附加信息。另一方面，与在招牌131、招牌132、窗户133、招牌134和招牌138中一样，在单独物体的视觉可辨特性与在物体的外围处的视觉可辨特性不类似的情况下，仅基于单独物体的视觉可辨特性来生成附加信息。

返回到图9，在步骤S157中的处理之后，该处理返回到步骤S155。

然后，在步骤S155中，重复执行步骤S155至S157的处理，直到确定不存在类似附加信息。

另一方面，在步骤S155中，在确定不存在类似附加信息的情况下，附加信息生成处理结束。

返回到图3，在步骤S53中，指示目标检测单元31确定是否确定了用户所指向的目标。例如，在指示目标未改变的状态的持续时间少于预定时间的情况下，指示目标检测单元31确定尚未确定用户所指向的目标，并且该处理转到步骤S54。

在步骤S54中，指示目标检测单元31确定是否给出了用于解除手指指向方式的指令。具体地，与在图2的步骤S1中的处理中一样，指示目标检测单元31基于从传感器单元22传输的传感器信号来执行对用户手指的手势的检测，并且检测是否执行了给出用于解除手指指向方式的指令的手势。例如，给出用于解除手指指向方式的指令的手势可以停止手指指向手势或者做出预定手指形状。另外，在未执行给出用于解除手指指向方式的指令的手势的情况下，指示目标检测单元31确定未给出用于解除手指指向方式的指令，并且该处理返回到步骤S51。

然后，重复执行步骤S51至S54中的处理，直到在步骤S53中确定确定了用户所指向的目标，或者在步骤S54中确定给出了用于解除手指指向方式的指令。

另一方面，例如，在指示目标未改变的状态的持续时间等于或长于预定时间的情况下，在步骤S53中，指示目标检测单元31确定确定了用户所指向的目标，并且该处理转到步骤S55。

在步骤S55中，输出控制单元35生成用户所指向的目标的说明信息。例如，输出控制单元35根据用户所指向的目标(指示目标)是否包括视觉内容通过使用不同的模板来生成说明信息。

例如，在指示目标的内容类型是“物体”的情况下，即，指示目标不具有视觉内容，输出控制单元35通过使用“这是“附加信息””的模板来生成说明信息。

此外，每个物体的附加信息应用于模板的“附加信息”。

例如，在指示目标是窗户133的情况下，窗户133的内容类型是“物体”，因此可以使用模板。另外，通过使用与图11或图12中的ID3的窗户133相对应的附加信息来生成“这是“透明色的并且其框架是灰色的正方形窗户””的说明信息。

另外，例如，在指示目标的内容类型是除了“物体”之外的类型的情况下，即，在指示目标具有视觉内容的情况下，输出控制单元35基于“附加信息是“翻译信息””的模板来生成说明信息。

此外，每个物体的附加信息应用于模板的“附加信息”。指示方向信息列表的“翻译信息”的数据应用于“翻译信息”。

例如，在指示目标是招牌135的情况下，招牌135的内容类型是“单词”，因此可以使用模板。另外，通过使用图8中的ID5的翻译信息的数据和图11中的ID5的附加信息来生成““在白色单词显示在蓝色背景上的椭圆招牌中左边的第一个招牌”是“餐馆””的说明信息。可替代地，通过使用图8中的ID5的翻译信息的数据和图12中的ID5的附加信息来生成““在白色单词显示在蓝色背景上的椭圆招牌中绿色招牌存在于左侧的招牌”是“餐馆””的说明信息。

在步骤S56中，输出单元13在输出控制单元35的控制下输出在步骤S55中的处理中生成的说明信息的语音。

根据该配置，用户可以基于附加信息准确地理解信息处理系统10所识别的指示目标，并且用户可以准确地确定指示目标是否与被识别为用户所指向的目标相匹配。另外，即使在将信息以无法理解的韩语显示在当前的指示目标上的情况下，用户也可以获得可以理解的语言(即，用户语言)的信息。

例如，如果未应用附加信息，即使在输出招牌上的字符串的翻译语音时，用户也可能难以确信与期望招牌相对应的翻译内容。另外，例如，即使在输出与期望招牌不同的招牌上的字符串的翻译语音时，用户也可能无法注意到这种情况。

另一方面，当应用附加信息时，用户可以准确地确定招牌上的字符串的翻译语音的内容是否对应于期望招牌。另外，例如，即使在输出与期望招牌不同的招牌上的字符串的翻译语音时，用户也能容易地注意到这种情况。

然后，手指指向方式处理结束。

另一方面，在步骤S54中，在确定给出了用于解除手指指向方式的指令的情况下，跳过步骤S55和S56中的处理，并且结束手指指向方式处理。

返回到图2，该处理返回到步骤S1，并且执行步骤S1和后续步骤中的处理。

如上所述，用户可以仅通过指向期望目标来获取期望目标的准确的内容信息。

<2.修改示例>

在下文中，将描述本技术的实施例的修改示例。

{与本技术的应用范围有关的修改示例}

本技术的应用范围并不限于上述示例。

例如，在本技术中，成为指示目标的物体不一定要是一个物体的整体，并且可以是物体的一部分。例如，在一个招牌上显示多个字符串或图像的情况下，多个字符串或图像中的一部分可以被指定为指示目标。另外，例如，较大目标(诸如，建筑物)的一部分可以被指定为指示目标。

另外，已经描述了将远处招牌等指出为本技术的应用情况的情况的示例。然而，本技术还适用于通过使用指示物体以非接触方式指向期望位置的各种情况。这些情况的示例包括：指向在博物馆等的陈列柜中的期望位置的情况、指向由于限制进入而难以接近的位置中的期望位置的情况、指向在瞭望塔前面的风景中的期望位置的情况、指向由于污染而难以直接接触的物体的期望位置的情况、指向禁止接触的物体的期望位置的情况和在演讲会等中从远处位置指向期望位置的情况。

另外，例如，本技术还适用于通过与目标直接接触来指向期望位置的情况。例如，本技术还适用于使手指等与显示装置(诸如，显示器)的屏幕直接接触以指向显示在屏幕上的图像中的期望位置的情况。具体地，在图像较小并因此难以准确地指向单独目标的情况下，增强本技术的应用效果。

{与系统的配置示例有关的修改示例}

图1中的信息处理系统10的配置示例仅是说明性的，并且可以根据需要变化。

例如，可以在信息获取单元11或输出单元13中提供信息处理单元12的部分功能。另外，例如，信息获取单元11、信息处理单元12和输出单元13中的两个或多个可以彼此集成。另外，例如，可以通过不同于信息获取单元11、信息处理单元12和输出单元13的组合来配置信息处理系统10的组成元件。

另外，例如，可以在外部提供信息处理系统10的部分功能。

{与附加信息有关的修改示例}

生成附加信息的方法并不限于上述示例，并且还可以使用其它方法。

例如，可以在不使用模板的情况下通过将指示目标与在指示目标的外围处的视觉可辨特性相比较来控制附加信息的信息量。例如，可以将附加信息的信息量控制为能够从外围识别指示目标的一定程度。

具体地，例如，在基于单独指示目标的视觉可辨特性生成附加信息的情况下，在单独指示目标的视觉可辨特性中，可以将与在指示目标的外围处的视觉可辨特性不同的特性优选地包括在附加信息中。具体地，在单独指示目标的视觉可辨特性中，可以将与指示目标的外围视觉差异较大的特性优选地包括在附加信息中。例如，在外围处不存在具有与指示目标的颜色类似的颜色的物体的情况下，仅可以将指示目标的颜色包括在附加信息中。另外，在外围处不存在具有与指示目标的颜色和形状的组合类似的颜色和形状的组合的物体的情况下，仅可以将指示目标的颜色和形状包括在附加信息中。

另外，在将在指示目标的外围处的视觉可辨特性添加到附加信息的情况下，在指示目标的外围处的视觉可辨特性中，可以将与其它特性相比具有较大视觉差异的特性优选地添加到附加信息中。

另外，例如，可以在不使用单独指示目标的视觉可辨特性的情况下仅基于在指示目标的外围处的视觉可辨特性来生成附加信息。例如，在视觉上引人注目的物体B存在于作为指示目标的物体A的左边的情况下，可以生成附加信息，诸如，“物体B存在于左边的物体A”。

另外，如上所述，作为包括在附加信息中的信息，可以例证单独指示目标的视觉可辨特性、指示目标的位置和在指示目标的外围处的视觉可辨特性，但是包括在附加信息中的信息类型并不限于该示例。

单独指示目标的视觉可辨特性的示例包括指示目标的视觉属性(例如，颜色、形状和图案)、指示目标的移动、视觉属性的变化和材料。指示目标的位置的示例包括指示目标的绝对位置和指示目标与邻近物体之间的相对位置等。在指示目标的外围处的视觉可辨特性的示例包括在指示目标的外围处的物体及其视觉可辨特性和在指示目标的外围处的视觉可辨情况。例如，将“餐馆有一行人”中的一部分“有一行人”分类为在餐馆的外围处的视觉可辨特性，而不是单独餐馆的视觉可辨特性。

{与指示目标的检测方法有关的修改示例}

已经描述了基于由安装在用户的手指上的信息获取单元11的拍摄单元21拍摄的指示方向图像来检测用户的手指所指向的指示目标的示例，并且可以通过另一方法检测指示目标。

例如，拍摄指示用户所指向的方向的指示方向图像的拍摄单元可以安装在除了用户的手指之外的部分(例如，头部)上，并且可以另外提供拍摄用户的拍摄单元。在这种情况下，例如，指示目标检测单元31通过检测用户手指的位置和方向等基于通过拍摄用户而获得的图像来检测用户在三维空间中所指向的方向(在下文中，称为“空间指示方向”)。另外，指示目标检测单元31基于空间指示方向来检测指示方向图像中用户所指向的指示目标。

此外，在拍摄指示方向图像的拍摄单元安装在除了用户的手指之外的部分上的情况下，拍摄方向和用户所指向的方向可能在一些情况下彼此不匹配。与之相反，例如，指示目标检测单元31可以通过使用同步定位与地图构建(SLAM)基于指示方向图像来创建用户的外围的空间图，并且可以基于空间图和空间指示方向来检测指示目标。

另外，例如，拍摄指示方向图像的拍摄单元可以在不安装在用户上的情况下与用户分开设置。

{与指示物体有关的修改示例}

作为能够应用于本技术的指示物体，可以使用任意指示物体，只要指示物体可以指向期望位置。例如，除了用户的手指之外的身体的一部分(诸如，眼睛、手部、面部、面部的一部分、手臂和手臂的一部分)可以用作指示物体，并且可以使用该部分通过手势等来指向期望位置。另外，例如，指向装置(诸如，激光指向器)和诸如虚拟现实(VR)装置等装置可以用作指示物体。此外，例如，在使用VR装置作为指示物体的情况下，例如，可以通过VR装置的方向来指向期望方向。

{与指示方向信息列表有关的修改示例}

指示方向信息列表的条目并不限于上述示例，并且可以根据需要变化。例如，详细信息可以包括除了每个物体的颜色和形状之外的视觉特性(例如，图案和材料)。

另外，将物体类型和内容类型分类的方法并不限于上述示例，并且可以根据需要变化。

另外，例如，与在倾斜方向上邻近的物体相关联的信息可以添加到指示方向信息列表，并且与在倾斜方向上邻近的物体相关联的信息可以添加到附加信息。

{其它修改示例}

已经描述了将指示目标的内容信息从韩语翻译为用户语言的示例，但是翻译语言的组合并不限于该示例。另外，例如，翻译目标语言(用于通知用户的语言)可以由用户设置。

另外，例如，立刻以包括在指示目标的视觉内容中的源语言(例如，韩语)生成附加信息、说明信息等，并且可以从源语言翻译为用于通知说明信息的语言(例如，用户语言)。

另外，例如，说明信息的文本数据可以代替说明信息的语音显示在显示器等上。

{计算机的配置示例}

可以由硬件或软件来执行上述一系列处理。在由软件执行一系列处理的情况下，构成软件的程序安装在计算机中。此处，例如，计算机的示例包括设置有专用硬件的计算机以及能够通过安装各种程序来执行各种功能的通用个人计算机。

图13是图示了通过程序执行上述一系列处理的计算机硬件的配置示例的框图。

在计算机中，中央处理单元(CPU)301、只读存储器(ROM)302和随机存取存储器(RAM)303通过总线304彼此连接。

另外，输入/输出接口305连接至总线304。输入单元306、输出单元307、存储单元308、通信单元309和驱动器310连接至输入/输出接口305。

输入单元306包括键盘、鼠标、麦克风等。输出单元307包括显示器、扬声器等。存储单元308包括硬盘、非易失性存储器等。通信单元309包括网络接口等。驱动器310驱动可移动介质311，诸如，磁盘、光盘、磁光盘和半导体存储器。

在具有上述配置的计算机中，例如，CPU 301通过输入/输出接口305和总线304将存储在存储单元308中的程序加载到RAM 303中并且执行该程序，从而执行上述一系列处理。

例如，可以在作为封装介质记录在可移动介质311中的状态下等提供由计算机(CPU 301)执行的程序。另外，可以通过有线或无线传输介质来提供程序，诸如，局域网、互联网和数字卫星广播。

在计算机中，当可移动介质311安装在驱动器310中时，程序可以通过输入/输出接口305安装在存储单元308中。另外，程序可以由通信单元309通过有线或无线传输介质接收，并且可以安装在存储单元308中。另外，程序可以预先安装在ROM 302或存储单元308中。

此外，由计算机执行的程序可以是根据本说明书所描述的过程按时间序列执行处理的程序，或者可以是并行或在必要时(诸如，当进行呼叫时)执行处理的程序。

另外，多个计算机可以彼此协同执行上述处理。另外，计算机系统可以由执行上述处理的单个或多个计算机构成。

另外，在本说明书中，系统表示多个组成元件(装置、模块(部件)等)的组件，并且组成元件的整体是否存在于同一外壳中并不重要。因此，容纳在单个外壳中并且通过网络连接的所有多个装置以及多个模块容纳在一个外壳中的一个装置都表示系统。

另外，本技术的实施例并不限于上述实施例，并且可以在不脱离本技术的主旨的范围内进行各种修改。

例如，本技术可以具有云计算配置，其中，一个功能由多个装置共享并且通过网络协同处理。

另外，除了由一个装置执行之外，流程图所描述的相应步骤可以在由多个装置共享的状态下执行。

另外，在多种处理包括在一个步骤中的情况下，除了由一个装置执行之外，包括在一个步骤中的多种处理可以在由多个装置共享的状态下执行。

另外，本说明中所描述的效果仅是说明性的，并且可以提供其它效果。

另外，例如，本技术还可以使用以下配置。

(1)

一种信息处理装置，该信息处理装置包括：

指示目标检测单元，该指示目标检测单元检测指示目标，该指示目标是指示物体在三维空间中所指向的目标；

信息生成单元，该信息生成单元生成说明信息，该说明信息包括指示指示目标的视觉可辨内容的内容信息和指示与指示目标相关联的视觉可辨特性的附加信息；以及

输出控制单元，该输出控制单元控制说明信息的语音的输出。

(2)

根据(1)的信息处理装置，

其中，信息生成单元将单个指示目标的视觉可辨特性与在指示目标的外围处的视觉可辨特性相比较以控制附加信息的信息量。

(3)

根据(2)的信息处理装置，

其中，信息生成单元将附加信息的信息量控制为能够从外围识别指示目标的一定程度。

(4)

根据(3)的信息处理装置，

其中，在单个指示目标的视觉可辨特性与在指示目标的外围处的视觉可辨特性不类似的情况下，信息生成单元仅基于单个指示目标的视觉可辨特性来生成附加信息，并且在单个指示目标的视觉可辨特性与在指示目标的外围处的视觉可辨特性类似的情况下，除了单个指示目标的视觉可辨特性之外，还基于指示目标的位置和在指示目标的外围处的视觉可辨特性中的至少一个来生成附加信息。

(5)

根据(4)的信息处理装置，

其中，在仅基于单个指示目标的视觉可辨特性来生成附加信息的情况下，信息生成单元允许将在单个指示目标的视觉可辨特性中与指示目标的外围的视觉可辨特性不同的特性优选地包括在附加信息中。

(6)

根据(1)至(5)中任一项的信息处理装置，

其中，单个指示目标的视觉可辨特性包括指示目标的视觉属性。

(7)

根据(1)至(6)中任一项的信息处理装置，该信息处理装置进一步包括：

翻译单元，该翻译单元将内容信息翻译为预定语言，

其中，输出控制单元控制以预定语言对说明信息的语音的输出。

(8)

根据(1)至(7)中任一项的信息处理装置，

其中，内容信息指示指示目标的名称、指示目标的类型和指示目标所视觉表示的事物中的至少一个。

(9)

根据(1)至(8)中任一项的信息处理装置，

其中，指示物体是用户的身体的一部分。

(10)

根据(1)至(9)中任一项的信息处理装置，该信息处理装置进一步包括：

物体检测单元，该物体检测单元执行对通过拍摄指示目标的外围而获得的图像中的物体的检测，

其中，指示目标检测单元从图像中的物体中检测指示目标。

(11)

一种信息处理方法，该信息处理方法包括：

检测指示目标的指示目标检测步骤，该指示目标是指示物体在三维空间中所指向的目标；

生成说明信息的信息生成步骤，该说明信息包括指示指示目标的视觉可辨内容的内容信息和指示与指示目标相关联的视觉可辨特性的附加信息；以及

控制说明信息的语音的输出的输出控制步骤。

(12)

一种使计算机执行处理的程序，该处理包括：

控制说明信息的语音的输出的输出控制步骤。

附图标记列表

10 信息处理系统

11 信息获取单元

12 信息处理单元

13 输出单元

21 拍摄单元

22 传感器单元

31 指示目标检测单元

32 物体检测单元

33 翻译单元

34 信息生成单元

35 输出控制单元。

Claims

1.一种信息处理装置，所述信息处理装置包括：

指示目标检测单元，所述指示目标检测单元检测指示目标，所述指示目标是指示物体在三维空间中所指向的目标；

信息生成单元，所述信息生成单元生成说明信息，所述说明信息包括指示所述指示目标的视觉可辨内容的内容信息和指示与所述指示目标相关联的视觉可辨特性的附加信息；以及

输出控制单元，所述输出控制单元控制所述说明信息的语音的输出，

其中，所述信息生成单元将所述指示目标的所述视觉可辨特性与在所述指示目标的外围处的视觉可辨特性相比较以控制所述附加信息的信息量。

2.根据权利要求1所述的信息处理装置，

其中，所述信息生成单元将所述附加信息的所述信息量控制为一定程度，以使得能够从所述外围识别所述指示目标。

3.根据权利要求2所述的信息处理装置，

其中，在所述指示目标的所述视觉可辨特性与在所述指示目标的所述外围处的所述视觉可辨特性不类似的情况下，所述信息生成单元仅基于所述指示目标的视觉可辨特性来生成所述附加信息，并且在所述指示目标的所述视觉可辨特性与在所述指示目标的所述外围处的所述视觉可辨特性类似的情况下，除了所述指示目标的所述视觉可辨特性之外，还基于所述指示目标的位置和在所述指示目标的所述外围处的所述视觉可辨特性中的至少一个来生成所述附加信息。

4.根据权利要求3所述的信息处理装置，

其中，在仅基于所述指示目标的所述视觉可辨特性来生成所述附加信息的情况下，所述信息生成单元允许将在所述指示目标的所述视觉可辨特性中与所述指示目标的所述外围的所述视觉可辨特性不同的特性包括在所述附加信息中。

5.根据权利要求1所述的信息处理装置，

其中，所述指示目标的所述视觉可辨特性包括所述指示目标的视觉属性。

6.根据权利要求1所述的信息处理装置，所述信息处理装置进一步包括：

翻译单元，所述翻译单元将所述内容信息翻译为预定语言，

其中，所述输出控制单元控制以所述预定语言对所述说明信息的所述语音的输出。

7.根据权利要求1所述的信息处理装置，

其中，所述内容信息指示所述指示目标的名称、所述指示目标的类型和所述指示目标所视觉表示的事物中的至少一个。

8.根据权利要求1所述的信息处理装置，

其中，所述指示物体是用户的身体的一部分。

9.根据权利要求1所述的信息处理装置，所述信息处理装置进一步包括：

物体检测单元，所述物体检测单元执行对通过拍摄所述指示目标的外围而获得的图像中的物体的检测，

其中，所述指示目标检测单元从所述图像中的物体中检测所述指示目标。

10.一种信息处理方法，所述信息处理方法包括：

检测指示目标的指示目标检测步骤，所述指示目标是指示物体在三维空间中所指向的目标；

生成说明信息的信息生成步骤，所述说明信息包括指示所述指示目标的视觉可辨内容的内容信息和指示与所述指示目标相关联的视觉可辨特性的附加信息；以及

控制所述说明信息的语音的输出的输出控制步骤，

其中，在所述信息生成步骤中，将所述指示目标的所述视觉可辨特性与在所述指示目标的外围处的视觉可辨特性相比较以控制所述附加信息的信息量。

11.一种计算机可读存储介质，其上存储有计算机可执行程序，当所述计算机可执行程序被计算机执行时，使所述计算机执行处理，所述处理包括：

指示目标检测步骤，所述指示目标检测步骤检测指示目标，所述指示目标是指示物体在三维空间中所指向的目标；

信息生成步骤，所述信息生成步骤生成说明信息，所述说明信息包括指示所述指示目标的视觉可辨内容的内容信息和指示与所述指示目标相关联的视觉可辨特性的附加信息；以及

输出控制步骤，所述输出控制步骤控制所述说明信息的语音的输出，