WO2023246537A1

WO2023246537A1 - 导航、视觉定位以及导航地图构建方法和电子设备

Info

Publication number: WO2023246537A1
Application number: PCT/CN2023/099610
Authority: WO
Inventors: 冯文森; 何庭波; 李江; 张朋; 葛建阁; 唐少华; 刘进学; 曾继平
Original assignee: 华为技术有限公司
Priority date: 2022-06-22
Filing date: 2023-06-12
Publication date: 2023-12-28
Also published as: CN117333638A

Abstract

本申请实施例提供了一种导航、视觉定位及导航地图构建方法和电子设备，应用于数据处理领域。该导航方法包括：首先，获取用户在增强现实AR地图中输入的位置搜索信息，位置搜索信息包括以下至少一种：文本、语音或图像；接着，基于位置搜索信息，在预设的多模态信息中进行多模态搜索，以确定位置搜索信息匹配的位置搜索结果；随后，根据位置搜索结果进行AR视觉导航。这样，相对于现有技术仅能输入文本进行导航而言，本申请可以支持用户输入多种模态的位置搜索信息，导航搜索的输入方式多样，能够提高用户导航体验。

Description

导航、视觉定位以及导航地图构建方法和电子设备

本申请要求于2022年06月22日提交中国国家知识产权局、申请号为202210709970.3、申请名称为“导航、视觉定位以及导航地图构建方法和电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及数据处理领域，尤其涉及一种导航、视觉定位以及导航地图构建方法和电子设备。

背景技术

AR(Augmented Reality，增强现实)地图是基于空间计算技术的商业应用之一，可以提供全息信息展示(可以让用户看到各类虚实融合的信息标牌及其详细介绍)，智能搜索(可以让用户能轻松找到传说中的网红打卡点、最近的洗手间等)，AR视觉导航(可以让用户实时直观地看到AR效果的导航)以及AR交互(可以让用户与虚拟角色合影、在AR世界中参与丰富多彩的虚拟活动等)等等功能。

目前，在使用AR地图进行智能搜索的过程中，只能输入文本进行搜索，如输入景点名称(如**公园)，商店名称(如**黄金)，建筑名称(如**大厦)等等；搜索的输入方式单一，用户体验不佳。

发明内容

为了解决上述技术问题，本申请提供一种导航、视觉定位以及导航地图构建方法和电子设备。在该导航方法中，可以支持用户输入多模态位置搜索信息，然后根据用户在AR地图中输入的多模态的位置搜索信息，为用户提供AR视觉导航；这样，能够增加导航搜索输入方式多样，提高用户导航体验。

第一方面，本申请实施例提供一种导航方法，该方法包括：首先，获取用户在增强现实AR地图中输入的位置搜索信息，位置搜索信息包括以下至少一种：文本、语音或图像；接着，基于位置搜索信息，在预设的多模态信息中进行多模态搜索，以确定位置搜索信息匹配的位置搜索结果；随后，根据位置搜索结果进行AR视觉导航。这样，相对于现有技术仅能输入文本进行导航而言，本申请可以支持用户输入多种模态的位置搜索信息，导航搜索的输入方式多样，能够提高用户导航体验。

示例性的，位置搜索信息也可以是文本和语音，或者文本和图像，或者语音和图像，或者文本、语音和图像，本申请对此不作限制。

示例性的，AR地图可以是设备中的应用程序或小程序，本申请对此不作限制。

示例性的，位置搜索结果可以是一个，也可以是多个。当位置搜索结果为多个时，可以根据用户选择的位置搜索结果进行AR视觉导航；也可以按照预设规则(如与用户距离最近，评价最好等)选取一个位置搜索结果进行AR视觉导航；本申请对此不作限制。

根据第一方面，多模态信息包括多个实体的实体标识信息，实体标识信息包括实体标识文本和/或实体标识图像；基于位置搜索信息，在预设的多模态信息中进行多模态搜索，以确定位置搜索信息匹配的位置搜索结果，包括：对位置搜索信息进行特征提取，以得到位置搜索信息对应的第一特征；对多个实体标识信息进行特征提取，以得到多个实体标识信息分别对应的第二特征；确定多个实体标识信息分别对应的第二特征，与第一特征之间的第一特征距离；从多个实体标识信息中，选取对应第一特征距离小于第一距离阈值的实体标识信息作为位置搜索结果。

这样，可以实现跨模态搜索，即当位置搜索信息为文本或图像时，从预设的多模态信息包含的实体标识文本和实体标识图像中进行搜索，以查找与位置搜索信息匹配的实体标识文本和/或实体标识图像，作为位置搜索结果。当位置搜索信息为语音时，可以先进行语音识别，得到识别文本；再从预设的多模态信息包含的实体标识文本和实体标识图像中进行搜索，以查找与位置搜索信息匹配的实体标识文本和/或实体标识图像作为位置搜索结果；进而实现图像和文本之间相互搜索。这样，可以实现“模糊”搜索，进而能够尽可能覆盖比较全面的实体标识信息，避免出现遗漏。

示例性的，多模态搜索还可以包括同模态搜索。示例性的，同模态搜索的过程可以如下：当位置搜索信息为文本时，可以从预设的多模态信息所包含的实体标识文本中进行搜索，以查找与位置搜索信息匹配的实体标识文本，作为位置搜索结果。当位置搜索信息为语音时，可以先进行语音识别，得到识别文本；再从预设的多模态信息所包含的实体标识文本中进行搜索，以查找与识别文本匹配的实体标识文本，作为位置搜索结果。当位置搜索信息为图像时，可以从预设的多模态信息所包含的实体标识图像中进行搜索，查找与位置搜索信息匹配的实体标识图像，作为位置搜索结果。

根据第一方面，或者以上第一方面的任意一种实现方式，位置搜索信息包括以下至少一种：实体名称文本、实体名称语音或实体图像；实体包括：场所和/或场所包含的对象。这样，AR地图除了可以在用户输入场所名称文本/场所名称语音/场所图像时为用户提供AR视觉导航之外，还可以在用户输入对象图像或对象名称文本或对象名称语音时为用户提供AR视觉导航。进而，能够快速引导用户至自身所期望的实体的位置。

例如，场所为超市，场所包含的对象为超市售卖的商品；这样，无论用户输入的是超市的名称/图像，还是超市内售卖的商品的名称/图像，AR地图都可以快速引导用户至自身所期望的超市的位置。

例如，场所为动物园，场所包含的对象为动物园内的动物；这样，无论用户输入的是动物园的名称/图像，还是动物园内动物的名称/图像，AR地图都可以快速引导用户至自身所期望的动物园的位置。

根据第一方面，或者以上第一方面的任意一种实现方式，确定多个实体标识信息分别对应的第二特征，与第一特征之间的第一特征距离，包括：针对多个实体标识信息中第一实体标识信息，第一实体标识信息包括实体标识文本和实体标识图像：将第一实体标识信息包含的实体标识文本所对应的第二特征与第一特征之间的第一特征距离，与第一实体标识信息包含的实体标识图像所对应的第二特征与第一特征之间的第一特征距离进行加权计算；将加权计算的结果，作为第一实体标识信息对应的第二特征与第一特征之间的第一特征距离。

根据第一方面，或者以上第一方面的任意一种实现方式，根据位置搜索结果进行AR视觉导航，包括：基于预先生成的2D视觉导航地图，生成用户的当前位置和位置搜索结果对应目标位置之间的2D导航路径；进行视觉定位，以确定目标位姿，目标位姿是指设备的当前位姿；基于2D导航路径和目标位姿，进行AR视觉导航。

示例性的，采集第一图像时设备可以是手机，也可以是AR设备等可以采集图像的设备，本申请对此不作限制。

根据第一方面，或者以上第一方面的任意一种实现方式，进行视觉定位，以确定目标位姿，包括：采集第一图像；提取第一图像中的第一文本和提取第一图像的第一全局特征向量；基于第一文本、第一全局特征向量以及预设的多张第二图像中的第二文本和多张第二图像的第二全局特征向量进行图像检索，以从多张第二图像中选取第一图像匹配的第三图像，多张第二图像是在构建视觉定位地图过程中采集的，2D视觉导航地图是基于视觉定位地图生成的；基于第一图像和第三图像，确定目标位姿，目标位姿是指采集第一图像时设备的位姿。

由于具有高阶语义的文本能够很好的区别光照变化场景/季节变化场景/视角尺度变化场景/重复纹理场景/弱纹理场景等场景中的不同图像，进而相对于现有技术仅根据图像这一种模态的信息进行视觉定位而言，本申请通过图像和图像中具有高阶语义的文本等多种模态的信息进行视觉定位，能够有效提升这些场景下的视觉定位成功率。

根据第一方面，或者以上第一方面的任意一种实现方式，根据第一文本、第一全局特征向量以及预设的多张第二图像中的第二文本和多张第二图像的第二全局特征向量进行图像检索，以从多张第二图像中选取第一图像匹配的第三图像，包括：根据多张第二图像中的第二文本，从多张第二图像中选取包含第一文本的多张第四图像；分别确定多张第四图像的第二全局特征向量，与第一全局特征向量之间的第二特征距离；从多张第四图像中，选取对应第二特征距离小于第二距离阈值的第三图像。这样，可以实现图像检索，从多张第二图像中检索出与第一图像匹配的第三图像(其中，与第一图像匹配的第二图像可以是指，与第一图像拍摄角度相似且拍摄距离相近的第二图像)。通过两次过滤，可以提高图像检索的准确性和检索速率。

根据第一方面，或者以上第一方面的任意一种实现方式，提取第一图像的第一全局特征向量，包括：确定第一文本在第一图像中对应的目标区域；增加已训练的特征提取网络的网络层中目标区域对应的权重；将第一图像输入至特征提取网络，以得到特征提取网络输出的第一全局特征向量。这样，能够增加第一全局特征向量中第一文本对应的特征的准确性，进而能够提高第二次过滤所选取出的第三图像的准确性。

根据第一方面，或者以上第一方面的任意一种实现方式，采集第一图像，包括：在设备旋转过程中，采集K张第一图像，每张第一图像匹配的第三图像为M张，K为大于1的整数，M为正整数；基于第一图像和第三图像，确定目标位姿，包括：基于K张第一图像分别匹配的M张第三图像，确定K张第一图像分别对应的N个候选位姿和N个候选位姿分别对应的单帧置信度，N为正整数；根据K张第一图像分别对应的N个候选位姿和N个候选位姿分别对应的单帧置信度，确定目标位姿。这样，采用旋转多帧的方式进行视觉定位，可以实现大视角视觉定位，进而提高视觉定位的成功率。尤其是能够提高光照变化场景/季节变化场景/视角尺度变化场景/重复纹理场景/弱纹理场景等场景中的视觉定位成功率。

根据第一方面，或者以上第一方面的任意一种实现方式，根据K张第一图像分别对应的N个候选位姿和N个候选位姿分别对应的单帧置信度，确定目标位姿，包括：遍历K张第一图像分别对应的N个候选位姿，从任意两张第一图像分别对应的N个候选位姿中分别选取一个候选位姿组成一个位姿组合，以得到多个位姿组合；针对一个第一位姿组合，确定第一位姿组合对应两张第一图像之间的SLAM(Simultaneous Localization and Mapping，同时定位与建图)位姿，以及第一位姿组合中两个候选位姿之间的相对位姿；确定SLAM位姿与相对位姿之间的位姿误差；若存在位姿误差小于预设误差的候选位姿组合，则根据候选位姿组合对应的单帧置信度，确定候选位姿组合对应的联合置信度；将联合置信度最高的候选位姿组合，确定为目标位姿。

根据第一方面，或者以上第一方面的任意一种实现方式，若不存在位姿误差小于预设误差的候选位姿组合，则将K张第一图像分别对应的N个候选位姿中单帧置信度最高的候选位姿，确定为目标位姿。

根据第一方面，或者以上第一方面的任意一种实现方式，基于第一图像和第三图像，确定目标位姿，包括：确定本次视觉定位采用的第一图像对应的单帧置信度最高的R个第一候选位姿，R为正整数；将上一次视觉定位采用的第一图像对应的单帧置信度最高的R个第二候选位姿，分别增加SLAM位姿，得到R个第三候选位姿；确定R个第三候选位姿分别对应的概率，以及R个第一候选位姿分别对应的概率；将概率最高的第一候选位姿或第三候选位姿，确定为目标位姿。这样，联合上一次视觉定位确定的多个候选位姿，进行本次视觉定位，来降低单帧视觉定位的误差，提高视觉定位的成功率。尤其可以提高光照变化场景/季节变化场景/视角尺度变化场景/重复纹理场景/弱纹理场景等场景中的视觉定位的成功率。

根据第一方面，或者以上第一方面的任意一种实现方式，该方法还包括：采集场所的场所标识信息，场所标识信息包括场所标识文本和/或场所标识图形；在预设的多张第二图像中进行多模态搜索，以确定包含场所标识信息的第五图像，多张第二图像是在构建视觉定位地图过程中采集的；根据第五图像中的场所标识信息，确定场所在视觉定位地图中的3D(3-dimension，三维)坐标；将场所在视觉定位地图中的3D坐标，映射至2D(2-dimension，二维)视觉导航地图中，以得到场所在2D视觉导航地图中的2D坐标。这样，可以将场所的位置注册至视觉定位图像和2D视觉导航地图，进而在用户使用AR地图导航时，能够提供AR视觉导航。

根据第一方面，或者以上第一方面的任意一种实现方式，该方法还包括：采集场所内的地图重建数据，根据地图重建数据进行三维重建，以更新视觉定位地图，地图重建数据包括场所内的第六图像，场所包含多个类别的对象；提取第六图像中类别标识文本对应的2D特征点，以及确定类别标识文本对应的2D特征点在SLAM坐标系中的3D点云；将SLAM坐标系中的3D点云，映射为更新后的视觉定位地图对应视觉定位地图坐标系中的3D点云。这样，可以构建场所内的视觉定位地图，以便于后续指引用户快速达到较大场所内的各类对象所在位置。

示例性的，针对较大的场所(如大型超市、大型动物园等等)，可以构建场所内的视觉定位地图；对于小的场所可以无需构建场所内的视觉定位地图。

根据第一方面，或者以上第一方面的任意一种实现方式，该方法还包括：采集类别的类别标识信息，类别标识信息包括类别标识文本和/或类别标识图形；在第六图像中进行多模态搜索，以确定包含类别标识信息的第七图像；根据第七图像中的类别标识信息，确定类别的对象在更新后的视觉定位地图中的3D坐标；依据更新后的视觉定位地图，更新2D视觉导航地图；将类别包含的对象在视觉定位地图中的3D坐标，映射至更新后的2D视觉导航地图中，以得到类别的对象在更新后的2D视觉导航地图中的2D坐标。这样，可以将场所内各类别的对象的位置注册至视觉定位图像和2D视觉导航地图，进而在用户使用AR地图导航时，能够提供AR视觉导航，以指引用户快速达到较大场所内的各类对象所在位置。

第二方面，本申请实施例提供一种视觉定位方法，该方法包括：首先，采集第一图像；接着，提取第一图像中的第一文本和提取第一图像的第一全局特征向量；随后，基于第一文本、第一全局特征向量以及预设的多张第二图像中的第二文本和多张第二图像的第二全局特征向量进行图像检索，以从多张第二图像中选取第一图像匹配的第三图像，多张第二图像是在构建视觉定位地图过程中采集的；然后，基于第一图像和第三图像，确定目标位姿，目标位姿是指采集第一图像时设备的位姿。

根据第二方面，基于第一文本、第一全局特征向量以及预设的多张第二图像中的第二文本和多张第二图像的第二全局特征向量进行图像检索，以从多张第二图像中选取第一图像匹配的第三图像，包括：根据多张第二图像中的第二文本，从多张第二图像中选取包含第一文本的多张第四图像；分别确定多张第四图像的第二全局特征向量，与第一全局特征向量之间的第二特征距离；从多张第四图像中，选取对应第二特征距离小于第二距离阈值的第三图像。这样，可以实现图像检索，从多张第二图像中检索出与第一图像匹配的第三图像(其中，与第一图像匹配的第二图像可以是指，与第一图像拍摄角度相似且拍摄距离相近的第二图像)。通过两次过滤，可以提高图像检索的准确性和检索速率。

根据第二方面，或者以上第二方面的任意一种实现方式，提取第一图像的第一全局特征向量，包括：确定第一文本在第一图像中对应的目标区域；增加已训练的特征提取网络的网络层中目标区域对应的权重；将第一图像输入至特征提取网络，以得到特征提取网络输出的第一全局特征向量。这样，能够增加第一全局特征向量中第一文本对应的特征的准确性，进而能够提高第二次过滤所选取出的第三图像的准确性。

根据第二方面，或者以上第二方面的任意一种实现方式，采集第一图像，包括：在设备旋转过程中，采集K张第一图像，每张第一图像匹配的第三图像为M张，K为大于1的整数，M为正整数；基于第一图像和第三图像，确定目标位姿，包括：基于K张第一图像分别匹配的M张第三图像，确定K张第一图像分别对应的N个候选位姿和N个候选位姿分别对应的单帧置信度，N为正整数；根据K张第一图像分别对应的N个候选位姿和N个候选位姿分别对应的单帧置信度，确定目标位姿。这样，采用旋转多帧的方式进行视觉定位，可以实现大视角视觉定位，进而提高视觉定位的成功率。尤其是能够提高光照变化场景/季节变化场景/视角尺度变化场景/重复纹理场景/弱纹理场景等场景中的视觉定位成功率。

根据第二方面，或者以上第二方面的任意一种实现方式，根据K张第一图像分别对应的N个候选位姿和N个候选位姿分别对应的单帧置信度，确定目标位姿，包括：遍历K张第一图像分别对应的N个候选位姿，从任意两张第一图像分别对应的N个候选位姿中分别选取一个候选位姿组成一个位姿组合，以得到多个位姿组合；针对一个第一位姿组合，确定第一位姿组合对应两张第一图像之间的同时定位与建图SLAM位姿，以及第一位姿组合中两个候选位姿之间的相对位姿；确定SLAM位姿与相对位姿之间的位姿误差；若存在位姿误差小于预设误差的候选位姿组合，则根据候选位姿组合对应的单帧置信度，确定候选位姿组合对应的联合置信度；将联合置信度最高的候选位姿组合，确定为目标位姿。

根据第二方面，或者以上第二方面的任意一种实现方式，该方法还包括：若不存在位姿误差小于预设误差的候选位姿组合，则将K张第一图像分别对应的N个候选位姿中单帧置信度最高的候选位姿，确定为目标位姿。

根据第二方面，或者以上第二方面的任意一种实现方式，基于K张第一图像分别匹配的M张第三图像，确定K张第一图像分别对应的N个候选位姿，包括：针对K张第一图像中的目标图像：将目标图像匹配的M张第三图像进行共视聚类，以得到N组第三图像；基于目标图像和N组第三图像，确定目标图像对应的N个候选位姿。

根据第二方面，或者以上第二方面的任意一种实现方式，基于K张第一图像分别匹配的M张第三图像，确定K张第一图像分别对应的N个候选位姿，包括：针对K张第一图像中的目标图像：基于目标图像和目标图像匹配的M张第三图像，确定目标图像对应的M个候选位姿；基于目标图像对应的M个候选位姿进行聚类，以得到目标图像对应的N个候选位姿。

根据第二方面，或者以上第二方面的任意一种实现方式，基于第一图像和第三图像，确定目标位姿，包括：确定本次视觉定位采用的第一图像对应的单帧置信度最高的R个第一候选位姿，R为正整数；将上一次视觉定位采用的第一图像对应的单帧置信度最高的R个第二候选位姿，分别增加SLAM位姿，以得到R个第三候选位姿；确定R个第三候选位姿分别对应的概率，以及R个第一候选位姿分别对应的概率；将概率最高的第一候选位姿或第三候选位姿，确定为目标位姿。这样，联合上一次视觉定位确定的多个候选位姿，进行本次视觉定位，来降低单帧视觉定位的误差，提高视觉定位的成功率。尤其可以提高光照变化场景/季节变化场景/视角尺度变化场景/重复纹理场景/弱纹理场景等场景中的视觉定位的成功率。

第三方面，本申请实施例提供一种导航地图构建方法，该方法包括：采集场所的场所标识信息，场所标识信息包括场所标识文本和/或场所标识图形；在预设的多张第一图像中进行多模态检索，以确定包含场所标识信息的第二图像，多张第一图像是在构建视觉定位地图过程中采集的；根据第二图像中场所标识信息，确定场所在视觉定位地图中的3D坐标；将场所在视觉定位地图中的3D坐标，映射至2D视觉导航地图中，以得到场所在2D视觉导航地图中的2D坐标，2D视觉导航地图根据视觉定位地图生成。这样，可以将场所的位置注册至视觉定位图像和2D视觉导航地图，进而在用户使用AR地图导航时，能够提供AR视觉导航。

根据第三方面，采集场所内的地图重建数据，该方法还包括：根据地图重建数据进行三维重建，以更新视觉定位地图，地图重建数据包括场所内的第三图像，场所包含多个类别的对象；提取第三图像中类别标识文本对应的2D特征点，确定类别标识文本对应的2D特征点在SLAM坐标系中的3D点云；将SLAM坐标系中的3D点云，映射为更新后的视觉定位地图对应视觉定位地图坐标系中的3D点云。这样，可以构建场所内的视觉定位地图，以便于后续指引用户快速达到较大场所内的各类对象所在位置。

根据第三方面，或者以上第三方面的任意一种实现方式，该方法还包括：获取类别的类别标识信息，类别标识信息包括类别标识文本和/或类别标识图形；在第三图像中进行多模态检索，以确定包含类别标识信息的第四图像；确定第四图像中类别标识信息，确定类别的对象在更新后的视觉定位地图中的3D坐标；依据更新后的视觉定位地图，更新2D视觉导航地图；将类别的对象在更新后的视觉定位地图中的3D坐标，映射至2D视觉导航地图中，以得到类别的对象在2D视觉导航地图中的2D坐标。这样，可以将场所内各类别对象的位置注册至视觉定位图像和2D视觉导航地图，进而在用户使用AR地图导航时，能够提供AR视觉导航，以指引用户快速达到较大场所内的各类对象所在位置。

需要说明的是，第三方面及第三方面的任意一种实现方式中的第一图像，和第一方法及第三方面的任意一种实现方式中的第二图像是命名不同的同一图像。第三方面及第三方面的任意一种实现方式中的第二图像，和第一方法及第三方面的任意一种实现方式中的第五图像是命名不同的同一图像。第三方面及第三方面的任意一种实现方式中的第三图像，和第一方法及第三方面的任意一种实现方式中的第六图像是命名不同的同一图像。第三方面及第三方面的任意一种实现方式中的第四图像，和第一方法及第三方面的任意一种实现方式中的第七图像是命名不同的同一图像。

第四方面，本申请实施例提供一种电子设备，包括：存储器和处理器，存储器与处理器耦合；存储器存储有程序指令，当程序指令由处理器执行时，使得电子设备执行第一方面或第一方面的任意可能的实现方式中的导航方法。

第四方面以及第四方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第四方面以及第四方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第五方面，本申请实施例提供一种电子设备，包括：存储器和处理器，存储器与处理器耦合；存储器存储有程序指令，当程序指令由处理器执行时，使得电子设备执行第二方面或第二方面的任意可能的实现方式中的视觉定位方法。

第五方面以及第五方面的任意一种实现方式分别与第二方面以及第二方面的任意一种实现方式相对应。第五方面以及第五方面的任意一种实现方式所对应的技术效果可参见上述第二方面以及第二方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第六方面，本申请实施例提供一种电子设备，包括：存储器和处理器，存储器与处理器耦合；存储器存储有程序指令，当程序指令由处理器执行时，使得电子设备执行第三方面或第三方面的任意可能的实现方式中的导航地图构建方法。

第六方面以及第六方面的任意一种实现方式分别与第三方面以及第三方面的任意一种实现方式相对应。第六方面以及第六方面的任意一种实现方式所对应的技术效果可参见上述第三方面以及第三方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第七方面，本申请实施例提供一种芯片，包括一个或多个接口电路和一个或多个处理器；接口电路用于从电子设备的存储器接收信号，并向处理器发送信号，信号包括存储器中存储的计算机指令；当处理器执行计算机指令时，使得电子设备执行第一方面或第一方面的任意可能的实现方式中的导航方法。

第七方面以及第七方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第七方面以及第七方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第八方面，本申请实施例提供一种芯片，包括一个或多个接口电路和一个或多个处理器；接口电路用于从电子设备的存储器接收信号，并向处理器发送信号，信号包括存储器中存储的计算机指令；当处理器执行计算机指令时，使得电子设备执行第二方面或第二方面的任意可能的实现方式中的视觉定位方法。

第八方面以及第八方面的任意一种实现方式分别与第二方面以及第二方面的任意一种实现方式相对应。第八方面以及第八方面的任意一种实现方式所对应的技术效果可参见上述第二方面以及第二方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第九方面，本申请实施例提供一种芯片，包括一个或多个接口电路和一个或多个处理器；接口电路用于从电子设备的存储器接收信号，并向处理器发送信号，信号包括存储器中存储的计算机指令；当处理器执行计算机指令时，使得电子设备执行第三方面或第三方面的任意可能的实现方式中的导航地图构建方法。

第九方面以及第九方面的任意一种实现方式分别与第三方面以及第三方面的任意一种实现方式相对应。第九方面以及第九方面的任意一种实现方式所对应的技术效果可参见上述第三方面以及第三方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第十方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，当计算机程序运行在计算机或处理器上时，使得计算机或处理器执行第一方面或第一方面的任意可能的实现方式中的导航方法。

第十方面以及第十方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第十方面以及第十方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第十一方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，当计算机程序运行在计算机或处理器上时，使得计算机或处理器执行第二方面或第二方面的任意可能的实现方式中的视觉定位方法。

第十一方面以及第十一方面的任意一种实现方式分别与第二方面以及第二方面的任意一种实现方式相对应。第十一方面以及第十一方面的任意一种实现方式所对应的技术效果可参见上述第二方面以及第二方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第十二方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，当计算机程序运行在计算机或处理器上时，使得计算机或处理器执行第三方面或第三方面的任意可能的实现方式中的导航地图构建方法。

第十二方面以及第十二方面的任意一种实现方式分别与第三方面以及第三方面的任意一种实现方式相对应。第十二方面以及第十二方面的任意一种实现方式所对应的技术效果可参见上述第三方面以及第三方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第十三方面，本申请实施例提供一种计算机程序产品，所述计算机程序产品包括软件程序，当所述软件程序被计算机或处理器执行时，使得计算机或处理器执行第一方面或第一方面的任意可能的实现方式中的导航方法。

第十三方面以及第十三方面的任意一种实现方式分别与第一方面以及第一方面的任意一种实现方式相对应。第十三方面以及第十三方面的任意一种实现方式所对应的技术效果可参见上述第一方面以及第一方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第十四方面，本申请实施例提供一种计算机程序产品，所述计算机程序产品包括软件程序，当所述软件程序被计算机或处理器执行时，使得计算机或处理器执行第二方面或第二方面的任意可能的实现方式中的视觉定位方法。

第十四方面以及第十四方面的任意一种实现方式分别与第二方面以及第二方面的任意一种实现方式相对应。第十四方面以及第十四方面的任意一种实现方式所对应的技术效果可参见上述第二方面以及第二方面的任意一种实现方式所对应的技术效果，此处不再赘述。

第十五方面，本申请实施例提供一种计算机程序产品，所述计算机程序产品包括软件程序，当所述软件程序被计算机或处理器执行时，使得计算机或处理器执行第三方面或第三方面的任意可能的实现方式中的导航地图构建方法。

第十五方面以及第十五方面的任意一种实现方式分别与第三方面以及第三方面的任意一种实现方式相对应。第十五方面以及第十五方面的任意一种实现方式所对应的技术效果可参见上述第三方面以及第三方面的任意一种实现方式所对应的技术效果，此处不再赘述。

附图说明

图1为示例性示出的应用场景示意图；

图2为示例性示出的导航过程示意图；

图3a为示例性示出的界面示意图；

图3b为示例性示出的界面示意图；

图4为示例性示出的导航过程示意图；

图5为示例性示出的视觉定位过程示意图；

图6为示例性示出的视觉定位过程示意图；

图7为示例性示出的视觉定位过程示意图；

图8为示例性示出的导航地图构建过程示意图；

图9为示例性示出的导航地图构建过程示意图；

图10为示例性示出的导航地图构建过程示意图；

图11为示例性示出的装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

本申请实施例的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述对象的特定顺序。例如，第一目标对象和第二目标对象等是用于区别不同的目标对象，而不是用于描述目标对象的特定顺序。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

在本申请实施例的描述中，除非另有说明，“多个”的含义是指两个或两个以上。例如，多个处理单元是指两个或两个以上的处理单元；多个系统是指两个或两个以上的系统。

图1为示例性示出的应用场景示意图。在图1的实施例中，示出了一种导航场景。

示例性的，当用户不熟悉去往目的地的路线时，可以使用手机等设备中的AR地图(可以是应用程序或小程序)进行导航。示例性的，用户可以启动AR地图并进入导航搜索界面101，如图1(1)所示。示例性的，导航搜索界面101可以包括一个或多个控件，包括但不限于：编辑框102和模态选择按钮103等，本申请对此不作限制。

示例性的，用户在编辑框102中输入位置搜索信息后，AR地图可以响应于用户操作，显示位置搜索结果列表108，如图1(3)所示。例如，用户在编辑框102中输入了“宿舍”后，位置搜索结果列表108中展示了多个位置搜索结果，例如：“B1宿舍楼”、“B2 宿舍楼”、“B3宿舍楼”如图1(3)所示。

示例性的，当用户想要去往“B1宿舍楼”时，可以点击位置搜索结果列表108中“B1宿舍楼”这一项的“导航”控件。此时，AR地图可以响应于用户操作，启动摄像头并进入AR视觉导航界面109，如图1(4)所示。示例性的，AR视觉导航界面109中可以包括导航提示信息选项110、导航指引标识111和摄像头采集的图像(包括AR视觉导航界面109中的树木、建筑物和道路)。这样，用户手持设备，按照AR视觉导航界面109中的导航提示信息选项110和导航指引标识111行进，即可以到达“B1宿舍楼”。需要说明的是，在用户行进的过程中，AR地图可以不断的根据摄像头采集的图像，更新导航提示信息选项110中的导航提示信息，以及导航指引标识111。

示例性的，本申请除了支持用户以上述的文本形式输入位置搜索信息外，还支持用户输入其他模态的位置搜索信息(如语音、图像等)，以增加导航搜索的输入方式多样，进而能够提高用户导航体验。

示例性的，当用户想要输入除文本之外的其他模态的位置搜索信息时，可以点击图1(1)中模态选择按钮103；此时，AR地图可以响应于用户操作，显示模态选择窗口104，如图1(2)所示。示例性的，模态选择窗口104可以包括多个模态输入选项，包括但不限于语音输入选项105、图像输入选项106和拍照选项107等。示例性的，当用户需要采用语音输入位置搜索信息时，可以点击语音输入选项105；这样，AR地图可以响应于用户操作，启动录音模块，此时用户可以进行语音输入。示例性的，当用户需要将图像作为位置搜索信息时，可以点击图像输入选项106；这样，AR地图可以响应于用户操作，进入相册，此时用户可以从相册中选择想要输入图像。示例性的，当用户需要将图像作为位置搜索信息时，可以点击拍照选项107；这样，AR地图可以响应于用户操作，启动摄像头并进入拍照界面，此时用户可以通过拍照获取想要输入图像。

对应的，本申请提出一种导航方法，该导航方法可以根据用户输入的多模态的位置搜索信息进行搜索，为用户提供AR视觉导航。

图2为示例性示出的导航过程示意图。

S201，获取用户在AR地图中输入的位置搜索信息，位置搜索信息包括以下至少一种：文本、语音或图像。

示例性的，当用户需要导航时，可以启动设备中的AR地图并进入图1(1)中的导航搜索界面101。示例性的，用户可以在导航搜索界面101中的编辑框进行输入文本形式的位置搜索信息；也可以点击图1(1)中模态选择按钮103并在图1(2)的模态选择窗口104中点击语音输入选项105，以使用语音输入位置搜索信息；还可以在图1(2)的模态选择窗口104中点击图像输入选项106/拍照选项107，以输入图像形式的位置搜索信息。

需要说明的是，用户可以在导航搜索界面101同时以文本、语音和图像中的任意两种或三种形式输入位置搜索信息，本申请对此不作限制。

示例性的，位置搜索信息可以是指用于搜索位置的信息，可以包括但不限于：实体名称文本、实体名称语音、实体图像和地址信息等等，本申请对此不作限制。其中，实体可以是指能够独立存在的、作为一切属性的基础和万物本原的东西，例如，客观存在并可相互区别的事物。实体可以包括场所(如商店、动物园、植物园等)，还可以包括场所包含的对象(如商店中的商品、动物园中的动物、植物园中的植物等)。

示例性的，实体名称文本/实体名称语音可以包括场所名称文本/语音，如“**商店”的文本/语音、“**动物园”的文本/语音、“**植物园”的文本/语音等。示例性的，实体名称文本/实体名称语音可以包括场所包含的对象名称文本/语音，如“**品牌帆布鞋”的文本/语音、“狮子”的文本/语音、“紫荆花”的文本/语音等。

示例性的，实体图像可以包括场所图像，如商店门牌图像、动物园大门图像、植物园大门图像等。示例性的，实体图像可以包括场所包含的对象图像，如**品牌的帆布鞋的图像、狮子的图像、紫荆花的图像等。

示例性的，待用户在导航搜索界面101中完成位置搜索信息的输入后，AR地图即可以获取到用户输入的位置搜索信息；然后可以执行S202。

S202，基于位置搜索信息，在预设的多模态信息中进行多模态搜索，以确定位置搜索信息匹配的位置搜索结果。

示例性的，可以预先收集多个实体的实体标识信息，并将实体标识信息与对应的实体地址进行关联。其中，针对每个实体，可以收集该实体的实体标识文本，也可以收集该实体的实体标识图像，还可以收集该实体的实体标识文本和实体标识图像；本申请对此不作限制。其中，实体标识文本可以是指可以用于标识实体的文本，实体标识图像可以是指包含实体标识文本/图形的图像。

示例性的，实体标识信息可以包括场所标识信息和对象标识信息。场所标识信息可以包括场所标识文本和/或场所标识图像，对象标识信息可以包括对象标识文本和/或对象标识图像。

示例性的，还可以将任一场所的场所标识信息和该场所包含的对象的对象标识信息进行关联；以及将任一场所的场所标识信息和该场所包含的对象的对象标识信息，与该场所的地址进行关联。

例如，场所为大型超市，场所包含的对象为超市售卖的商品；可以将对象标识信息(如商品名称、商品图像等)与场所标识信息(如超市名称、超市门牌图像等)关联，以及将对象标识信息(如商品名称、商品图像等)和场所标识信息(如超市名称、超市门牌图像等)，与超市地址关联。

例如，场所为大型动物园，场所包含的对象为动物园内的动物；可以将对象标识信息(如动物名称、动物图像等)与场所标识信息(如动物园名称、动物园门牌图像等)关联，以及将对象标识信息(如动物名称、动物图像等)和场所标识信息(如动物园名称、动物园门牌图像等)，与动物园地址关联。

这样，用户在输入位置搜索信息时，无论是输入场所名称文本/语音或者场所图像，还是输入对象名称文本/语音或者对象图像，AR地图均可以快速的为用户提供准确的导航。

示例性的，收集的多个实体的实体标识信息(实体标识文本和/或实体标识图像)，可以组成多模态信息。

示例性的，在获取到位置搜索信息后，可以从预设的多模态信息进行多模态搜索，从预设的多模态信息中查找与位置搜索信息匹配的位置搜索结果。

示例性的，多模态搜索可以包括同模态搜索和跨模态搜索。

示例性的，同模态搜索的过程可以如下：当位置搜索信息为文本时，可以从预设的多模态信息所包含的实体标识文本中进行搜索，以查找与位置搜索信息匹配的实体标识文本，作为位置搜索结果。当位置搜索信息为语音时，可以先进行语音识别，得到识别文本；再从预设的多模态信息所包含的实体标识文本中进行搜索，以查找与识别文本匹配的实体标识文本，作为位置搜索结果。当位置搜索信息为图像时，可以从预设的多模态信息所包含的实体标识图像中进行搜索，查找与位置搜索信息匹配的实体标识图像，作为位置搜索结果。

示例性的，跨模态搜索的过程可以如下：当位置搜索信息为文本或图像时，从预设的多模态信息包含的实体标识文本和实体标识图像中进行搜索，以查找与位置搜索信息匹配的实体标识文本和/或实体标识图像，作为位置搜索结果。当位置搜索信息为语音时，可以先进行语音识别，得到识别文本；再从预设的多模态信息包含的实体标识文本和实体标识图像中进行搜索，以查找与位置搜索信息匹配的实体标识文本和/或实体标识图像作为位置搜索结果。

示例性的，位置搜索结果可以包括一个或多个。例如，可以在图1(3)的位置搜索结果列表108中展示位置搜索结果。

S203，根据位置搜素结果进行AR视觉导航。

示例性的，当位置搜索结果包括多个时，用户可以按照需求选择一个位置搜索结果；此时，可以根据用户选择的位置搜索结果进行AR视觉导航。当位置搜索结果为一个时，可以直接根据S202确定的位置搜索结果进行AR视觉导航。

图3a和图3b为示例性示出的界面示意图。

示例性的，当用户想买要黑色耳机时，可以在图1(1)中导航搜索界面101中的编辑框输入位置搜索信息“黑色耳机”，如图3a(1)所示。此时，基于“黑色耳机”在预设的多模态信息中进行多模态搜索，确定的与位置搜索信息匹配的位置搜索结果为2张耳机图像：图像1和图像2；并在图1(3)的位置搜索结果列表108中展示，如图3a(2)所示。若用户选择图像1，则可以为用户去往售卖图像1中耳机的店铺进行AR视觉导航。

示例性的，当用户手机存储了某一款鞋子的图像，但是不知道该款鞋子的品牌时，可以在图1(2)的模态选择窗口104中点击图像输入选项106；然后从展示的相册中选取该款鞋子的图像，如图3b(1)所示。此时，基于该款鞋子的图像在预设的多模态信息中进行多模态搜索，确定的与位置搜索信息匹配的位置搜索结果为3张店铺的图像：图像3、图像4和图像5，并在图1(3)的位置搜索结果列表108中展示，如图3b(2)所示。若用户选择图像5，则可以为用户去往图像5对应店铺进行AR视觉导航。

这样，相对于现有技术仅能输入文本进行导航而言，本申请可以支持用户输入多种模态的位置搜索信息，导航搜索的输入方式多样，能够提高用户导航体验。

示例性的，位置搜索信息可以是实体名称文本、实体名称语音或者实体图像，实体包括场所和场所包含的对象。这样，AR地图除了可以在用户输入场所名称文本/场所名称语音/场所图像为用户提供AR视觉导航之外，还可以在用户输入对象图像或对象名称文本或对象名称语音是为用户提供AR视觉导航。进而，能够快速引导用户至自身所期望的实体的位置。

图4为示例性示出的导航过程示意图。在图4的实施例中，具体描述了跨模态搜索的过程以及进行AR视觉导航过程。

S401，获取用户在增强现实AR地图中输入的位置搜索信息，位置搜索信息包括以下至少一种：文本、语音和图像。

示例性的，S401可以参照上述S301的描述，在此不再赘述。

示例性的，基于位置搜索信息，在预设的多模态信息中进行跨模态搜索，以确定位置搜索信息匹配的位置搜索结果的过程，可以参照如下S402～S404：

S402，对位置搜索信息进行特征提取，以得到位置搜索信息对应的第一特征。

S403，对多个实体标识信息进行特征提取，以得到多个实体标识信息分别对应的第二特征。

S404，确定多个实体标识信息分别对应的第二特征，与第一特征之间的第一特征距离。

S405，从多个实体标识信息中，选取对应第一特征距离小于第一距离阈值的实体标识信息作为位置搜索结果。

示例性的，可以预先训练跨模态搜索模型，然后采用训练后的跨模态搜索模型实现跨模态搜索。

示例性的，可以收集多个实体的实体名称文本和实体图像；以及将同一实体的实体名称文本和实体图像，作为一组训练数据，这样，可以得到多组训练数据。以下以采用一组训练数据对跨模态搜索模型进行训练为例进行示例性说明。

示例性的，可以将一组训练数据的实体名称文本和实体图像输入跨模态搜索模型，然后一方面，跨模态搜索模型对实体名称文本进行特征提取，以得到实体名称文本对应的文本特征；另一方面，跨模态搜索模型对实体图像进行特征提取，以得到实体图像对应的图像特征。接着，跨模态搜索模型可以计算实体名称文本对应的文本特征，与实体图像对应的图像特征之间的距离；随后，以最小化实体名称文本对应的文本特征与实体图像对应的图像特征之间的距离为目标，对跨模态搜索模型进行反向传播，以调整跨模态搜索模型的模型参数。进而可以按照这种方式，采用多组训练数据对跨模态搜索模型进行训练；这样，能够使得跨模态搜索模型能够学习到如何将同一实体对应的图像特征和文本特征统一到同一个特征空间。从而，采用训练后的跨模态搜索模型，能够实现图像和文本之间相互搜索。

示例性的，每次可以将一个实体标识信息和位置搜索信息输入至训练后的跨模态搜索模型中；接着，一方面，跨模态搜索模型对位置搜索信息进行特征提取，以得到位置搜索信息对应的第一特征；另一方面，跨模态搜索模型对该实体标识信息进行特征提取，以得到该实体标识信息对应的第二特征。随后，跨模态搜索模型可以计算第一特征与第二特征之间的第一特征距离并输出。这样，可以得到各实体标识信息对应的第二特征与第一特征之间的第一特征距离。

应该理解的是，当位置搜索信息是语音时，可以在将位置搜索信息进行语音识别得到识别文本后，再将识别文本输入至训练后的跨模态搜索模型。

示例性的，可以确定对应的第二特征与第一特征之间第一特征距离小于第一距离阈值的实体标识信息；然后将对应的第二特征与第一特征之间第一特征距离小于第一距离阈值的实体标识信息，确定为位置搜索信息匹配的位置搜索结果。

示例性的，多模态信息中部分实体标识信息仅包括的实体标识文本，部分实体标识信息仅包括实体标识图像，以及部分实体标识信息包括实体标识文本和实体标识图像。为了便于描述，将包含实体标识文本和实体标识图像的实体标识信息，称为第一实体标识信息。

示例性的，对于第一实体标识信息，将第一实体标识信息中的实体标识文本和位置搜索信息输入跨模态搜索模型后，可以得到第一实体标识信息中的实体标识文本的第二特征与第一特征之间的第一特征距离。将第一实体标识信息中的实体标识图像和位置搜索信息输入跨模态搜索模型后，可以得到第一实体标识信息中的实体标识图像的第二特征与第一特征之间的第一特征距离。然后可以将第一实体标识信息中的实体标识图像的第二特征与第一特征之间的第一特征距离，与第一实体标识信息中的实体标识文本的第二特征与第一特征之间的第一特征距离进行加权计算；然后将加权计算结果，作为第一实体标识信息对应的第二特征与第一特征之间的第一特征距离。

示例性的，第一特征距离越小，说明第二特征与第一特征越相似，也就是说，对应的实体标识信息和位置搜索信息越相似。进而，可以从多个实体标识信息中，选取对应第一特征距离小于第一距离阈值的实体标识信息作为位置搜索结果，以将与位置搜索信息相似程度高的实体标识信息作为位置搜索结果。其中，第一距离阈值可以根据需求设置，本申请对此不作限制。其中，

这样，通过跨模态搜索，可以实现“模糊”搜索，进而能够尽可能覆盖比较全面的实体标识信息，避免出现遗漏。

示例性的，根据位置搜索结果进行AR视觉导航的过程可以如下S406～S409的步骤：

S406，基于预先生成的2D视觉导航地图，生成用户的当前位置和位置搜索结果对应目标位置之间的2D导航路径。

示例性的，可以获取位置搜索结果对应的目标位置；然后根据预先构建的2D视觉导航地图，生成用户的当前位置和位置搜索结果对应目标位置之间的2D导航路径。其中，2D视觉导航地图的生成过程在后续说明。

示例性的，当位置搜索结果为场所标识信息时，可以获取场所标识信息对应场所的位置，作为目标位置(例如，位置搜索信息为“**超市”，则可以将“**超市”对应的位置，作为目标位置)。当位置搜索结果为对象标识信息时，可以获取对象标识信息对应对象所属场所的位置，作为目标位置(例如，位置搜索信息为“**薯片”，则可以将售卖“**薯片”的超市对应的位置，作为目标位置)。当位置搜索结果为对象标识信息时，可以获取对象标识信息对应对象所属类别所在位置，作为目标位置(例如，位置搜索信息为“**薯片”，则可以将超市中“休闲食品”对应的位置，作为目标位置)。

示例性的，用户的当前位置可以由设备中定位模块获取。

S407，进行视觉定位，以确定目标位姿，目标位姿是指设备的当前位姿。

示例性的，在确定用户的当前位置和位置搜索结果对应目标位置之间的2D导航路径之后，可以进行视觉定位，以确定设备的当前位姿；其中，设备的当前位姿，可以用于表征用户的当前位姿，进而后续能够根据用户的当前位姿和2D导航路径，进行AR视觉导航。

示例性的，可以启动摄像头，调用摄像头采集图像；然后根据采集的图像进行视觉定位，以确定目标位姿。为了便于后续说明，可以将视觉定位过程中，摄像头采集的图像称为第一图像。示例性的，在启动摄像头的同时，还可以提醒用户将设备的摄像头朝向前方，这样，根据第一图像进行视觉定位确定的目标位姿，能够更接近用户的当前位姿。

示例性的，摄像头采集第一图像的周期，可以是设备系统预设的(例如周期为0.5ms，即摄像头每隔0.5ms采集一帧图像)，本申请对此不作限制。

示例性的，可以按照预设的视觉定位周期进行视觉定位，其中，视觉定位周期可以按照需求设置，例如10s、15s等，本申请对此不作限制。

示例性的，每达到一次预设周期时，可以获取摄像头与当前时刻距离最近的时刻所采集的第一图像，然后基于第一图像进行视觉定位，以确定设备采集第一图像时的位姿(后续称为目标位姿)。其中，视觉定位过程在后续进行说明。

S408，基于2D导航路径和目标位姿，进行AR视觉导航。

示例性的，可以在图1(4)的AR视觉导航界面109显示摄像头采集的第一图像，以及根据2D导航路径和目标位姿，更新导航提示信息选项110中的导航指示信息。

示例性的，图1(4)的AR视觉导航界面109中第一图像的更新周期，与摄像头采集第一图像的周期相同。此外，每进行一次视觉定位后，可以更新一次导航提示信息选项110中的导航指示信息；也就是说，导航提示信息选项110中的导航指示信息的更新周期，和视觉定位周期相同。

需要说明的是，AR视觉导航界面109第一次展示的导航提示信息选项110中的导航提示信息，可以根据S406中生成的2D导航路径和定位模块获取的用户的当前位置，生成的。后续，在完成第一次视觉定位后，可以根据2D导航路径和第一次视觉定位确定的目标位姿，更新导航提示信息选项110中的导航提示信息。

以下对视觉定位过程进行示例性说明。

本申请提出一种视觉定位方法，通过结合多模态信息进行视觉定位，来提升光照变化场景/季节变化场景/视角尺度变化场景/重复纹理场景/弱纹理场景等场景中的视觉定位成功率。

图5为示例性示出的视觉定位过程示意图。在图5的实施例中，描述了视觉定位过程。

由于视觉定位是基于视觉定位地图实现的；因此可以先对视觉定位地图进行示例性介绍。

示例性的，可以控制数据采集设备(如图像采集设备、位置采集设备等等)行走于各场所(场所外部行走)，以采集各场所的图像等数据。接着，根据采集到的数据进行三维重建，得到视觉定位地图(视觉定位地图为3D地图)。

示例性的，在构建视觉定位地图的同时，还可以提取数据采集设备采集的图像(后续称为第二图像)中的2D特征点，以及确定2D特征点对应在视觉定位地图中的3D点云(可以包括3D坐标)；以及记录第二图像的GPS(Global Positioning System，全球定位系统)信息。然后基于第二图像、第二图像包含的2D特征点、2D特征点的描述子(是指用于描述特征点的纹理颜色信息以及其他信息的向量)、2D特征点对应的3D点云、第二图像的GPS，以及第二图像与GPS信息之间的关系的索引表等信息，存储至视觉定位地图数据库。

示例性的，可选地，还可以提取第二图像中的第二文本；以及还可以提取第二图像的全局特征，以得到第二图像的第二全局特征向量。然后可以将第二图像中的第二文本和第二图像的第二全局特征向量，存储至视觉定位地图数据库中。

示例性的，在得到视觉定位地图后，将视觉定位地图数据库中的3D点云映射至2D平面，可以得到2D视觉导航地图。

示例性的，可以参照如下步骤S501～S504的描述，对视觉定位过程进行说明。

S501，采集第一图像。

示例性的，在视觉定位过程中，可以启动摄像头，调用摄像头采集第一图像。

S502，提取第一图像中的第一文本和提取第一图像的第一全局特征向量。

示例性的，可以通过图像检索，从视觉定位地图数据库中检索出与第一图像匹配的第二图像(其中，与第一图像匹配的第二图像可以是指，与第一图像拍摄角度相似且拍摄距离相近的第二图像)；然后再根据第一图像和图像检索得到的第二图像，确定设备采集第一图像时的目标位姿。

示例性的，可以根据第一图像和第二图像中具有高阶语义的信息以及全局特征，进行图像检索；具体的，可以根据具有高阶语义的信息，对多张第二图像进行第一次过滤；然后再根据全局特征，对多张第二图像进行第二过滤。这样，可以提高图像检索的准确性和检索速率。

示例性的，一方面，可以提取第一图像中的具有高阶语义的信息(如车位编号、商店门牌文本)，以得到第一图像的第一文本。另一方面，可以对第一图像进行全局特征提取，以得到第一图像的第一全局特征向量。

示例性的，可以采用已训练的特征提取网络，来提取第一图像的第一全局特征向量。示例性的，特征提取网络的部分网络层中每个网络层包括图像中各个区域对应的权重；可以确定第一文本在第一图像中对应的目标区域；接着，增加已训练的特征提取网络的网络层(如最后一个网络层)中目标区域对应的权重。然后，将第一图像输入至特征提取网络中，由特征提取网络提取第一图像的全局特征，输出第一图像的第一全局特征向量。

S503，根据第一文本、第一全局特征向量以及预设的多张第二图像中的第二文本和多张第二图像的第二全局特征向量进行图像检索，以从多张第二图像中选取第一图像匹配的第三图像，多张第二图像是在构建视觉定位地图过程中采集的。

示例性的，当视觉定位地图数据库中包括第二图像的第二文本和第二图像的第二全局特征向量时，则可以先根据第一文本和第二文本，对多张第二图像进行进行第一次过滤；然后再根据第二全局特征向量和第一全局特征向量，对多张第二图像进行第二次过滤；以过滤出第一图像匹配的第二图像。示例性的，为了便于描述，将图像检索得到的与第一图像匹配的第二图像，称为第三图像。

示例性的，可以根据多张第二图像中的第二文本，从多张第二图像中选取包含第一文本的多张第四图像。例如，第一图像中的第一文本为车位编号“0372”，可以查找第二文本包括“0372”的第二图像，作为第四图像。接着，可以分别计算每张第四图像的第二全局特征向量与第一全局特征向量之间的第二特征距离。例如，第二特征距离可以是欧氏距离。这样，可以得到各张第四图像的第二全局特征向量与第一全局特征向量之间的第二特征距离。然后，从多张第四图像中，选取对应第二特征距离小于第二距离阈值的第三图像。由于第二特征距离越小，第一图像与第二图像的拍摄角度越相似、拍摄距离越接近，这样，可以选取出与第一图像拍摄角度相似程度高、且拍摄距离较为接近的第二图像，作为与第一图像匹配的第二图像(即第三图像)。其中，第三图像可以是一张，也可以是多张，本申请对此不作限制。其中，第二距离阈值可以按照需求设置，本申请对此不作限制。

示例性的，当视觉定位地图数据中不包括第二图像的第二文本和第二图像的第二全局特征向量时，可以提取每张第二图像中的第二文本，以及提取第二图像的第二全局特征向量。

应该理解的是，提取第二图像中的第二文本的方式和提取第一图像中的第一文本的方式类似，以及提取第二图像的第二全局特征向量的方式和提取第一图像的第一全局特征向量的方式类似，在此不再赘述。

S504，基于第一图像和第三图像，确定目标位姿，目标位姿是指采集第一图像时设备的位姿。

示例性的，可以基于第一图像和第三图像进行特征匹配和位姿估计，确定采集第一图像时设备的位姿。

示例性的，特征匹配的过程可以如下：

1)提取第一图像中的2D特征点。示例性的，可以对第一图像特征点检测，提取第一图像中的2D特征点。

2)生成第一图像中2D特征点的描述子。示例性的，针对第一图像中的每个2D特征点，可以生成用于描述2D特征点的纹理颜色信息以及其他信息的向量，即描述子。示例性的，同一特征点在不同图像上的描述子距离相近，而不同特征点的描述子则距离较远。

3)对第一图像与第三图像进行特征点匹配。示例性的，可以计算第一图像中2D特征点的描述子与第三图像中2D特征点的描述子的描述子距离；接着，将第三图像中与第一图像中2D特征点的描述子的描述子距离小于第三距离阈值的2D特征点，作为候选特征点。

4)内点筛选。其中，可以对候选特征点进行几何约束，以过滤匹配错误的候选特征点，得到目标特征点。

示例性的，位姿估计的过程如下：可以确定目标特征点对应的3D点云；然后根据目标特征点在第三图像上的位置和3D点云中的3D坐标，进行位姿求解，以得到目标位姿。

应该理解的是，图5实施例中描述的视觉定位方法，可以应用于图4实施例中；这样，通过提升光照变化场景/季节变化场景/视角尺度变化场景/重复纹理场景/弱纹理场景等场景中视觉定位成功率，来提升AR视觉导航的准确性，以提高用户导航体验。

示例性的，图4中的S409是在SLAM(Simultaneous Localization and Mapping，同时定位与建图)坐标系下执行的(可以由SLAM系统执行)，而得到目标位姿是视觉定位坐标系中计算得到的；进而可以将目标位姿由视觉定位坐标系转换至SLAM坐标系，以便于后续SLAM系统基于第一图像、2D导航路径和目标位姿，进行AR视觉导航。

需要说明的是，图5的视觉定位方法还可以应用于其他场景，例如，全息信息显示场景、拍照场景、智能讲解场景、智能和智慧IoT(Internet of Things，物联网)场景、AR游戏交互场景等等，本申请对此不作限制。

示例性的，在每次视觉定位的过程中，可以采集多帧第一图像，然后联合多帧来进行视觉定位，来进一步提升视觉定位的成功率。

图6为示例性示出的视觉定位过程示意图。在图6的实施例中，可以在用户旋转设备的过程中，设备采集多帧第一图像；进而根据旋转多帧第一图像进行视觉定位。

S601，在设备旋转过程中，采集K1张第一图像。

示例性的，可以在每次视觉定位时，提示用户旋转设备，例如，在图1(4)中AR视觉导航界面109中显示提示信息，如“请旋转摄像头”；也可以进行语音提示等等，本申请对此不作限制。然后在用户旋转设备的过程中，采集K1张第一图像。其中，K1为大于1的整数。

S602，提取K1张第一图像中的第一文本和提取K1张第一图像的第一全局特征向量。

示例性的，可以参照上述S502，提取K1张第一图像中每张第一图像的第一文本，以及提取每张第一图像的第一全局特征向量。

S603，根据K1张第一图像中的第一文本、K1张第一图像的第一全局特征向量以及预设的多张第二图像中的第二文本和多张第二图像的第二全局特征向量进行图像检索，以从多张第二图像中选取与K1张第一图像分别匹配的M张第三图像。

示例性的，可以参照上述S503，从多张第二图像中选取与每张第一图像匹配的第三图像。示例性的，与每张第一图像匹配的第三图像为M(M为正整数)张，其中，与每张第一图像匹配的第三图像的数量可以相同，也可以不同，本申请对此不作限制。

S604，基于K1张第一图像分别匹配的M张第三图像，确定K1张第一图像分别对应的N个候选位姿和N个候选位姿分别对应的单帧置信度；N为正整数。

示例性的，可以依次将K1张第一图像中的每张第一图像，确定为目标图像；然后可以根据目标图像和目标图像匹配的M张第三图像，确定目标图像对应的N个候选位姿。

一种可能的方式中，可以先将目标图像匹配的M张第三图像进行共视聚类，以得到N组第三图像；然后按照S504的方式，基于目标图像和一组第三图像，确定目标图像对应的一个候选位姿，这样，可以确定目标图像对应的N个候选位姿。

示例性的，共视聚类可以是指以保证任意两组第三图像包含部分共同的3D点云且3D点云个数大于或等于1的目标进行的聚类。

一种可能的方式中，可以先按照S504的方式，基于目标图像和目标图像匹配的M张第三图像，确定目标图像对应的M个候选位姿；然后再基于目标图像对应的M个候选位姿进行聚类，以得到目标图像对应的N个候选位姿。

示例性的，在确定目标图像对应的N个候选位姿后，可以确定N个候选位姿分别对应的单帧置信度。

示例性的，可以参照如下公式计算一个候选位姿对应的单帧置信度：
单帧置信度＝sigmoid(Y),Y＝x/10

其中，x表示位姿对应的内点数(进行内点筛选后得到第三图像与第一图像匹配的特征点数)，其中，sigmoid(Y)＝1/(1+exp(-Y))。

进而，按照上述方法，可以确定K张第一图像中每张第一图像对应的N个候选位姿和N个候选位姿分别对应的单帧置信度。

S605，根据K张第一图像分别对应的N个候选位姿和N个候选位姿分别对应的单帧置信度，确定目标位姿。

示例性的，可以遍历K张第一图像分别对应的N个候选位姿，从任意两张第一图像分别对应的N个候选位姿中，分别选取一个候选位姿组成一个位姿组合，以得到多个位姿组合。例如，可以从第i1张第一图像对应的N个候选位姿中选取第j1个候选位姿，以及从第i2张第一图像对应的N个候选位姿中选取第j2个候选位姿；然后采用第j1个候选位姿和第j2个候选位姿，组成一个位姿组合。其中，其中，i1和i2是1～K之间的正整数，i1不等于i2；j1和j2是1～M之间的正整数，j1不等于j2。这样，遍历K张第一图像分别对应的N个候选位姿，可以得到多个位姿组合。

示例性的，在得到多个位姿组合后，针对多个位姿组合中的一个第一位姿组合，可以计算该第一位姿组合包含的两个候选位姿之间的相对位姿，也就是两张图像之间预测的相对位姿。在采集到K张第一图像后，SLAM系统可以输出K张第一图像中任意两张图像之间的相对位姿，也就是两张图像之间真实的相对位姿，即SLAM位姿。进而可以获取第一位姿组合对应的两张第一图像之间的SLAM位姿；然后，可以计算第一位姿组合中两个候选位姿之间的相对位姿，和第一位姿组合对应的两张第一图像之间的SLAM位姿的位姿误差，也就是计算预测的相对位姿和真实的相对位姿的误差。

示例性的，若存在位姿误差小于预设误差的候选位姿组合，则说明预测的相对位姿较为准确，候选位姿组合也可靠；此时可以根据候选位姿组合对应的单帧置信度，确定候选位姿组合对应的联合置信度；将联合置信度最高的候选位姿组合，确定为目标位姿。其中，预设误差可以按照需求设置，本申请对此不作限制。

示例性的，可以先确定候选位姿组合的联合置信度权重，然后根据候选位姿组合包含的两个候选位姿的单帧置信度和联合置信度权重，确定候选位姿组合对应的联合置信度。例如，采用候选位姿组合包含的两个候选位姿的单帧置信度与联合置信度权重相乘，得到候选位姿组合对应的联合置信度。

示例性的，可以根据候选位姿组合包含的两个候选位姿的单帧置信度，和正态分布函数，来确定联合置信度权重。例如，可以计算候选位姿组合包含的两个候选位姿的单帧置信度之间的相对位姿，将相对位姿作为正态分布函数的自变量，可以得到对应的概率分布，即联合置信度权重。

示例性的，正态分布函数的均值和方差可以按照需求设置，例如均值为0，方差为1，本申请对此不作限制。

这样，能够联合多帧的大视角视觉定位，进而提高视觉定位的成功率。尤其是能够提高光照变化场景/季节变化场景/视角尺度变化场景/重复纹理场景/弱纹理场景等场景中的视觉定位成功率。

示例性的，若不存在位姿误差小于预设误差的候选位姿组合，则说明预测的相对位姿不准确，候选位姿组合不可靠，此时可以将K张第一图像分别对应的N个候选位姿中单帧置信度最高的位姿，确定为目标位姿。

图7为示例性示出的视觉定位过程示意图。在图7的实施例中，在每次视觉定位过程中，联合本次视觉定位采用的第一图像和上一次视觉定位采用的第一图像实现。相对与图6的实施例而言，视觉定位过程无需用户配合，能够在提高视觉定位成功率的同时，提高用户体验，实用性更高。

S701，采集第一图像。

S702，提取第一图像中的第一文本和提取第一图像的第一全局特征向量。

S703，根据第一文本、第一全局特征向量以及预设的多张第二图像中的第二文本和多张第二图像的第二全局特征向量进行图像检索，以从多张第二图像中选取与第一图像匹配的第三图像，多张第二图像是在构建视觉定位地图过程中采集的。

示例性的，S701～S703，可以参照上述S501～S503的描述，在此不再赘述。

S704，确定本次视觉定位采用的第一图像对应的单帧置信度最高的R个第一候选位姿，R为正整数。

示例性的，S704可以参照S604的方式，确定本次视觉定位采用的第一图像对应的多个候选位姿；然后从第一图像对应的多个候选位姿中，选取单帧置信度最高的R个第一候选位姿。

示例性的，在得到本次视觉定位采用的第一图像对应的单帧置信度最高的R个第一候选位姿后，一方面可以执行S705～S707，以确定目标位姿；另一方面，可以保存这R 个第一候选位姿，以供后续视觉定位使用。

S705，将上一次视觉定位采用的第一图像对应的单帧置信度最高的R个第二候选位姿，分别增加SLAM位姿，以得到R个第三候选位姿。

示例性的，上一次视觉定位过程中，存储了上一次视觉定位采用的第一图像对应的单帧置信度最高的R个第二候选位姿；因此可以获取这R个第二候选位姿。然后将这R个候选位姿分别增加SLAM位姿，可以得到R个第三候选位姿。

S706，确定R个第三候选位姿分别对应的概率，以及R个第一候选位姿分别对应的概率。

示例性的，假设R等于3，记3个第二候选位姿分别为a1、a2和a3，3个第二候选位姿的单帧置信度分别为：P_a1、P_a1、P_a3。记3个第一候选位姿分别为b1、b2和b3，3个第一候选位姿的单帧置信度分别为：P_b1、P_b2、P_b3。以及记3个第三候选位姿分别为c1、c2和c3；其中，c1＝a1+SLAM pose，c2＝a2+SLAM pose，c3＝a3+SLAM pose。

假设多帧定位成功概率为P_ms，多帧定位失败概率为P_mf，单帧定位成功概率为P_ss，单帧定位失败概率为P_sf，将第一候选位姿与第二候选位姿的相对位姿，和SLAM位姿相同的概率为P_Δrt。此时，第三候选位姿c1的概率为：P_a1*P_sf*P_ms，第三候选位姿c2的概率为：P_a2*P_sf*P_ms，第三候选位姿c3的概率为：P_a3*P_sf*P_ms。第一候选位姿b1的概率为：P_b1*P_a*P_ss*P_Δrt*P_ms或P_b1*P_ss*P_mf，第三候选位姿b2的概率为：P_b2*P_a*P_ss*P_Δrt*P_ms或P_b2*P_ss*P_mf，第三候选位姿b3的概率为：P_b3*P_a*P_ss*P_Δrt*P_ms或P_b3*Pss*P_mf。

S707，将概率最高的第一候选位姿或第三候选位姿，作为本次视觉定位对应的目标位姿。

示例性的，从R个第一候选位姿和R个第三候选位姿中，选择概率最高的一个候选位姿(可能是第一候选位姿，也可能是第三候选位姿)作为本次视觉定位对应的目标位姿。

这样，通过联合本次视觉定位采用的第一图像和上一次视觉定位采用的第一图像视觉定位，来降低单帧视觉定位的误差，提高视觉定位的成功率。尤其可以提高光照变化场景/季节变化场景/视角尺度变化场景/重复纹理场景/弱纹理场景等场景中的视觉定位的成功率。

本申请还提供了一种导航地图的构建方法，将场所的位置注册到图5实施例生成的视觉定位地图和2D视觉导航地图中；这样，在用户使用AR地图导航时，AR地图能够提供AR视觉导航，即执行上述图2实施例的中的S203，或者上述图4实施例中的S406～S409。

图8为示例性示出的导航地图构建过程示意图。

S801，采集场所的场所标识信息，场所标识信息包括场所标识文本和/或场所标识图形。

示例性的，可以采集场所的场所标识信息。其中，场所标识信息可以是场所标识文本，也可以是场所标识图形。

例如，场所为超市时，场所标识文本可以是超市名称，场所标识图形可以是超市商标。

例如，场所为动物园时，场所标识文本可以是动物园名称，场所标识图形可以是动物园商标。

S802，在预设的多张第一图像中进行多模态检索，以确定包含场所标识信息的第二图像，多张第一图像是在构建视觉定位地图过程中采集的。

示例性的，在构建视觉定位地图过程中，生成了视觉定位地图数据库；其中，视觉定位地图数据库可以包括数据采集设备采集的图像(后续称为第一图像)、第一图像包含的2D特征点、2D特征点对应的3D点云(可以包括3D坐标)以及第一图像的标识文本等等数据。具体可以参照上述图5的实施例中的描述，在此不再赘述。

示例性的，当场所标识信息为场所标识文本(如场所名称文本)时，可以根据视觉定位地图数据库中第一图像的标识文本，选取出包含场所名称文本的第一图像，作为第二图像。

示例性的，当场所标识信息为场所标识图形(如场所商标图形)时，可以分别提取视觉定位地图数据库中多张第一图像中包含的图形；然后根据第一图像所包含的图形，从多张第一图像中选取出包含场所标识图形的第一图像，作为第二图像。

例如，场所为超市，可以从多张第一图像中选取包含超市名称/商标的第一图像，作为第二图像。

例如，场所为动物园，可以从多张第一图像中选取包含动物园名称/商标的第一图像，作为第二图像。

例如，场所为植物园，可以从多张第一图像中选取包含植物园名称/商标的第一图像，作为第二图像。

示例性的，场所对应的第二图像可以包括一张或多张。

S803，根据第二图像中场所标识信息，确定场所在视觉定位地图中的3D坐标。

示例性的，从视觉定位地图数据库包含的2D特征点中，确定第二图像中场所标识信息对应的2D特征点；接着再从视觉定位地图数据库中，确定第二图像中场所标识信息对应的3D点云(包括3D坐标)。这样，然后可以将第二图像中场所标识信息对应的3D点云中的3D坐标，确定为场所在视觉定位地图中的3D坐标。

示例性的，当场所对应的第二图像包括多张时，可以得到多张第二图像中场所标识信息对应的3D点云；可以将每张第二图像中场所标识信息对应3D点云中的3D坐标的平均值，作为场所在视觉定位地图中的3D坐标。

S804，将场所在视觉定位地图中的3D坐标，映射至2D视觉导航地图中，以得到场所在2D视觉导航地图中的2D坐标。

一种可能方式中，可以直接将场所在视觉定位地图中的3D坐标映射2D平面，即进行3D到2D的转换，进而可以得到场所在2D视觉导航地图中的2D坐标。

一种可能的方式中，当第二图像包括多张时，可以分别将每张第二图像中场所标志信息对应3D点云中的3D坐标，映射至2D平面，可以得到多组2D坐标。然后，可以将多组2D坐标的平均值，可以得到场所在2D视觉导航地图中的2D坐标。

示例性的，针对较大的场所(如大型超市、大型动物园等等)，可以构建场所内的导航地图；以便于后续指引用户快速达到较大场所内的各类对象所在位置。

图9为示例性示出的导航地图构建过程示意图。在图9的实施例中，示出了构建场所内的视觉定位地图的过程。

S901，采集场所内的地图重建数据，根据地图重建数据进行三维重建，以更新视觉定位地图，地图重建数据包括场所内的第三图像，场所包含多个类别的对象。

应该理解的是，构建场所内的视觉定位地图的方式，与上述图5实施例中描述的构建视觉定位地图类似，区别在于，在构建场所内的视觉定位地图中，是在场所内行走，以采集场所内的图像等数据；然后根据采集到的数据进行三维重建，得到场所内的视觉定位地图。

示例性的，可以将得到场所内的视觉定位地图，添加至上述图5实施例中视觉定位地图中，来对上述图5实施例中视觉定位地图进行更新，以得到更新后的视觉定位地图。其中，场所内的视觉定位地图，可以看做是上述图5实施例中视觉定位地图的子地图。

示例性的，用户可以在场所门口进行视觉定位，然后启动AR地图中的SLAM系统。示例性的，在SLAM系统运行过程中，可以由用户手持手机或者头戴AR眼镜等设备(摄像头处于开启状态)，以遍历场所内所有类别的类别标识信息(可以包括类别标识文本和/或类别标识图形)为目标，在场所内行走采集，来采集场所内的第三图像。

例如，场所为大型超市时，可以在超市内部行走，遍历所有商品类别对应的类别名称文本或者类别商标图形。

例如，场所为大型动物园时，可以在动物园内部行走，遍历所有动物类别对应的类别名称文本或者类别简笔图形。

S902，提取第三图像中类别标识文本对应的2D特征点。

示例性的，可以进行对第三图像进行OCR，识别出第三图像中的类别标识文本。

例如，场所为大型超市，从第三图像中识别出的类别标识文本可以如“洗护用品”、“休闲食品”和“生鲜果蔬”等等。

例如，场所为大型动物园，从第三图像中识别出的类别标识文本可以如“海豹馆”、“企鹅馆”和“长颈鹿喂食区”等等。

示例性的，在识别出第三图像中的类别标识文本后，可以提取第三图像中这些类别标识文本对应的2D特征点。

S903，确定类别标识文本对应的2D特征点在SLAM坐标系中的3D点云。

示例性的，可以由SLAM系统进行计算，确定类别标识文本对应的2D特征点，在SLAM坐标系中的3D点云。

S904，将SLAM坐标系中的3D点云，映射为更新后的视觉定位地图对应视觉定位地图坐标系中的3D点云。

示例性的，SLAM坐标系和视觉定位地图坐标系是不同的坐标系，可以根据SLAM坐标系和视觉定位地图坐标系之间的转换关系，将SLAM坐标系中的3D点云，映射为更新后的视觉定位地图对应视觉定位坐标系中的3D点云。

以下对构建场所内各类别的对象对应的2D视觉导航地图的过程进行说明。

图10为示例性示出的导航地图构建过程示意图。

S1001，获取类别的类别标识信息，类别标识信息包括类别标识文本和/或类别标识图形。

S1002，在第三图像中进行多模态检索，以确定包含类别标识信息的第四图像。

S1003，确定第四图像中类别标识信息，确定类别的对象在更新后的视觉定位地图中的3D坐标。

S1004，依据更新后的视觉定位地图，更新2D视觉导航地图。

示例性的，可以将更新后的视觉定位地图中场所内的视觉定位地图包含的3D点云，映射到2D平面，可以得到场所内的2D视觉导航地图；然后将场所内的2D视觉导航地图，添加至图5实施例中的2D视觉导航地图中，来更新包含多个场所的2D视觉导航地图，以得到更新后的2D视觉导航地图。其中，场所内的2D视觉导航地图，可以看做是上述图5实施例中2D视觉导航地图的子地图。

S1005，将类别的对象在更新后的视觉定位地图中的3D坐标，映射至2D视觉导航地图中，以得到类别的对象在2D视觉导航地图中的2D坐标。

示例性的，S1001～S1003以及S1005，可以参照上述S801～S804的描述，在此不再赘述。

一个示例中，图11示出了本申请实施例的一种装置1100的示意性框图装置1100可包括：处理器1101和收发器/收发管脚1102，可选地，还包括存储器1103。

装置1100的各个组件通过总线1104耦合在一起，其中总线1104除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图中将各种总线都称为总线1104。

可选地，存储器1103可以用于存储前述方法实施例中的指令。该处理器1101可用于执行存储器1103中的指令，并控制接收管脚接收信号，以及控制发送管脚发送信号。

装置1100可以是上述方法实施例中的电子设备或电子设备的芯片。

其中，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。

本实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令，当该计算机指令在电子设备上运行时，使得电子设备执行上述相关方法步骤实现上述实施例中的导航方法和/或视觉定位方法和/或导航地图构建方法。

本实施例还提供了一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述相关步骤，以实现上述实施例中的导航方法和/或视觉定位方法和/或导航地图构建方法。

另外，本申请的实施例还提供一种装置，这个装置具体可以是芯片，组件或模块，该装置可包括相连的处理器和存储器；其中，存储器用于存储计算机执行指令，当装置运行时，处理器可执行存储器存储的计算机执行指令，以使芯片执行上述各方法实施例中的导航方法和/或视觉定位方法和/或导航地图构建方法。

其中，本实施例提供的电子设备、计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

通过以上实施方式的描述，所属领域的技术人员可以了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本申请各个实施例的任意内容，以及同一实施例的任意内容，均可以自由组合。对上述内容的任意组合均在本申请的范围之内。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

结合本申请实施例公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(Random Access Memory，RAM)、闪存、只读存储器(Read Only Memory，ROM)、可擦除可编程只读存储器(Erasable Programmable ROM，EPROM)、电可擦可编程只读存储器(Electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD-ROM)或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机可读存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

Claims

一种导航方法，其特征在于，所述方法包括：

获取用户在增强现实AR地图中输入的位置搜索信息，所述位置搜索信息包括以下至少一种：文本、语音或图像；

基于所述位置搜索信息，在预设的多模态信息中进行多模态搜索，以确定所述位置搜索信息匹配的位置搜索结果；

根据所述位置搜索结果进行AR视觉导航。
根据权利要求1所述的方法，其特征在于，所述多模态信息包括多个实体的实体标识信息，所述实体标识信息包括实体标识文本和/或实体标识图像；

所述基于所述位置搜索信息，在预设的多模态信息中进行多模态搜索，以确定所述位置搜索信息匹配的位置搜索结果，包括：

对所述位置搜索信息进行特征提取，以得到所述位置搜索信息对应的第一特征；

对多个实体标识信息进行特征提取，以得到所述多个实体标识信息分别对应的第二特征；

确定所述多个实体标识信息分别对应的第二特征，与所述第一特征之间的第一特征距离；

从所述多个实体标识信息中，选取对应第一特征距离小于第一距离阈值的实体标识信息作为所述位置搜索结果。
根据权利要求1或2所述的方法，其特征在于，

所述位置搜索信息包括以下至少一种：实体名称文本、实体名称语音或实体图像；

所述实体包括：场所和/或所述场所包含的对象。
根据权利要求2所述的方法，其特征在于，所述确定所述多个实体标识信息分别对应的第二特征，与所述第一特征之间的第一特征距离，包括：

针对所述多个实体标识信息中第一实体标识信息，所述第一实体标识信息包括实体标识文本和实体标识图像：

将所述第一实体标识信息包含的实体标识文本所对应的第二特征与所述第一特征之间的第一特征距离，与所述第一实体标识信息包含的实体标识图像所对应的第二特征与所述第一特征之间的第一特征距离进行加权计算；

将所述加权计算的结果，作为所述第一实体标识信息对应的第二特征与所述第一特征之间的第一特征距离。
根据权利要求1至4任一项所述的方法，其特征在于，所述根据所述位置搜索结果进行AR视觉导航，包括：

基于预先生成的2D视觉导航地图，生成所述用户的当前位置和所述位置搜索结果对应目标位置之间的2D导航路径；

进行视觉定位，以确定目标位姿，所述目标位姿是指设备的当前位姿；

基于所述所述2D导航路径和所述目标位姿，进行AR视觉导航。
根据权利要求5所述的方法，其特征在于，所述进行视觉定位，以确定目标位姿，包括：

采集第一图像；

提取所述第一图像中的第一文本和提取所述第一图像的第一全局特征向量；

基于所述第一文本、所述第一全局特征向量以及预设的多张第二图像中的第二文本和所述多张第二图像的第二全局特征向量进行图像检索，以从所述多张第二图像中选取所述第一图像匹配的第三图像，所述多张第二图像是在构建视觉定位地图过程中采集的，所述2D视觉导航地图是基于所述视觉定位地图生成的；

基于所述第一图像和所述第三图像，确定所述目标位姿，所述目标位姿是指采集所述第一图像时设备的位姿。
根据权利要求6所述的方法，其特征在于，所述根据所述第一文本、第一全局特征向量以及预设的多张第二图像中的第二文本和所述多张第二图像的第二全局特征向量进行图像检索，以从所述多张第二图像中选取所述第一图像匹配的第三图像，包括：

根据所述多张第二图像中的第二文本，从所述多张第二图像中选取包含所述第一文本的多张第四图像；

分别确定所述多张第四图像的第二全局特征向量，与所述第一全局特征向量之间的第二特征距离；

从所述多张第四图像中，选取对应第二特征距离小于第二距离阈值的第三图像。
根据权利要求6或7所述的方法，其特征在于，所述提取所述第一图像的第一全局特征向量，包括：

确定所述第一文本在所述第一图像中对应的目标区域；

增加已训练的特征提取网络的网络层中所述目标区域对应的权重；

将所述第一图像输入至所述特征提取网络，以得到所述特征提取网络输出的第一全局特征向量。
根据权利要求6至8任一项所述的方法，其特征在于，

所述采集第一图像，包括：

在所述设备旋转过程中，采集K张第一图像，每张第一图像匹配的第三图像为M张，K为大于1的整数，M为正整数；

所述基于所述第一图像和所述第三图像，确定所述目标位姿，包括：

基于所述K张第一图像分别匹配的M张第三图像，确定所述K张第一图像分别对应的N个候选位姿和所述N个候选位姿分别对应的单帧置信度，N为正整数；

根据所述K张第一图像分别对应的N个候选位姿和所述N个候选位姿分别对应的单帧置信度，确定所述目标位姿。
根据权利要求9所述的方法，其特征在于，所述根据所述K张第一图像分别对应的N个候选位姿和所述N个候选位姿分别对应的单帧置信度，确定所述目标位姿，包括：

遍历所述K张第一图像分别对应的N个候选位姿，从任意两张第一图像分别对应的N个候选位姿中分别选取一个候选位姿组成一个位姿组合，以得到多个位姿组合；

针对一个第一位姿组合，确定所述第一位姿组合对应两张第一图像之间的同时定位与建图SLAM位姿，以及所述第一位姿组合中两个候选位姿之间的相对位姿；确定所述SLAM位姿与所述相对位姿之间的位姿误差；

若存在位姿误差小于预设误差的候选位姿组合，则根据所述候选位姿组合对应的单帧置信度，确定所述候选位姿组合对应的联合置信度；将所述联合置信度最高的候选位姿组合，确定为所述目标位姿。
根据权利要求10所述的方法，其特征在于，所述方法还包括：

若不存在位姿误差小于预设误差的候选位姿组合，则将所述K张第一图像分别对应的N个候选位姿中单帧置信度最高的候选位姿，确定为所述目标位姿。
根据权利要求6至8任一项所述的方法，其特征在于，所述基于所述第一图像和所述第三图像，确定所述目标位姿，包括：

确定本次视觉定位采用的第一图像对应的单帧置信度最高的R个第一候选位姿，R为正整数；

将上一次视觉定位采用的第一图像对应的单帧置信度最高的R个第二候选位姿，分别增加SLAM位姿，得到R个第三候选位姿；

确定所述R个第三候选位姿分别对应的概率，以及所述R个第一候选位姿分别对应的概率；

将概率最高的第一候选位姿或第三候选位姿，确定为所述目标位姿。
根据权利要求5至12任一项所述的方法，其特征在于，所述方法还包括：

采集场所的场所标识信息，所述场所标识信息包括场所标识文本和/或场所标识图形；

在预设的多张第二图像中进行多模态搜索，以确定包含所述场所标识信息的第五图像，所述多张第二图像是在构建视觉定位地图过程中采集的；

根据所述第五图像中的所述场所标识信息，确定所述场所在所述视觉定位地图中的3D坐标；

将所述场所在所述视觉定位地图中的3D坐标，映射至所述2D视觉导航地图中，以得到所述场所在所述2D视觉导航地图中的2D坐标。
根据权利要求6至13任一项所述的方法，其特征在于，所述方法还包括：

采集场所内的地图重建数据，根据所述地图重建数据进行三维重建，以更新所述视觉定位地图，所述地图重建数据包括所述场所内的第六图像，所述场所包含多个类别的对象；

提取所述第六图像中类别标识文本对应的2D特征点，以及确定所述类别标识文本对应的2D特征点在SLAM坐标系中的3D点云；

将所述SLAM坐标系中的3D点云，映射为所述更新后的视觉定位地图对应视觉定位地图坐标系中的3D点云。
根据权利要求14所述的方法，其特征在于，所述方法还包括：

采集所述类别的类别标识信息，所述类别标识信息包括类别标识文本和/或类别标识图形；

在所述第六图像中进行多模态搜索，以确定包含所述类别标识信息的第七图像；

根据所述第七图像中的所述类别标识信息，确定所述类别的对象在所述更新后的视觉定位地图中的3D坐标；

依据所述更新后的视觉定位地图，更新所述2D视觉导航地图；

将所述类别包含的对象在所述视觉定位地图中的3D坐标，映射至所述更新后的2D视觉导航地图中，以得到所述类别的对象在所述更新后的2D视觉导航地图中的2D坐标。
一种视觉定位方法，其特征在于，所述方法包括：

采集第一图像；

提取所述第一图像中的第一文本和提取所述第一图像的第一全局特征向量；

基于所述第一文本、所述第一全局特征向量以及预设的多张第二图像中的第二文本和所述多张第二图像的第二全局特征向量进行图像检索，以从所述多张第二图像中选取所述第一图像匹配的第三图像，所述多张第二图像是在构建视觉定位地图过程中采集的；

基于所述第一图像和所述第三图像，确定目标位姿，所述目标位姿是指采集第一图像时设备的位姿。
根据权利要求16所述的方法，其特征在于，所述基于所述第一文本、所述第一全局特征向量以及预设的多张第二图像中的第二文本和所述多张第二图像的第二全局特征向量进行图像检索，以从所述多张第二图像中选取所述第一图像匹配的第三图像，包括：

根据所述多张第二图像中的第二文本，从所述多张第二图像中选取包含所述第一文本的多张第四图像；

分别确定所述多张第四图像的第二全局特征向量，与所述第一全局特征向量之间的第二特征距离；

从所述多张第四图像中，选取对应第二特征距离小于第二距离阈值的第三图像。
根据权利要求16或17所述的方法，其特征在于，所述提取所述第一图像的第一全局特征向量，包括：

确定所述第一文本在所述第一图像中对应的目标区域；

增加已训练的特征提取网络的网络层中所述目标区域对应的权重；

将所述第一图像输入至所述特征提取网络，以得到所述特征提取网络输出的第一全局特征向量。
根据权利要求16至18任一项所述的方法，其特征在于，

所述采集第一图像，包括：

在所述设备旋转过程中，采集K张第一图像，每张第一图像匹配的第三图像为M张，K为大于1的整数，M为正整数；

所述基于所述第一图像和所述第三图像，确定目标位姿，包括：

基于所述K张第一图像分别匹配的M张第三图像，确定所述K张第一图像分别对应的N个候选位姿和所述N个候选位姿分别对应的单帧置信度，N为正整数；

根据所述K张第一图像分别对应的N个候选位姿和所述N个候选位姿分别对应的单帧置信度，确定所述目标位姿。
根据权利要求19所述的方法，其特征在于，所述根据所述K张第一图像分别对应的N个候选位姿和所述N个候选位姿分别对应的单帧置信度，确定所述目标位姿，包括：

遍历所述K张第一图像分别对应的N个候选位姿，从任意两张第一图像分别对应的N个候选位姿中分别选取一个候选位姿组成一个位姿组合，以得到多个位姿组合；

针对一个第一位姿组合，确定所述第一位姿组合对应两张第一图像之间的同时定位与建图SLAM位姿，以及所述第一位姿组合中两个候选位姿之间的相对位姿；确定所述SLAM位姿与所述相对位姿之间的位姿误差；

若存在位姿误差小于预设误差的候选位姿组合，则根据所述候选位姿组合对应的单帧置信度，确定所述候选位姿组合对应的联合置信度；将所述联合置信度最高的候选位姿组合，确定为所述目标位姿。
根据权利要求20所述的方法，其特征在于，所述方法还包括：

若不存在位姿误差小于预设误差的候选位姿组合，则将所述K张第一图像分别对应的N个候选位姿中单帧置信度最高的候选位姿，确定为所述目标位姿。
根据权利要求19至21任一项所述的方法，其特征在于，所述基于所述K张第一图像分别匹配的M张第三图像，确定所述K张第一图像分别对应的N个候选位姿，包括：

针对所述K张第一图像中的目标图像：

将所述目标图像匹配的M张第三图像进行共视聚类，以得到N组第三图像；

基于所述目标图像和所述N组第三图像，确定所述目标图像对应的N个候选位姿。
根据权利要求19至21任一项所述的方法，其特征在于，所述基于所述K张第一图像分别匹配的M张第三图像，确定所述K张第一图像分别对应的N个候选位姿，包括：

针对所述K张第一图像中的目标图像：

基于所述目标图像和所述目标图像匹配的M张第三图像，确定所述目标图像对应的M个候选位姿；

基于所述目标图像对应的M个候选位姿进行聚类，以得到所述目标图像对应的N个候选位姿。
根据权利要求16至18任一项所述的方法，其特征在于，所述基于所述第一图像和所述第三图像，确定目标位姿，包括：

确定本次视觉定位采用的第一图像对应的单帧置信度最高的R个第一候选位姿，R为正整数；

将上一次视觉定位采用的第一图像对应的单帧置信度最高的R个第二候选位姿，分别增加SLAM位姿，以得到R个第三候选位姿；

确定所述R个第三候选位姿分别对应的概率，以及所述R个第一候选位姿分别对应的概率；

将概率最高的第一候选位姿或第三候选位姿，确定为所述目标位姿。
一种导航地图构建方法，其特征在于，所述方法包括：

采集场所的场所标识信息，所述场所标识信息包括场所标识文本和/或场所标识图形；

在预设的多张第一图像中进行多模态检索，以确定包含所述场所标识信息的第二图像，所述多张第一图像是在构建视觉定位地图过程中采集的；

根据所述第二图像中所述场所标识信息，确定所述场所在所述视觉定位地图中的3D坐标；

将所述场所在所述视觉定位地图中的3D坐标，映射至2D视觉导航地图中，以得到所述场所在所述2D视觉导航地图中的2D坐标，所述2D视觉导航地图根据所述视觉定位地图生成。
根据权利要求25所述的方法，其特征在于，所述方法还包括：

采集场所内的地图重建数据，根据所述地图重建数据进行三维重建，以更新所述视觉定位地图，所述地图重建数据包括所述场所内的第三图像，所述场所包含多个类别的对象；

提取所述第三图像中类别标识文本对应的2D特征点，确定所述类别标识文本对应的2D特征点在SLAM坐标系中的3D点云；

将所述SLAM坐标系中的3D点云，映射为所述更新后的视觉定位地图对应视觉定位地图坐标系中的3D点云。
根据权利要求26所述的方法，其特征在于，所述方法还包括：

获取所述类别的类别标识信息，所述类别标识信息包括类别标识文本和/或类别标识图形；

在所述第三图像中进行多模态检索，以确定包含所述类别标识信息的第四图像；

确定所述第四图像中所述类别标识信息，确定所述类别的对象在所述更新后的视觉定位地图中的3D坐标；

依据所述更新后的视觉定位地图，更新所述2D视觉导航地图；

将所述类别的对象在所述更新后的视觉定位地图中的3D坐标，映射至2D视觉导航地图中，以得到所述类别的对象在所述2D视觉导航地图中的2D坐标。
一种电子设备，其特征在于，包括：

存储器和处理器，所述存储器与所述处理器耦合；

所述存储器存储有程序指令，当所述程序指令由所述处理器执行时，使得所述电子设备执行权利要求1至权利要求27中任一项所述的方法。
一种芯片，其特征在于，包括一个或多个接口电路和一个或多个处理器；所述接口电路用于从电子设备的存储器接收信号，并向所述处理器发送所述信号，所述信号包括存储器中存储的计算机指令；当所述处理器执行所述计算机指令时，使得所述电子设备执行权利要求1至权利要求27中任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序运行在计算机或处理器上时，使得所述计算机或所述处理器执行权利要求1至权利要求27中任一项所述的方法。
一种计算机程序产品，其特征在于，所述计算机程序产品包含软件程序，当所述软件程序被计算机或处理器执行时，使得权利要求1至权利要求27任一项所述的方法的步骤被执行。