CN111931762B

CN111931762B - 基于ai的图像识别解决方法、装置及可读存储介质

Info

Publication number: CN111931762B
Application number: CN202011021413.XA
Authority: CN
Inventors: 不公告发明人
Original assignee: Guangzhou Bairui Network Technology Co ltd
Current assignee: Guangzhou Bairui Network Technology Co ltd
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2021-07-30
Anticipated expiration: 2040-09-25
Also published as: CN111931762A

Abstract

本发明公开了一种基于AI的图像识别解决方法、装置及可读存储介质，涉及图像识别技术领域，基于AI的图像识别解决方法包括：获取用户指示图像；通过至少一个上级预测模型，得到相应的预设指令触发标识；基于得到的至少一个上级预测模型的预设指令触发标识，更新用户指示图像中相应第二指令触发对象的特征标识；基于更新至少一个特征标识后的用户指示图像，训练图像识别模型，使得图像识别模型能够基于用户终端采集的用户实时图像，进行对应第一指令触发对象及至少一个第二指令触发对象的控制指令预测，以基于控制指令预测结果执行控制指令预测结果对应的控制指令，能够实现基于图像识别的控制指令触发的方案。

Description

基于AI的图像识别解决方法、装置及可读存储介质

技术领域

本发明涉及图像识别技术领域，具体而言，涉及一种基于AI的图像识别解决方法、装置及可读存储介质。

背景技术

目前，随着智能移动终端的普及和技术手段的革新，视频通话、直播等功能逐渐兴起。相比起发送文字或者语音，用户之间直接进行视频交互符合当下的发展趋势。设备在用户进行视频交互的过程中，当用户需要使用一些相关指令时，大多还是通过手动按键、或者简单的语音输入实现触发相关的功能。在实际使用中，用户可能不方便直接动手操作，而进行语音输入又可能与正在使用的功能发生冲突(例如正在进行通话、观看视频或者进行直播等)。而在现有技术中，并没有较为成熟的通过识别包含有用户动作的图像触发对应指令的方案。

有鉴于此，如何提供一种能够基于图像识别解决控制指令触发的方案，是本领域技术人员需要解决的。

发明内容

本发明的目的在于提供一种基于AI的图像识别解决方法、装置及可读存储介质。

第一方面，本发明实施例提供一种基于AI的图像识别解决方法，所述方法包括：

获取用于图像识别的图像识别模型的用户指示图像，所述用户指示图像包括与指令触发对象相对应的至少两个特征标识，所述指令触发对象包括：第一指令触发对象及至少一个第二指令触发对象，所述第二指令触发对象的图像获取时间范围大于所述第一指令触发对象的图像获取时间范围；

将所述用户指示图像分别输入至少一个上级预测模型，每个所述上级预测模型用于对一个所述第二指令触发对象进行预测；

通过所述至少一个上级预测模型，分别对所述用户指示图像进行第二指令触发对象预测，得到相应的预设指令触发标识；

基于得到的所述至少一个上级预测模型的预设指令触发标识，更新所述用户指示图像中相应第二指令触发对象的特征标识，得到更新至少一个特征标识后的用户指示图像；

基于所述更新至少一个特征标识后的用户指示图像，训练所述图像识别模型，使得所述图像识别模型能够基于采集的用户实时图像，进行对应所述第一指令触发对象及所述至少一个第二指令触发对象的控制指令预测，以基于控制指令预测结果执行所述控制指令预测结果对应的控制指令。

可选地，所述获取用于图像识别的图像识别模型的用户指示图像，包括：基于所述第一指令触发对象的图像获取时间范围，采集用户实时图像对应所述第一指令触发对象的数据及对应所述至少一个第二指令触发对象的数据；

基于采集的数据构造所述图像识别模型的用户指示图像。

可选地，所述基于得到的所述至少一个上级预测模型的预设指令触发标识，更新所述用户指示图像中相应第二指令触发对象的特征标识，得到更新至少一个特征标识后的用户指示图像，包括：

分别将各所述上级预测模型的预设指令触发标识，作为用户指示图像中相应的第二指令触发对象的特征标识进行标注，以更新用户指示图像中相应第二指令触发对象的特征标识，得到更新至少一个特征标识后的用户指示图像。

可选地，所述将所述用户指示图像分别输入至少一个上级预测模型之前，所述方法还包括：

获取所述至少一个上级预测模型的用户指示图像，各所述上级预测模型的用户指示图像基于相应的所述第二指令触发对象的图像获取时间范围采样得到，且至少包括相应的所述第二指令触发对象对应的特征标识；

分别将各所述上级预测模型的用户指示图像，输入至相应的上级预测模型，并通过相应的上级预测模型进行所述第二指令触发对象的预测，得到相应的预设指令触发标识；

基于得到的预设指令触发标识、及各所述上级预测模型的用户指示图像所标注的特征标识，确定各所述上级预测模型的损失函数的值；

基于各所述上级预测模型的损失函数的值，更新相应的上级预测模型的模型参数，以使得所述上级预测模型能够基于采集的用户实时图像，对相应的所述第二指令触发对象进行预测。

可选地，所述用户实时图像包括所述用户的多个向量的信息，所述用户实时图像为特定动作图像；

所述方法还包括验证所述用户实时图像的步骤，包括：

获取采集的多个用户实时图像帧，且任意两个用户实时图像帧之间具有至少一个相同向量的信息，将任意两个用户实时图像帧之间，相同向量的信息进行匹配，若每个相同向量的信息都相匹配，则得到至少一组指令动作；或者，

发送动作验证触发标识给动作分析服务器，所述动作验证触发标识用于触发所述动作分析服务器对所述多个向量的信息中的特征指标进行认证；

当接收到所述动作分析服务器根据所述动作验证触发标识返回的认证通过的信息，执行所述得到至少一组指令动作的步骤；或者，

根据图像切割技术对所述特定动作图像进行切割得到局部动作图像；再根据画面捕捉技术识别所述局部动作图像，得到结构化的所述多个向量的信息；

向用户终端发送安全协议，所述安全协议用于请求所述用户终端向动作分析服务器授权获取所述某一动作捕捉服务器中的指令动作；

若接收到所述用户终端根据所述安全协议返回的确认授权的信息，则向至少一个动作捕捉服务器分别获取与所述多个向量中多个向量的信息一致的指令动作，执行所述得到至少一组指令动作的步骤；

将所述至少一组指令动作中每个向量的信息分别与所述多个向量的信息进行匹配，得到至少一组动作参考数据；

根据所述每组动作参考数据中所述各个向量的信息是否匹配或未匹配到的信息，及预设置信度评价规则，统计每组动作参考数据对应的置信度参考系数，其中，所述预设置信度评价规则包括：对于一组动作参考数据中一项相匹配的信息，则对应配置为标准动作数据；对于一组动作参考数据中一项不相匹配的信息，则对应配置为异常动作数据；若一组动作参考数据中一项未匹配到的信息，则对应配置为待定动作数据；所述每组动作参考数据对应的置信度参考系数为一组指令动作中各个向量的信息的动作参考数据对应的参考系数的和值，其中，所述每组动作参考数据中包括：一组指令动作中各个向量的信息与所述多个向量的信息是否匹配或未匹配到的信息；

分别计算每组动作参考数据对应的置信度参考系数，与对应组动作参考数据对应的最大置信度参考系数的比值；

将所述每组动作参考数据对应的比值的和值作为所述动作置信度，或者，将所述每组动作参考数据对应的比值的加权和值作为所述动作置信度；

若所述动作置信度在预设置信度阈值内，则所述用户实时图像通过验证。

可选地，所述基于所述更新至少一个特征标识后的用户指示图像，训练所述图像识别模型，包括：

通过所述图像识别模型，对所述更新至少一个特征标识后的用户指示图像，进行所述指令触发对象的预测，得到控制指令预测结果；

获取各所述指令触发对象的控制指令预测结果与相应指令触发对象对应的特征标识之间的差异；

基于各所述指令触发对象对应的差异，确定所述图像识别模型中相应指令触发对象对应的损失函数的值；

当各所述指令触发对象对应的损失函数的值超出相应损失阈值时，基于各所述指令触发对象对应的损失函数，确定相应指令触发对象的偏离向量；

将各所述偏离向量在所述图像识别模型中反向传播，并在传播的过程中更新所述图像识别模型中各个神经网络层的模型参数。

可选地，所述图像识别模型包括多输入层、图像提取层、图像拼接层和预测层，所述将各所述偏离向量在所述图像识别模型中反向传播，并在传播的过程中更新所述图像识别模型中各个神经网络层的模型参数，包括：

将所述第一指令触发对象的偏离向量，依次传播至所述预测层、图像拼接层、图像提取层以及多输入层，以实现所述第一指令触发对象的偏离向量在所述图像识别模型中的反向传播；

将所述第二指令触发对象的偏离向量，依次传播至所述预测层、图像拼接层以及图像提取层；

对所述第二指令触发对象的偏离向量进行阻断，使得所述第二指令触发对象的偏离向量无法传播至所述多输入层；

在所述第一指令触发对象的偏离向量及所述第二指令触发对象的偏离向量反向传播的过程中，更新所述图像识别模型中各个层的模型参数。

第二方面，本发明实施例提供一种基于AI的图像识别解决装置，应用于计算机设备，所述计算机设备与用户终端通信连接，所述装置包括：

获取模块，用于获取用于图像识别的图像识别模型的用户指示图像，所述用户指示图像包括与指令触发对象相对应的至少两个特征标识，所述指令触发对象包括：第一指令触发对象及至少一个第二指令触发对象，所述第二指令触发对象的图像获取时间范围大于所述第一指令触发对象的图像获取时间范围；

更新模块，用于将所述用户指示图像分别输入至少一个上级预测模型，每个所述上级预测模型用于对一个所述第二指令触发对象进行预测；通过所述至少一个上级预测模型，分别对所述用户指示图像进行第二指令触发对象预测，得到相应的预设指令触发标识；基于得到的所述至少一个上级预测模型的预设指令触发标识，更新所述用户指示图像中相应第二指令触发对象的特征标识，得到更新至少一个特征标识后的用户指示图像；

执行模块，用于基于所述更新至少一个特征标识后的用户指示图像，训练所述图像识别模型，使得所述图像识别模型能够基于采集的用户实时图像，进行对应所述第一指令触发对象及所述至少一个第二指令触发对象的控制指令预测，以基于控制指令预测结果执行所述控制指令预测结果对应的控制指令。

第三方面，本发明实施例提供一种计算机设备，所述计算机设备包括处理器及存储有计算机指令的非易失性存储器，所述计算机指令被所述处理器执行时，所述计算机设备执行第一方面所述的基于AI的图像识别解决方法。

第四方面，本发明实施例提供一种可读存储介质，所述可读存储介质包括计算机程序，所述计算机程序运行时控制所述可读存储介质所在计算机设备执行第一方面所述的基于AI的图像识别解决方法。

相比现有技术，本发明提供的有益效果包括：采用本发明实施例提供的一种基于AI的图像识别解决方法、装置及可读存储介质，通过获取用于图像识别的图像识别模型的用户指示图像，所述用户指示图像包括与指令触发对象相对应的至少两个特征标识，所述指令触发对象包括：第一指令触发对象及至少一个第二指令触发对象，所述第二指令触发对象的图像获取时间范围大于所述第一指令触发对象的图像获取时间范围；再将所述用户指示图像分别输入至少一个上级预测模型，每个所述上级预测模型用于对一个所述第二指令触发对象进行预测；进而通过所述至少一个上级预测模型，分别对所述用户指示图像进行第二指令触发对象预测，得到相应的预设指令触发标识；接着基于得到的所述至少一个上级预测模型的预设指令触发标识，更新所述用户指示图像中相应第二指令触发对象的特征标识，得到更新至少一个特征标识后的用户指示图像；再基于所述更新至少一个特征标识后的用户指示图像，训练所述图像识别模型，使得所述图像识别模型能够基于所述用户终端采集的用户实时图像，进行对应所述第一指令触发对象及所述至少一个第二指令触发对象的控制指令预测，以基于控制指令预测结果执行所述控制指令预测结果对应的控制指令，能够巧妙地基于用户实时图像解决触发对应的控制指令的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍。应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定。对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的基于AI的图像识别解决系统的交互示意图；

图2为本发明实施例提供的基于AI的图像识别解决方法的步骤流程示意图；

图3为本发明实施例提供的基于AI的图像识别解决装置的结构示意框图；

图4为本发明实施例提供的计算机设备的结构示意框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

此外，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，“设置”、“连接”等术语应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接连接，也可以通过中间媒介间接连接，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合附图，对本发明的具体实施方式进行详细说明。

图1是本公开一种实施例提供的基于AI的图像识别解决系统10的交互示意图。基于AI的图像识别解决系统10可以包括计算机设备100以及与计算机设备100通信连接的用户终端200。图1所示的基于AI的图像识别解决系统10仅为一种可行的示例，在其它可行的实施例中，该基于AI的图像识别解决系统10也可以仅包括图1所示组成部分的其中一部分或者还可以包括其它的组成部分。

本实施例中，用户终端200可以包括移动设备、平板计算机、膝上型计算机等或其任意组合。在一些实施例中，移动设备可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、或增强现实设备等，或其任意组合。在一些实施例中，智能家居设备可以包括智能电器设备的控制设备、智能监控设备、智能电视、智能摄像机等，或其任意组合。在一些实施例中，可穿戴设备可包括智能手环、智能鞋带、智能玻璃、智能头盔、智能手表、智能服装、智能背包、智能配件等，或其任何组合。在一些实施例中，智能移动设备可以包括智能手机、个人数字助理、游戏设备等，或其任意组合。在一些实施例中，虚拟现实设备和/或增强现实设备可以包括虚拟现实头盔、虚拟现实玻璃、虚拟现实贴片、增强现实头盔、增强现实玻璃、或增强现实贴片等，或其任意组合。例如，虚拟现实设备和/或增强现实设备可以包括各种虚拟现实产品等。

本实施例中，基于AI的图像识别解决系统10中的物联网云计算机设备100和用户终端200可以通过配合执行以下方法实施例所描述的基于AI的图像识别解决方法，具体计算机设备100和用户终端200的执行步骤部分可以参照以下方法实施例的详细描述。

为了解决前述背景技术中的技术问题，图2为本公开实施例提供的基于AI的图像识别解决方法的流程示意图，本实施例提供的基于AI的图像识别解决方法可以由图1中所示的计算机设备100执行，下面对该基于AI的图像识别解决方法进行详细介绍。

步骤201，获取用于图像识别的图像识别模型的用户指示图像。

其中，用户指示图像包括与指令触发对象相对应的至少两个特征标识，指令触发对象包括：第一指令触发对象及至少一个第二指令触发对象，第二指令触发对象的图像获取时间范围大于第一指令触发对象的图像获取时间范围。

步骤202，将用户指示图像分别输入至少一个上级预测模型，每个上级预测模型用于对一个第二指令触发对象进行预测。

步骤203，通过至少一个上级预测模型，分别对用户指示图像进行第二指令触发对象预测，得到相应的预设指令触发标识。

步骤204，基于得到的至少一个上级预测模型的预设指令触发标识，更新用户指示图像中相应第二指令触发对象的特征标识，得到更新至少一个特征标识后的用户指示图像。

步骤205，基于更新至少一个特征标识后的用户指示图像，训练图像识别模型，使得图像识别模型能够基于用户终端200采集的用户实时图像，进行对应第一指令触发对象及至少一个第二指令触发对象的控制指令预测，以基于控制指令预测结果执行控制指令预测结果对应的控制指令。

在本发明实施例中，计算机设备100和用户终端200可以是一一匹配的，本发明实施例的其他实施方式中，也可以是由计算机设备100对多个用户终端200进行服务。可以先获取用于图像识别的图像识别模型的用户指示图像，用户指示图像可以是用户自己想出的动作预存的，也可以是用户参照规定的动作预存的。用户指示图像包括与指令触发对象相对应的至少两个特征标识，指令触发对象包括：第一指令触发对象及至少一个第二指令触发对象，第二指令触发对象的图像获取时间范围大于第一指令触发对象的图像获取时间范围，第二指令触发对象对应的的用户实时图像能够构成完整的动作。可以将用户指示图像输入至少一个上级模型进行训练，上级模型可以是初始分类模型，为了达到训练的精确度，一个上级预测模型对一个第二指令触发对象进行预测。通过上级模型对第二指令触发对象进行预测，可以得到该第二指令触发对象的预设指令触发标识。在获取了第二指令触发对象的预设指令触发标识后，便可以对用户指示图像的第二指令触发对象的特征标识更新。可以将更新了特征的用户指示图像输入图像识别模型进行训练。通过上述步骤，能够得到一种对通过用户终端200采集的用户实时图像进行识别的模型，可以根据对用户实时图像的识别结果对第一指令触发对象及至少一个第二指令触发对象的控制指令预测，以基于控制指令预测结果执行控制指令预测结果对应的控制指令，控制指令可以是指计算机设备100自身执行的对应的操作，也可以是计算机设备100下发至用户终端200用于控制用户终端200的指令，在此不做限制。通过上述步骤，能够提供一种基于用户终端200设备采集的用户实时图像进行控制指令的触发。

在前述基础上，作为一种可替换的具体实施方式，前述步骤201可以通过以下具体的实施方式实现。

子步骤201-1，基于第一指令触发对象的图像获取时间范围，采集用户实时图像对应第一指令触发对象的数据及对应至少一个第二指令触发对象的数据。

子步骤202-2，基于采集的数据构造图像识别模型的用户指示图像。

应当理解的是，能够触发控制指令的是用户产生的连续的动作，因此可以基于第一指令触发对象的图像获取时间范围，采集用户实时图像对应第一指令触发对象的数据及对应至少一个第二指令触发对象的数据，然后用采集的数据去构造图像识别模型的用户指示图像，在本发明实施例中，用户实时图像可以理解为连续的图像相关数据。

为了能够更加清楚的对本方案进行描述，下面提供一种前述步骤204的具体实施方式。

子步骤204-1，分别将各上级预测模型的预设指令触发标识，作为用户指示图像中相应的第二指令触发对象的特征标识进行标注，以更新用户指示图像中相应第二指令触发对象的特征标识，得到更新至少一个特征标识后的用户指示图像。

在前述步骤202之前，本发明实施例还可以包括以下具体的实施方式。

步骤206，获取至少一个上级预测模型的用户指示图像。

其中，各上级预测模型的用户指示图像基于相应的第二指令触发对象的图像获取时间范围采样得到，且至少包括相应的第二指令触发对象对应的特征标识。

步骤207，分别将各上级预测模型的用户指示图像，输入至相应的上级预测模型，并通过相应的上级预测模型进行第二指令触发对象的预测，得到相应的预设指令触发标识。

步骤208，基于得到的预设指令触发标识、及各上级预测模型的用户指示图像所标注的特征标识，确定各上级预测模型的损失函数的值。

步骤209，基于各上级预测模型的损失函数的值，更新相应的上级预测模型的模型参数，以使得上级预测模型能够基于采集的用户实时图像，对相应的第二指令触发对象进行预测。

结合上述步骤，本发明实施例提供了一种基于上级预测模型详细的训练步骤，可以获取至少一个上级预测模型的用户指示图像，如前所描述的，一个上级预测模型对应处理一个第二指令触发对象，可以分别将各上级预测模型的用户指示图像，输入至相应的上级预测模型，并通过相应的上级预测模型进行第二指令触发对象的预测，得到相应的预设指令触发标识，并且预设指令触发标识、及各上级预测模型的用户指示图像所标注的特征标识，确定各上级预测模型的损失函数(loss)的值。至此，便可以基于各上级预测模型的损失函数的值，更新相应的上级预测模型的模型参数，以使得上级预测模型能够基于采集的用户实时图像，对相应的第二指令触发对象进行预测。通过上述步骤，能够利用采集的第二指令触发对象的特征标识，不断训练上级预测模型，直至上级预测模型能够基于采集的用户实时图像，对相应的第二指令触发对象进行预测。

在前述基础上，用户实时图像包括用户的多个向量的信息，用户实时图像为特定动作图像。由于在进行用户实时图像采集是是一个连续不断的过程，为了避免用户的无意识动作或者不规范动作被识别，浪费计算机设备100的内存计算量下面提供一种本发明实施例下验证采集的用户实时图像是否合格的步骤。

步骤301，获取采集的多个用户实时图像帧。

其中，任意两个用户实时图像帧之间具有至少一个相同向量的信息。

步骤302，将任意两个用户实时图像帧之间，相同向量的信息进行匹配，若每个相同向量的信息都相匹配，得到至少一组指令动作。或者执行步骤303-步骤304。

步骤303，发送动作验证触发标识给动作分析服务器，动作验证触发标识用于触发动作分析服务器对多个向量的信息中的特征指标进行认证。

步骤304，当接收到动作分析服务器根据动作验证触发标识返回的认证通过的信息，执行得到至少一组指令动作的步骤。或者执行步骤305至步骤308。

步骤305，根据图像切割技术对特定动作图像进行切割得到局部动作图像。

步骤306，根据画面捕捉技术识别局部动作图像，得到结构化的多个向量的信息。

步骤307，向用户终端200发送安全协议，安全协议用于请求用户终端200向动作分析服务器授权获取某一动作捕捉服务器中的指令动作。

步骤308，若接收到用户终端200根据安全协议返回的确认授权的信息，则向至少一个动作捕捉服务器分别获取与多个向量中多个向量的信息一致的指令动作，执行得到至少一组指令动作的步骤。

步骤309，将至少一组指令动作中每个向量的信息分别与多个向量的信息进行匹配，得到至少一组动作参考数据。

步骤310，根据每组动作参考数据中各个向量的信息是否匹配或未匹配到的信息，及预设置信度评价规则，统计每组动作参考数据对应的置信度参考系数。

其中，预设置信度评价规则包括：对于一组动作参考数据中一项相匹配的信息，则对应配置为标准动作数据；对于一组动作参考数据中一项不相匹配的信息，则对应配置为异常动作数据；若一组动作参考数据中一项未匹配到的信息，则对应配置为待定动作数据；每组动作参考数据对应的置信度参考系数为一组指令动作中各个向量的信息的动作参考数据对应的参考系数的和值，其中，每组动作参考数据中包括：一组指令动作中各个向量的信息与多个向量的信息是否匹配或未匹配到的信息。

步骤311，分别计算每组动作参考数据对应的置信度参考系数，与对应组动作参考数据对应的最大置信度参考系数的比值。

步骤312，将每组动作参考数据对应的比值的和值作为动作置信度，或者，将每组动作参考数据对应的比值的加权和值作为动作置信度。

步骤313，若动作置信度在预设置信度阈值内，则用户实时图像通过验证。

为了避免出现因识别不准确而导致的指令误触发的情况，可以对采集的用户实时图像进行验证。具体的，可以采集多个用户实时图像帧，任意两个用户实时图像帧之间具有至少一个相同向量的信息，即多个用户实时图像帧是指向用户产生的连贯的动作(即每个相同向量的信息都相匹配)。在本发明实施例中，可以采取三种方式进行验证，(1)可以将动作验证触发标识发送至动作分析服务器，以使动作分析服务器对多个向量的信息中的特征指标进行认证。(2)可以将动作验证触发标识给动作分析服务器，由动作分析服务器进行判断，当接收到动作分析服务器根据动作验证触发标识返回的认证通过的信息，执行得到至少一组指令动作的步骤。(3)可以利用图像切割技术对特定动作图像进行切割，得到局部动作图像，可以对局部动作图像根据画面捕捉技术进行处理，得到结构化后的多个向量的信息。同时可以向用户终端200发送安全协议，告知用户需要进行动作验证，在接收到用户终端200根据安全协议返回的确认授权的信息，则向至少一个动作捕捉服务器分别获取与多个向量中多个向量的信息一致的指令动作，执行得到至少一组指令动作的步骤。在通过前述方案触发了执行得到至少一组指令动作的步骤后，可以将至少一组指令动作中每个向量的信息分别与多个向量的信息进行匹配，得到至少一组动作参考数据，并根据每组动作参考数据中各个向量的信息是否匹配或未匹配到的信息，及预设置信度评价规则，统计每组动作参考数据对应的置信度参考系数，分别计算每组动作参考数据对应的置信度参考系数，与对应组动作参考数据对应的最大置信度参考系数的比值将每组动作参考数据对应的比值的和值作为动作置信度，或者，将每组动作参考数据对应的比值的加权和值作为动作置信度若动作置信度在预设置信度阈值内，则用户实时图像通过验证。通过上述步骤，能够可靠地确定用户实时图像是否能够用于后续触发相关指令做了保障。

在前述基础上，为了能够更加清楚地对方案进行描述，下面提供一种前述步骤205的具体实施方式。

子步骤205-1，通过图像识别模型，对更新至少一个特征标识后的用户指示图像，进行指令触发对象的预测，得到控制指令预测结果。

子步骤205-2，获取各指令触发对象的控制指令预测结果与相应指令触发对象对应的特征标识之间的差异。

子步骤205-3，基于各指令触发对象对应的差异，确定图像识别模型中相应指令触发对象对应的损失函数的值。

子步骤205-4，当各指令触发对象对应的损失函数的值超出相应损失阈值时，基于各指令触发对象对应的损失函数，确定相应指令触发对象的偏离向量。

子步骤205-5，将各偏离向量在图像识别模型中反向传播，并在传播的过程中更新图像识别模型中各个神经网络层的模型参数。

通过上述步骤，可以基于图像识别模型得到控制指令预测结果，而后基于控制指令预测结果和相应指令触发对象对应的特征标识之间的差异，确定图像识别模型中相应指令触发对象对应的损失函数的值，进而能够得到各指令触发对象对应的损失函数，确定相应指令触发对象的偏离向量。最终可以将各偏离向量在图像识别模型中反向传播，并在传播的过程中更新图像识别模型中各个神经网络层的模型参数，能够保证图像识别模型的准确度。

在此基础上，图像识别模型包括多输入层、图像提取层、图像拼接层和预测层，前述子步骤205-5具体可以包括以下的具体实施方式。

(1)将第一指令触发对象的偏离向量，依次传播至预测层、图像拼接层、图像提取层以及多输入层，以实现第一指令触发对象的偏离向量在图像识别模型中的反向传播。

(2)将第二指令触发对象的偏离向量，依次传播至预测层、图像拼接层以及图像提取层。

(3)对第二指令触发对象的偏离向量进行阻断，使得第二指令触发对象的偏离向量无法传播至多输入层。

(4)在第一指令触发对象的偏离向量及第二指令触发对象的偏离向量反向传播的过程中，更新图像识别模型中各个层的模型参数。

通过上述步骤，能够具体的对图像识别模型中各个层的模型参数进行更新。

本发明实施例提供一种基于AI的图像识别解决装置110，应用于计算机设备100，计算机设备100与用户终端200通信连接，如图3所示，基于AI的图像识别解决装置110包括：

获取模块1101，用于获取用于图像识别的图像识别模型的用户指示图像，用户指示图像包括与指令触发对象相对应的至少两个特征标识，指令触发对象包括：第一指令触发对象及至少一个第二指令触发对象，第二指令触发对象的图像获取时间范围大于第一指令触发对象的图像获取时间范围；

更新模块1102，用于将用户指示图像分别输入至少一个上级预测模型，每个上级预测模型用于对一个第二指令触发对象进行预测；通过至少一个上级预测模型，分别对用户指示图像进行第二指令触发对象预测，得到相应的预设指令触发标识；基于得到的至少一个上级预测模型的预设指令触发标识，更新用户指示图像中相应第二指令触发对象的特征标识，得到更新至少一个特征标识后的用户指示图像；执行模块1103，用于基于更新至少一个特征标识后的用户指示图像，训练图像识别模型，使得图像识别模型能够基于采集的用户实时图像，进行对应第一指令触发对象及至少一个第二指令触发对象的控制指令预测，以基于控制指令预测结果执行控制指令预测结果对应的控制指令。

进一步地，获取模块1101具体用于：

基于第一指令触发对象的图像获取时间范围，采集用户实时图像对应第一指令触发对象的数据及对应至少一个第二指令触发对象的数据；基于采集的数据构造图像识别模型的用户指示图像。

进一步地，更新模块1102具体用于：

分别将各上级预测模型的预设指令触发标识，作为用户指示图像中相应的第二指令触发对象的特征标识进行标注，以更新用户指示图像中相应第二指令触发对象的特征标识，得到更新至少一个特征标识后的用户指示图像。

进一步地，获取模块1101还用于：

获取至少一个上级预测模型的用户指示图像，各上级预测模型的用户指示图像基于相应的第二指令触发对象的图像获取时间范围采样得到，且至少包括相应的第二指令触发对象对应的特征标识；分别将各上级预测模型的用户指示图像，输入至相应的上级预测模型，并通过相应的上级预测模型进行第二指令触发对象的预测，得到相应的预设指令触发标识；基于得到的预设指令触发标识、及各上级预测模型的用户指示图像所标注的特征标识，确定各上级预测模型的损失函数的值；基于各上级预测模型的损失函数的值，更新相应的上级预测模型的模型参数，以使得上级预测模型能够基于采集的用户实时图像，对相应的第二指令触发对象进行预测。

进一步地，计算机设备100还与动作分析服务器和动作捕捉服务器均通信连接，用户实时图像包括用户的多个向量的信息，用户实时图像为特定动作图像；基于AI的图像识别解决装置110还包括验证模块，验证模块用于：

获取采集的多个用户实时图像帧，且任意两个用户实时图像帧之间具有至少一个相同向量的信息，将任意两个用户实时图像帧之间，相同向量的信息进行匹配，若每个相同向量的信息都相匹配，则执行得到至少一组指令动作的步骤；发送动作验证触发标识给动作分析服务器，动作验证触发标识用于触发动作分析服务器对多个向量的信息中的特征指标进行认证；当接收到动作分析服务器根据动作验证触发标识返回的认证通过的信息，执行得到至少一组指令动作的步骤；根据图像切割技术对特定动作图像进行切割得到局部动作图像；再根据画面捕捉技术识别局部动作图像，得到结构化的多个向量的信息；向用户终端200发送安全协议，安全协议用于请求用户终端200向动作分析服务器授权获取某一动作捕捉服务器中的指令动作；若接收到用户终端200根据安全协议返回的确认授权的信息，则向至少一个动作捕捉服务器分别获取与多个向量中多个向量的信息一致的指令动作，得到至少一组指令动作；将至少一组指令动作中每个向量的信息分别与多个向量的信息进行匹配，得到至少一组动作参考数据；根据每组动作参考数据中各个向量的信息是否匹配或未匹配到的信息，及预设置信度评价规则，统计每组动作参考数据对应的置信度参考系数，其中，预设置信度评价规则包括：对于一组动作参考数据中一项相匹配的信息，则对应配置为标准动作数据；对于一组动作参考数据中一项不相匹配的信息，则对应配置为异常动作数据；若一组动作参考数据中一项未匹配到的信息，则对应配置为待定动作数据；每组动作参考数据对应的置信度参考系数为一组指令动作中各个向量的信息的动作参考数据对应的参考系数的和值，其中，每组动作参考数据中包括：一组指令动作中各个向量的信息与多个向量的信息是否匹配或未匹配到的信息；分别计算每组动作参考数据对应的置信度参考系数，与对应组动作参考数据对应的最大置信度参考系数的比值；将每组动作参考数据对应的比值的和值作为动作置信度，或者，将每组动作参考数据对应的比值的加权和值作为动作置信度；若动作置信度在预设置信度阈值内，则用户实时图像通过验证。

进一步地，执行模块1103具体用于：

通过图像识别模型，对更新至少一个特征标识后的用户指示图像，进行指令触发对象的预测，得到控制指令预测结果；获取各指令触发对象的控制指令预测结果与相应指令触发对象对应的特征标识之间的差异；基于各指令触发对象对应的差异，确定图像识别模型中相应指令触发对象对应的损失函数的值；当各指令触发对象对应的损失函数的值超出相应损失阈值时，基于各指令触发对象对应的损失函数，确定相应指令触发对象的偏离向量；将各偏离向量在图像识别模型中反向传播，并在传播的过程中更新图像识别模型中各个神经网络层的模型参数。

进一步地，图像识别模型包括多输入层、图像提取层、图像拼接层和预测层，执行模块1103更进一步具体用于：

将第一指令触发对象的偏离向量，依次传播至预测层、图像拼接层、图像提取层以及多输入层，以实现第一指令触发对象的偏离向量在图像识别模型中的反向传播；将第二指令触发对象的偏离向量，依次传播至预测层、图像拼接层以及图像提取层；对第二指令触发对象的偏离向量进行阻断，使得第二指令触发对象的偏离向量无法传播至多输入层；在第一指令触发对象的偏离向量及第二指令触发对象的偏离向量反向传播的过程中，更新图像识别模型中各个层的模型参数。

需要说明的是，前述基于AI的图像识别解决装置110的实现原理可以参考前述基于AI的图像识别解决方法的实现原理，在此不再赘述。应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，获取模块1101可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上获取模块1101的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所描述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(application specific integrated circuit，ASIC)，或，一个或多个微处理器(digital signal processor，DSP)，或，一个或者多个现场可编程门阵列(fieldprogrammable gate array，FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(centralprocessingunit，CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，SOC)的形式实现。

本发明实施例提供一种计算机设备100，计算机设备100包括处理器及存储有计算机指令的非易失性存储器，计算机指令被处理器执行时，计算机设备100执行前述的基于AI的图像识别解决方法。如图4所示，图4为本发明实施例提供的计算机设备100的结构框图。计算机设备100包括在基于AI的图像识别解决装置110、存储器111、处理器112及通信单元113。

为实现数据的传输或交互，存储器111、处理器112以及通信单元113各元件相互之间直接或间接地电性连接。例如，可通过一条或多条通讯总线或信号线实现这些元件相互之间电性连接。在基于AI的图像识别解决装置110包括至少一个可以软件或固件(firmware)的形式存储于存储器111中或固化在计算机设备100的操作系统(operatingsystem，OS)中的软件功能模块。处理器112用于执行存储器111中存储的获取模块1101，例如在获取模块1101包括的软件功能模块及计算机程序等。

本发明实施例提供一种可读存储介质，可读存储介质包括计算机程序，计算机程序运行时控制可读存储介质所在计算机设备100执行前述的基于AI的图像识别解决方法。

综上所述，采用本发明实施例提供的一种基于AI的图像识别解决方法、装置及可读存储介质，通过获取用于图像识别的图像识别模型的用户指示图像，所述用户指示图像包括与指令触发对象相对应的至少两个特征标识，所述指令触发对象包括：第一指令触发对象及至少一个第二指令触发对象，所述第二指令触发对象的图像获取时间范围大于所述第一指令触发对象的图像获取时间范围；再将所述用户指示图像分别输入至少一个上级预测模型，每个所述上级预测模型用于对一个所述第二指令触发对象进行预测；进而通过所述至少一个上级预测模型，分别对所述用户指示图像进行第二指令触发对象预测，得到相应的预设指令触发标识；接着基于得到的所述至少一个上级预测模型的预设指令触发标识，更新所述用户指示图像中相应第二指令触发对象的特征标识，得到更新至少一个特征标识后的用户指示图像；再基于所述更新至少一个特征标识后的用户指示图像，训练所述图像识别模型，使得所述图像识别模型能够基于所述用户终端采集的用户实时图像，进行对应所述第一指令触发对象及所述至少一个第二指令触发对象的控制指令预测，以基于控制指令预测结果执行所述控制指令预测结果对应的控制指令，能够巧妙地基于用户实时图像解决触发对应的控制指令的问题。

出于说明目的，前面的描述是参考具体实施例而进行的。但是，上述说明性论述并不打算穷举或将本公开局限于所公开的精确形式。根据上述教导，众多修改和变化都是可行的。选择并描述这些实施例是为了最佳地说明本公开的原理及其实际应用，从而使本领域技术人员最佳地利用本公开，并利用具有不同修改的各种实施例以适于预期的特定应用。出于说明目的，前面的描述是参考具体实施例而进行的。但是，上述说明性论述并不打算穷举或将本公开局限于所公开的精确形式。根据上述教导，众多修改和变化都是可行的。选择并描述这些实施例是为了最佳地说明本公开的原理及其实际应用，从而使本领域技术人员最佳地利用本公开，并利用具有不同修改的各种实施例以适于预期的特定应用。

Claims

1.一种基于AI的图像识别解决方法，其特征在于，应用于计算机设备，所述计算机设备与用户终端通信连接，所述方法包括：

基于所述更新至少一个特征标识后的用户指示图像，训练所述图像识别模型，使得所述图像识别模型能够基于所述用户终端采集的用户实时图像，进行对应所述第一指令触发对象及所述至少一个第二指令触发对象的控制指令预测，以基于控制指令预测结果执行所述控制指令预测结果对应的控制指令；

所述计算机设备还与动作分析服务器和动作捕捉服务器均通信连接，所述用户实时图像包括用户的多个向量的信息，所述用户实时图像为特定动作图像；

所述方法还包括验证所述用户实时图像的步骤，包括：

向所述用户终端发送安全协议，所述安全协议用于请求所述用户终端向动作分析服务器授权获取某一动作捕捉服务器中的指令动作；

若接收到所述用户终端根据所述安全协议返回的确认授权的信息，则向至少一个动作捕捉服务器分别获取与所述多个向量中多个向量的信息一致的指令动作，执行得到至少一组指令动作的步骤；

根据每组动作参考数据中所述各个向量的信息匹配到的所述多个向量的信息或所述每组动作参考数据中所述各个向量的信息未匹配到的所述多个向量的信息，及预设置信度评价规则，统计每组动作参考数据对应的置信度参考系数，其中，所述预设置信度评价规则包括：对于一组动作参考数据中一项相匹配的信息，则对应配置为标准动作数据；对于一组动作参考数据中一项不相匹配的信息，则对应配置为异常动作数据；所述每组动作参考数据对应的置信度参考系数为一组指令动作中各个向量的信息的动作参考数据对应的参考系数的和值，其中，所述每组动作参考数据中包括：一组指令动作中各个向量的信息与所述多个向量的信息是否匹配的信息；

将所述每组动作参考数据对应的比值的和值作为动作置信度，或者，将所述每组动作参考数据对应的比值的加权和值作为所述动作置信度；

若所述动作置信度在预设置信度阈值内，则所述用户实时图像通过验证；

所述基于所述更新至少一个特征标识后的用户指示图像，训练所述图像识别模型，包括：

将各所述偏离向量在所述图像识别模型中反向传播，并在传播的过程中更新所述图像识别模型中各个神经网络层的模型参数；

所述图像识别模型包括多输入层、图像提取层、图像拼接层和预测层，所述将各所述偏离向量在所述图像识别模型中反向传播，并在传播的过程中更新所述图像识别模型中各个神经网络层的模型参数，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取用于图像识别的图像识别模型的用户指示图像，包括：

基于所述第一指令触发对象的图像获取时间范围，采集用户实时图像对应所述第一指令触发对象的数据及对应所述至少一个第二指令触发对象的数据；

基于采集的数据构造所述图像识别模型的用户指示图像。

3.根据权利要求1所述的方法，其特征在于，所述基于得到的所述至少一个上级预测模型的预设指令触发标识，更新所述用户指示图像中相应第二指令触发对象的特征标识，得到更新至少一个特征标识后的用户指示图像，包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述用户指示图像分别输入至少一个上级预测模型之前，所述方法还包括：

5.一种基于AI的图像识别解决装置，应用于计算机设备，所述计算机设备与用户终端通信连接，其特征在于，所述装置包括：

执行模块，用于基于所述更新至少一个特征标识后的用户指示图像，训练所述图像识别模型，使得所述图像识别模型能够基于所述用户终端采集的用户实时图像，进行对应所述第一指令触发对象及所述至少一个第二指令触发对象的控制指令预测，以基于控制指令预测结果执行所述控制指令预测结果对应的控制指令；

所述获取模块还用于：

根据图像切割技术对所述特定动作图像进行切割得到局部动作图像；再根据画面捕捉技术识别所述局部动作图像，得到结构化的所述多个向量的信息；向所述用户终端发送安全协议，所述安全协议用于请求所述用户终端向动作分析服务器授权获取某一动作捕捉服务器中的指令动作；若接收到所述用户终端根据所述安全协议返回的确认授权的信息，则向至少一个动作捕捉服务器分别获取与所述多个向量中多个向量的信息一致的指令动作，执行得到至少一组指令动作的步骤；将所述至少一组指令动作中每个向量的信息分别与所述多个向量的信息进行匹配，得到至少一组动作参考数据；根据每组动作参考数据中所述各个向量的信息匹配到的所述多个向量的信息或所述每组动作参考数据中所述各个向量的信息未匹配到的所述多个向量的信息，及预设置信度评价规则，统计每组动作参考数据对应的置信度参考系数，其中，所述预设置信度评价规则包括：对于一组动作参考数据中一项相匹配的信息，则对应配置为标准动作数据；对于一组动作参考数据中一项不相匹配的信息，则对应配置为异常动作数据；所述每组动作参考数据对应的置信度参考系数为一组指令动作中各个向量的信息的动作参考数据对应的参考系数的和值，其中，所述每组动作参考数据中包括：一组指令动作中各个向量的信息与所述多个向量的信息是否匹配的信息；分别计算每组动作参考数据对应的置信度参考系数，与对应组动作参考数据对应的最大置信度参考系数的比值；将所述每组动作参考数据对应的比值的和值作为动作置信度，或者，将所述每组动作参考数据对应的比值的加权和值作为所述动作置信度；若所述动作置信度在预设置信度阈值内，则所述用户实时图像通过验证；

所述执行模块具体用于：

所述图像识别模型包括多输入层、图像提取层、图像拼接层和预测层，所述执行模块具体还用于：

6.一种计算机设备，其特征在于，所述计算机设备包括处理器及存储有计算机指令的非易失性存储器，所述计算机指令被所述处理器执行时，所述计算机设备执行权利要求1-4中任意一项所述的基于AI的图像识别解决方法。

7.一种可读存储介质，其特征在于，所述可读存储介质包括计算机程序，所述计算机程序运行时控制所述可读存储介质所在计算机设备执行权利要求1-4中任意一项所述的基于AI的图像识别解决方法。