CN110456644B

CN110456644B - 确定自动化设备的执行动作信息的方法、装置及电子设备

Info

Publication number: CN110456644B
Application number: CN201910744441.5A
Authority: CN
Inventors: 李江涛
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2019-08-13
Filing date: 2019-08-13
Publication date: 2022-12-06
Anticipated expiration: 2039-08-13
Also published as: CN110456644A

Abstract

公开了一种确定自动化设备在真实环境中的执行动作信息的方法，包括：确定自动化设备在真实环境中预执行时间点的可观测状态量；基于所述可观测状态量，确定所述自动化设备在真实环境中预执行时间点的不可观测状态量；基于所述不可观测状态量和所述可观测状态量，通过第一神经网络模型确定所述自动化设备在真实环境中预执行时间点的执行动作信息。由于不可观测状态量和可观测状态量包含自动化设备真实环境所需要的信息，第一神经网络模型有足够的观测信息，在训练时可以快速收敛，得到最优解，快速训练成功，基于第一神经网络模型确定的自动化设备在真实环境中预执行时间点的执行动作信息更加接近实际。

Description

确定自动化设备的执行动作信息的方法、装置及电子设备

技术领域

本发明涉及自动化控制技术领域，具体涉及一种确定自动化设备在真实环境中的执行动作信息的方法、装置及电子设备。

背景技术

近年来，在使用强化学习解决较为复杂的真实环境中的控制问题时，受限于自动化设备尤其是自动化设备中的传感器的体积、成本、复杂度，自动化设备的很多状态量都难以进行观测。

由于观测信息有限，在模拟器中基于有限的观测信息训练的第一神经网络模型，无法应用到真实环境中控制自动化设备执行动作。

发明内容

为了解决上述技术问题，本申请实施例提供了一种确定自动化设备在真实环境中的执行动作信息的方法、装置及电子设备。

根据本申请的一个方面，提供了一种确定自动化设备在真实环境中的执行动作信息的方法，包括：确定自动化设备在真实环境中预执行时间点的可观测状态量；基于所述预执行时间点的可观测状态量，确定所述自动化设备在真实环境中所述预执行时间点的不可观测状态量；基于所述预执行时间点的不可观测状态量和所述预执行时间点的可观测状态量，通过第一神经网络模型确定所述自动化设备在真实环境中所述预执行时间点的执行动作信息。

根据本申请的另一个方面，提供了一种确定自动化设备在真实环境中的执行动作信息的装置，包括：可观测状态量确定模块，用于确定自动化设备在真实环境中预执行时间点的可观测状态量；不可观测状态量确定模块，用于基于所述预执行时间点的可观测状态量，确定所述自动化设备在真实环境中所述预执行时间点的不可观测状态量；执行动作信息确定模块，用于基于所述预执行时间点的不可观测状态量和所述预执行时间点的可观测状态量，通过第一神经网络模型确定所述自动化设备在真实环境中所述预执行时间点的执行动作信息。

根据本申请的另一个方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述任一所述的方法。

根据本申请的另一个方面，提供了一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于执行上述任一所述的方法。

本申请实施例提供的确定自动化设备在真实环境中的执行动作信息的方法，通过确定自动化设备在真实环境中预执行时间点的可观测状态量，基于预执行时间点的可观测状态量，确定自动化设备在真实环境中预执行时间点的不可观测状态量，基于预执行时间点的不可观测状态量和预执行时间点的可观测状态量，通过第一神经网络模型确定自动化设备在真实环境中预执行时间点的执行动作信息，由于可以基于预执行时间点的可观测状态量，得到预执行时间点的不可观测状态量，基于预执行时间点的不可观测状态量，以及预执行时间点的可观测状态量，训练第一神经网络模型得到自动化设备在真实环境中预执行时间点的执行动作信息，预执行时间点的不可观测状态量和预执行时间点的可观测状态量包含自动化设备真实环境所需要的信息，第一神经网络模型有足够的观测信息，在训练时可以快速收敛，得到最优解，快速训练成功；并且基于足够的观测信息训练的第一神经网络模型，从而可以使第一神经网络模型确定的自动化设备在真实环境中预执行时间点的执行动作信息更加接近实际。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本申请一示例性实施例提供的确定自动化设备在真实环境中的执行动作信息的方法的流程示意图。

图2是本申请一示例性实施例提供的基于可观测状态量，确定自动化设备在真实环境中预执行时间点的不可观测状态量的流程示意图。

图3是本申请再一示例性实施例提供的确定自动化设备在真实环境中的执行动作信息的方法的流程示意图。

图4是本申请一示例性实施例提供的模拟器中的训练数据流示意图。

图5是本申请一示例性实施例提供的真实环境中的数据流示意图。

图6是本申请一示例性实施例提供的确定自动化设备在真实环境中的执行动作信息的装置的结构示意图。

图7是本申请一示例性实施例提供的确定自动化设备在真实环境中的执行动作信息的装置中不可观测状态量确定模块的结构示意图。

图8是本申请再一示例性实施例提供的确定自动化设备在真实环境中的执行动作信息的装置结构示意图。

图9是本申请一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

目前，在通过模拟器训练第一神经网络模型时，不是按照自动化设备真实环境的状态量作为观测(observation)信息，而是仅选择自动化设备中传感器获取的状态量作为观测信息。从而会导致第一神经网络模型在训练时因缺乏必要的信息而收敛缓慢，得不到最优解，甚至训练失败；并且模拟器基于有限的观测信息训练得到的第一神经网络模型，无法应用到真实环境中，以控制自动化设备执行动作。其中，本申请中的模拟器是指一种计算机程序，其输入为物体的运动模型和控制量；通过计算运动、碰撞、重力、摩擦力等物理量，模拟该物体在虚拟物理环境中的表现。

针对上述技术问题，本申请的基本构思是提出一种确定自动化设备在真实环境中的执行动作信息的方法、装置及电子设备，通过确定自动化设备在真实环境中预执行时间点的可观测状态量，基于预执行时间点的可观测状态量，确定自动化设备在真实环境中预执行时间点的不可观测状态量，基于预执行时间点的不可观测状态量和预执行时间点的可观测状态量，通过第一神经网络模型确定自动化设备在真实环境中预执行时间点的执行动作信息，由于可以基于预执行时间点的可观测状态量，得到预执行时间点的不可观测状态量，基于预执行时间点的不可观测状态量，以及预执行时间点的可观测状态量，训练第一神经网络模型得到自动化设备在真实环境中预执行时间点的执行动作信息，预执行时间点的不可观测状态量和预执行时间点的可观测状态量包含自动化设备真实环境所需要的信息，第一神经网络模型有足够的观测信息，在训练时可以快速收敛，得到最优解，快速训练成功；并且基于足够的观测信息训练的第一神经网络模型，第一神经网络模型确定的自动化设备在真实环境中预执行时间点的执行动作信息更加接近实际，可以应用到真实环境中控制自动化设备执行动作。

需要说明的是，本申请的应用范围不局限于机器人技术领域。例如，本申请实施例提及的技术方案还可以应用于其他智能可移动自动化设备，具体用于对智能可移动自动化设备提供控制技术支持。

下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性方法

图1是本申请一示例性实施例提供的确定自动化设备在真实环境中的执行动作信息的方法的流程示意图。本申请实施例提供的确定自动化设备在真实环境中的执行动作信息的方法可应用到机器人技术领域，亦可应用到其他智能可移动自动化设备领域。如图1所示，本申请实施例提供的确定自动化设备在真实环境中的执行动作信息的方法包括如下步骤：

步骤101，确定自动化设备在真实环境中预执行时间点的可观测状态量。

其中，自动化设备可以是机器人等，真实环境即自动化设备所处的实际环境，预执行时间点即自动化设备将要执行动作对应的时间点，可观测状态量即自动化设备在真实环境中可以通过自动化设备中的传感器获得的自动化设备的状态信息。

步骤102，基于预执行时间点的可观测状态量，确定自动化设备在真实环境中预执行时间点的不可观测状态量。

其中，不可观测状态量即在真实环境中不可以通过自动化设备中的传感器获得的自动化设备的状态信息。

其中，观测状态量包括如下至少任一项以及任一组合：自动化设备的刚体组成部分的重心位置、重心速度、重心加速度、姿态、旋转力矩矢量、外部受力大小和方向；和/或，不可观测状态量包括如下至少任一项以及任一组合：自动化设备的外部受力大小和自动化设备动作的方向。

例如：当自动化设备为机器人时，它的观测状态量(即行走控制所需要的信息)包括：刚体组成部分的重心位置、重心速度、重心加速度、姿态(旋转矩阵)、旋转力矩矢量、外部受力大小和机器人动作的方向等，其中刚体组成部分的重心位置、重心速度、重心加速度、姿态(旋转矩阵)、旋转力矩矢量等可以通过机器人自身的传感器获得，为可观测状态量，外部受力大小和动作的方向等不可以通过机器人自身的传感器获得，为不可观测状态量。

步骤103，基于预执行时间点的不可观测状态量和预执行时间点的可观测状态量，通过第一神经网络模型确定自动化设备在真实环境中预执行时间点的执行动作信息。

其中，预执行时间点的执行动作信息即自动化设备在预执行时间点要执行的动作，基于预执行时间点的不可观测状态量，以及预执行时间点的可观测状态量，训练第一神经网络模型确定自动化设备在真实环境中预执行时间点的执行动作信息，可以使得执行动作信息更准确。

本申请实施例所提及的确定自动化设备在真实环境中的执行动作信息的方法，通过确定自动化设备在真实环境中预执行时间点的可观测状态量，基于预执行时间点的可观测状态量，确定自动化设备在真实环境中预执行时间点的不可观测状态量，基于预执行时间点的不可观测状态量和预执行时间点的可观测状态量，通过第一神经网络模型确定自动化设备在真实环境中预执行时间点的执行动作信息，由于可以基于预执行时间点的可观测状态量，得到预执行时间点的不可观测状态量，基于预执行时间点的不可观测状态量，以及预执行时间点的可观测状态量，训练第一神经网络模型得到自动化设备在真实环境中预执行时间点的执行动作信息，预执行时间点的不可观测状态量和预执行时间点的可观测状态量包含自动化设备真实环境所需要的信息，第一神经网络模型有足够的观测信息，在训练时可以快速收敛，得到最优解，快速训练成功；并且基于足够的观测信息训练的第一神经网络模型，第一神经网络模型确定的自动化设备在真实环境中预执行时间点的执行动作信息更加接近实际，从而可以将第一神经网络模型应用到真实环境中，以控制自动化设备执行动作。

本申请一示例性实施例提供了一种确定自动化设备在真实环境中预执行时间点的可观测状态量。在本申请图1所示实施例的基础上延伸出本申请所示实施例，下面着重叙述本申请所示实施例与图1所示实施例的不同之处，相同之处不再赘述。

在本申请实施例提供的确定自动化设备在真实环境中的执行动作信息的方法中，确定自动化设备在真实环境中预执行时间点的可观测状态量，包括：

通过自动化设备的传感器，确定自动化设备在真实环境中预执行时间点的可观测状态量。

具体地，自动化设备中的传感器会观测自动化设备在真实环境中的状态得到相应的信息。

本申请实施例所提及的确定自动化设备在真实环境中的执行动作信息的方法，通过自动化设备的传感器，确定自动化设备在真实环境中预执行时间点的可观测状态量，可观测状态量为自动化设备中的传感器观测的实际信息，可以反映真实情况，进而提高第一神经网络模型的准确性。

图2是本申请一示例性实施例提供的基于可观测状态量，确定自动化设备在真实环境中预执行时间点的不可观测状态量的流程示意图。在本申请图1所示实施例的基础上延伸出本申请图2所示实施例，下面着重叙述图2所示实施例与图1所示实施例的不同之处，相同之处不再赘述。

如图2所示，在本申请实施例提供的确定自动化设备在真实环境中的执行动作信息的方法中，基于可观测状态量，确定自动化设备在真实环境中预执行时间点的不可观测状态量，包括：

步骤1021，确定自动化设备在真实环境中已执行时间点的可观测状态量和不可观测状态量，以及已执行时间点的执行动作信息。

具体地，已执行时间点即预执行时间点之前的时间点，已执行时间点可以是预执行时间点之前的某一个时间点，也可以是预执行时间点之前的某几个时间点，可以根据实际应用情况进行设置，对此不做限定。

步骤1022，基于已执行时间点的可观测状态量和不可观测状态量，已执行时间点的执行动作信息，以及预执行时间点的可观测状态量，通过第二神经网络模型，确定自动化设备在真实环境中预执行时间点的不可观测状态量。

具体地，基于已执行时间点的可观测状态量和不可观测状态量，已执行时间点的执行动作信息，以及预执行时间点的可观测状态量，训练第二神经网络模型，确定自动化设备在真实环境中预执行时间点的不可观测状态量。

本申请实施例所提及的确定自动化设备在真实环境中的执行动作信息的方法，确定自动化设备在真实环境中已执行时间点的可观测状态量和不可观测状态量，以及已执行时间点的执行动作信息，基于已执行时间点的可观测状态量和不可观测状态量，已执行时间点的执行动作信息，以及预执行时间点的可观测状态量，通过第二神经网络模型，确定自动化设备在真实环境中预执行时间点的不可观测状态量，可以通过第二神经网络模型快速确定不可观测状态量，可以提高确定不可观测状态量的速度。

图3是本申请再一示例性实施例提供的确定自动化设备在真实环境中的执行动作信息的方法的流程示意图。在本申请上一所示实施例的基础上延伸出本申请图3所示实施例，下面着重叙述图3所示实施例与上一所示实施例的不同之处，相同之处不再赘述。

如图3所示，在本申请实施例提供的确定自动化设备在真实环境中的执行动作信息的方法中，还包括：

步骤104，使用深度强化学习方法训练第一神经网络模型。

其中，使用深度强化学习方法训练第一神经网络模型，是无监督学习方法。

具体地，可以通过深度神经网络构建第一神经网络模型。

其中，通过深度神经网络构建的第一神经网络模型可以使用MLP(Multi-LayerPerceptron，多层感知器)(全连接)，RNN(Recurrent Neural Network，循环神经网络)，LSTM(Long Short-Term Memory，长短期记忆网络)等结构。

步骤105，在训练第一神经网络模型的同时，使用监督学习方法训练第二神经网络模型。

其中，在训练第一神经网络模型的同时，利用第一神经网络模型产生的状态-动作-观测序列，使用监督学习方法训练第二神经网络模型。

具体地，可以通过深度神经网络构建第二神经网络模型。

其中，通过深度神经网络构建的第二神经网络模型可以使用MLP(全连接)、RNN、LSTM等结构。

本申请实施例所提及的确定自动化设备在真实环境中的执行动作信息的方法，使用深度强化学习方法训练第一神经网络模型，在训练第一神经网络模型的同时，使用监督学习方法训练第二神经网络模型，第二神经网络模型可以确定不可观测状态量，可以将第一神经网络模型和第二神经网络模型迁移到缺乏部分观测的真实环境中使用。

本申请再一示例性实施例提供了确定自动化设备在真实环境中的执行动作信息的方法。在本申请图3所示实施例的基础上延伸出本申请所示实施例，下面着重叙述本申请所示实施例与图3所示实施例的不同之处，相同之处不再赘述。

在本申请实施例提供的确定自动化设备在真实环境中的执行动作信息的方法中，还包括：

将第一神经网络模型和第二神经网络模型，应用在真实环境的自动化设备。

具体地，将第一神经网络模型和第二神经网络模型，应用在真实环境的自动化设备，可以控制自动化设备在真实环境中按照预执行时间点的执行动作信息进行动作。

本申请实施例所提及的确定自动化设备在真实环境中的执行动作信息的方法，通过将第一神经网络模型和第二神经网络模型，应用在真实环境的自动化设备，可以控制自动化设备在真实环境中按照预执行时间点的执行动作信息进行动作，提高自动化设备在真实环境中执行动作的准确性。

本申请再一示例性实施例提供了确定自动化设备在真实环境中的执行动作信息的方法。在本申请上一所示实施例的基础上延伸出本申请所示实施例，下面着重叙述本申请所示实施例与上一所示实施例的不同之处，相同之处不再赘述。

通过第二神经网络模型和第一神经网络模型，控制自动化设备在真实环境中按照预执行时间点的执行动作信息进行动作。

具体地，通过第二神经网络模型确定自动化设备在真实环境中预执行时间点的不可观测状态量，基于预执行时间点的不可观测状态量，以及预执行时间点的可观测状态量，通过第一神经网络模型确定自动化设备在真实环境中预执行时间点的执行动作信息，从而根据预执行时间点的执行动作信息控制自动化设备在真实环境中按照预执行时间点的执行动作信息进行动作。

本申请实施例所提及的确定自动化设备在真实环境中的执行动作信息的方法，通过第二神经网络模型和第一神经网络模型，控制自动化设备在真实环境中按照预执行时间点的执行动作信息进行动作，可以实现自动化设备在真实环境中动作，可以提高真实环境中动作的准确性。

为了便于理解本申请，下面举例进行进一步地说明，在本申请实施例中，自动化设备为机器人，预执行时间点为第N步，已执行时间点为第N-1步(实际应用中也可以包含k步，k为大于1的自然数，已执行时间点为之前k步(即第N-1步、第N-2步到第N-k步))，将本申请确定自动化设备在真实环境中的执行动作信息的方法集成在模拟器中对第一神经网络模型进行预训练。其中，模拟器的输入为自动化设备的运动模型和控制量等可观测状态量和不可观测状态量，通过计算运动、碰撞、重力、摩擦力等物理量，模拟该自动化设备在虚拟物理环境中的表现。

模拟器全部的状态量都是预先计算的数值，因而其全部的状态量都可以被观测。首先从全部的状态量中选择当前任务所需要的观测状态量的集合，具体选哪些是任务相关的，例如，对于机器人的步态行走控制一般需要各个关节位置、姿态、重心位置和速度、部分肢体受力的矢量等。然后将该模拟器的观测状态量的集合分为两部分，分别是可观测状态量(在真实环境中可以通过传感器获得的部分)和不可观测状态量(在真实环境中不可以通过传感器获得的部分)。

参见图4，是本申请一示例性实施例提供的模拟器中的训练数据流示意图，第N-1步所执行动作输入模拟器10，输出第N步的可观测状态量和第N步的不可观测状态量，第N步的可观测状态量和第N步的不可观测状态量输入第一神经网络模型20，输出第N步所执行动作；训练第二神经网络模型30所使用数据流为：第N-1步的可观测状态量和第N-1步的不可观测状态量，第N-1步所执行动作，以及第N步的可观测状态量。第二神经网络模型输出为：第N步的不可观测状态量。在按照图4使用模拟器10训练强化学习第一神经网络模型的同时，使用其产生的状态-动作-观测序列，使用监督学习的方法训练第二神经网络模型30直到收敛。

参见图5，是本申请一示例性实施例提供的真实环境中的数据流示意图，(第N-1步的可观测状态量和第N-1步的不可观测状态量，以及第N-1步所执行动作)+(真实环境中机器人的传感器采集的第N步的可观测状态量)+(第二神经网络模型30)-->第N步的不可观测状态量。(真实环境中机器人的传感器采集的第N步的可观测状态量)+(第二神经网络模型计算的第N步的不可观测状态量)+(第一神经网络模型20)-->第N步要执行的动作。

需要说明的是，当初次执行本步骤时，已执行时间点的不可观测状态量(即第N-1步的不可观测状态量)还没有被第二神经网络模型确定，则默认为0，当后续执行本步骤时，已执行时间点的不可观测状态量按照实际值进行计算。

示例性装置

图6是本申请一示例性实施例提供的确定自动化设备在真实环境中的执行动作信息的装置的结构示意图。本申请实施例提供的确定自动化设备在真实环境中的执行动作信息的装置可应用到机器人技术领域，亦可应用到其他智能可移动自动化设备领域。如图6所示，本申请实施例提供的确定自动化设备在真实环境中的执行动作信息的装置，包括：

可观测状态量确定模块201，用于确定自动化设备在真实环境中预执行时间点的可观测状态量；

不可观测状态量确定模块202，用于基于预执行时间点的可观测状态量，确定自动化设备在真实环境中预执行时间点的不可观测状态量；

执行动作信息确定模块203，用于基于预执行时间点的不可观测状态量，以及预执行时间点的可观测状态量，通过第一神经网络模型确定自动化设备在真实环境中预执行时间点的执行动作信息。

本申请一示例性实施例提供了一种可观测状态量确定模块201。在本申请图6所示实施例的基础上延伸出本申请所示实施例，下面着重叙述本申请所示实施例与图6所示实施例的不同之处，相同之处不再赘述。

在本申请实施例提供的确定自动化设备在真实环境中的执行动作信息的装置中，可观测状态量确定模块201，具体用于基于自动化设备的传感器，确定自动化设备在真实环境中预执行时间点的可观测状态量。

图7是本申请一示例性实施例提供的确定自动化设备在真实环境中的执行动作信息的装置中不可观测状态量确定模块202的结构示意图。在本申请图6所示实施例的基础上延伸出本申请图7所示实施例，下面着重叙述图7所示实施例与图6所示实施例的不同之处，相同之处不再赘述。

如图7所示，在本申请实施例提供的确定自动化设备在真实环境中的执行动作信息的装置中，不可观测状态量确定模块202包括：

第一确定单元2021，用于确定自动化设备在真实环境中已执行时间点的可观测状态量和不可观测状态量，以及已执行时间点的执行动作信息；

第二确定单元2022，用于基于已执行时间点的可观测状态量和不可观测状态量，已执行时间点的执行动作信息，以及预执行时间点的可观测状态量，通过第二神经网络模型，确定自动化设备在真实环境中预执行时间点的不可观测状态量。

图8是本申请再一示例性实施例提供的确定自动化设备在真实环境中的执行动作信息的装置结构示意图。在本申请图7所示实施例的基础上延伸出本申请图8所示实施例，下面着重叙述图8所示实施例与图7所示实施例的不同之处，相同之处不再赘述。

如图8所示，在本申请实施例提供的确定自动化设备在真实环境中的执行动作信息的装置中，还包括：

第一训练模块204，用于使用深度强化学习方法训练第一神经网络模型；

第二训练模块205，用于在训练第一神经网络模型的同时，使用监督学习方法训练第二神经网络模型。

本申请再一示例性实施例提供的确定自动化设备在真实环境中的执行动作信息的装置结构示意图。在本申请图8所示实施例的基础上延伸出本申请所示实施例，下面着重叙述本申请所示实施例与图8所示实施例的不同之处，相同之处不再赘述。

在本申请实施例提供的确定自动化设备在真实环境中的执行动作信息的装置中，还包括：

应用模块，用于将第一神经网络模型和第二神经网络模型，应用在真实环境的自动化设备。

本申请再一示例性实施例提供的确定自动化设备在真实环境中的执行动作信息的装置结构示意图。在本申请图上一所示实施例的基础上延伸出本申请所示实施例，下面着重叙述本申请所示实施例与上一所示实施例的不同之处，相同之处不再赘述。

控制模块，用于通过第二神经网络模型和第一神经网络模型，控制自动化设备在真实环境中按照预执行时间点的执行动作信息进行动作。

应当理解，图6至图8提供的确定自动化设备在真实环境中的执行动作信息的装置中的可观测状态量确定模块201、不可观测状态量确定模块202、执行动作信息确定模块203、第一训练模块204、第二训练模块205，以及不可观测状态量确定模块202中包括的第一确定单元2021、第二确定单元2022的操作和功能可以参考上述图1至图5提供的确定自动化设备在真实环境中的执行动作信息的方法，为了避免重复，在此不再赘述。

示例性电子设备

图9图示了根据本申请实施例的电子设备的框图。

如图9所示，电子设备11包括一个或多个处理器111和存储器112。

处理器111可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备11中的其他组件以执行期望的功能。

存储器112可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器111可以运行所述程序指令，以实现上文所述的本申请的各个实施例的确定自动化设备在真实环境中的执行动作信息的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备11还可以包括：输入装置113和输出装置114，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，该输入装置113可以是摄像头或麦克风、麦克风阵列等，用于捕捉图像或声源的输入信号。在该电子设备是单机设备时，该输入装置113可以是通信网络连接器，用于从网络处理器接收所采集的输入信号。

此外，该输入设备113还可以包括例如键盘、鼠标等等。

该输出装置114可以向外部输出各种信息，包括确定出的输出电压、输出电流信息等。该输出设备114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图9中仅示出了该电子设备11中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备11还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的确定自动化设备在真实环境中的执行动作信息的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的确定自动化设备在真实环境中的执行动作信息的方法的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种确定自动化设备在真实环境中的执行动作信息的方法，包括：

确定自动化设备在真实环境中预执行时间点的可观测状态量；

基于所述预执行时间点的可观测状态量，确定所述自动化设备在真实环境中所述预执行时间点的不可观测状态量；

基于所述预执行时间点的不可观测状态量和所述预执行时间点的可观测状态量，通过第一神经网络模型确定所述自动化设备在真实环境中所述预执行时间点的执行动作信息；

其中，基于所述预执行时间点的可观测状态量，确定所述自动化设备在真实环境中所述预执行时间点的不可观测状态量，包括：

确定所述自动化设备在真实环境中已执行时间点的可观测状态量和不可观测状态量，以及已执行时间点的执行动作信息；

基于所述已执行时间点的可观测状态量和不可观测状态量，所述已执行时间点的执行动作信息，以及所述预执行时间点的可观测状态量，通过第二神经网络模型，确定所述自动化设备在真实环境中所述预执行时间点的不可观测状态量。

2.根据权利要求1所述的方法，其中，确定自动化设备在真实环境中预执行时间点的可观测状态量，包括：

通过所述自动化设备的传感器，确定所述自动化设备在真实环境中预执行时间点的可观测状态量。

3.根据权利要求1所述的方法，所述可观测状态量包括如下至少任一项以及任一组合：所述自动化设备的刚体组成部分的重心位置、重心速度、重心加速度、姿态、旋转力矩矢量、外部受力大小和方向；和/或，所述不可观测状态量包括如下至少任一项以及任一组合：所述自动化设备的外部受力大小和所述自动化设备动作的方向。

4.根据权利要求1所述的方法，还包括：

使用深度强化学习方法训练所述第一神经网络模型；

在训练所述第一神经网络模型的同时，使用监督学习方法训练所述第二神经网络模型。

5.根据权利要求4所述的方法，还包括：

将所述第一神经网络模型和所述第二神经网络模型，应用在真实环境的所述自动化设备。

6.根据权利要求5所述的方法，还包括：

通过所述第二神经网络模型和所述第一神经网络模型，控制所述自动化设备在真实环境中按照所述预执行时间点的执行动作信息进行动作。

7.一种确定自动化设备在真实环境中的执行动作信息的装置，包括：

可观测状态量确定模块，用于确定自动化设备在真实环境中预执行时间点的可观测状态量；

不可观测状态量确定模块，用于基于所述预执行时间点的可观测状态量，确定所述自动化设备在真实环境中所述预执行时间点的不可观测状态量，包括：确定所述自动化设备在真实环境中已执行时间点的可观测状态量和不可观测状态量，以及已执行时间点的执行动作信息；基于所述已执行时间点的可观测状态量和不可观测状态量，所述已执行时间点的执行动作信息，以及所述预执行时间点的可观测状态量，通过第二神经网络模型，确定所述自动化设备在真实环境中所述预执行时间点的不可观测状态量；以及

执行动作信息确定模块，用于基于所述预执行时间点的不可观测状态量和所述预执行时间点的可观测状态量，通过第一神经网络模型确定所述自动化设备在真实环境中所述预执行时间点的执行动作信息。

8.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-6任一所述的确定自动化设备在真实环境中的执行动作信息的方法。

9.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于执行上述权利要求1-6任一所述的确定自动化设备在真实环境中的执行动作信息的方法。