CN112001583A

CN112001583A - 一种策略确定方法、中控设备及存储介质

Info

Publication number: CN112001583A
Application number: CN202010650248.8A
Authority: CN
Inventors: 李军; 徐文博; 刘冰; 王晓悦; 王伟; 江金寿; 田建辉; 陈科; 叶金华; 何圣华
Original assignee: Ordnance Science and Research Academy of China
Current assignee: Ordnance Science and Research Academy of China
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2020-11-27
Anticipated expiration: 2040-07-08
Also published as: CN112001583B

Abstract

本发明公开了一种策略确定方法、中控设备及存储介质，用以解决现有封控策略确定方式不够灵活的问题。本发明实施例中控设备接收至少一个智能设备上报的状态参数和与智能设备距离最近的障碍物的相对位置信息；根据智能设备上报的状态参数和与智能设备距离最近的障碍物的相对位置信息，基于智能设备对应的策略模型，确定智能设备对应的移动信息；将确定出的智能设备对应的移动信息发送给智能设备，以使智能设备根据移动信息进行位置调整。由于本发明实施例中可以由中控设备确定智能设备进行位置调整的移动信息，从而指挥智能设备进行移动，基于策略模型确定的封控策略更加准确及时，且能够适应不同建筑分布的城市街区。

Description

一种策略确定方法、中控设备及存储介质

技术领域

本发明涉及指挥控制技术领域，尤其涉及一种策略确定方法、中控设备及存储介质。

背景技术

现代城市在发生重大安全事件或公共卫生事件时，对城市街区的关键点实施有效的立体封控是一个复杂的组合优化问题与图论问题，需要专业人员对城市街区进行手工的数学建模与策略推演。

现有的城市街区封控策略需要专家对城市模型进行评估，计算关键点的位置信息，并调配智能设备或人员进行封控，需要耗费大量的人力物力，对于突发事件，现有的城市街区封控策略存在无法满足时限要求的风险；且现有基于图论与专家经验的封控策略具有局限性，对于具有不同建筑分布的城市街区并不适用。

因此，现有封控策略的确定方式不够灵活。

发明内容

本发明示例性的实施方式中提供一种策略确定方法、中控设备及存储介质，用以解决现有封控策略确定方式不够灵活的问题。

根据示例性的实施方式中的第一方面，提供一种策略确定方法，该方法包括：

接收至少一个智能设备上报的状态参数和与所述智能设备距离最近的障碍物的相对位置信息；其中，所述智能设备的状态参数包括所述智能设备当前的位置信息和运动速度；

根据所述智能设备上报的状态参数和与所述智能设备距离最近的障碍物的相对位置信息，基于所述智能设备对应的策略模型，确定所述智能设备对应的移动信息；

将确定出的所述智能设备对应的移动信息发送给所述智能设备，以使所述智能设备根据所述移动信息进行位置调整。

在一些示例性的实施方式中，若所述移动信息为加速度信息，所述根据所述智能设备上报的状态参数和与所述智能设备距离最近的障碍物的相对位置信息，基于所述智能设备对应的策略模型，确定所述智能设备对应的移动信息，包括：

将所述智能设备上报的状态参数和与所述智能设备距离最近的障碍物的相对位置信息输入到所述智能设备对应的策略模型中，获取所述智能设备对应的策略模型输出的加速度信息。

在一些示例性的实施方式中，若所述移动信息为目标位置信息，所述根据所述智能设备上报的状态参数和与所述智能设备距离最近的障碍物的相对位置信息，基于所述智能设备对应的策略模型，确定所述智能设备对应的移动信息，包括：

将M个智能设备中每个智能设备上报的状态参数和与所述智能设备距离最近的障碍物的相对位置信息分别输入到所述智能设备对应的策略模型中，获取所述智能设备对应的策略模型输出的加速度信息，并将所述加速度信息发送给所述智能设备；其中，M为预设的智能设备数量，M大于等于1；

根据所述M个智能设备的状态参数以及所述M个智能设备对应的加速度信息，基于策略评估模型，确定所述M个智能设备对应的评估参数集合；

接收所述M个智能设备中的每个智能设备在根据加速度信息调整位置后再次上报的状态参数和与所述智能设备距离最近的障碍物的相对位置信息，确定每个智能设备对应的加速度信息，直至所述M个智能设备对应的评估参数集合中的评估参数均收敛，确定所述M个智能设备的位置信息，将所述M个智能设备的位置信息作为目标位置信息。

在一些示例性的实施方式中，根据下列方式训练所述策略评估模型以及所述M个智能设备对应的策略模型：

对所述策略评估模型以及所述至少一个智能设备对应的策略模型进行N轮训练，并在N轮训练后获取训练后的策略评估模型，以及根据粒子群算法确定N轮训练后的每个智能设备对应的策略模型；其中，N为正整数；

其中，每轮训练执行下列过程：

将M个智能设备中每个智能设备的状态参数和与所述智能设备距离最近的障碍物的相对位置信息作为策略模型的输入，获取所述智能设备对应的策略模型输出的加速度信息；

将所述M个智能设备对应的策略模型输出的加速度信息以及所述M个智能设备的状态参数作为策略评估模型的输入，将M个智能设备对应的实际评估参数集合作为策略评估模型的输出对所述策略评估模型进行训练；

根据所述策略评估模型输出的所述M个智能设备对应的预测评估参数集合调整所述策略评估模型的参数，以及调整所述M个智能设备对应的策略模型的参数。

在一些示例性的实施方式中，所述根据粒子群算法确定N轮训练后的每个智能设备对应的策略模型，包括：

根据粒子群算法确定N轮训练中所述M个智能设备对应的策略模型中的全局最优策略模型，对所述全局最优策略模型以及每个智能设备对应的策略模型在N轮训练中的历史最优策略模型进行加权求和运算，确定每个智能设备对应的策略模型。

根据示例性的实施方式中的第二方面，提供一种中控设备，包括处理器、存储器和收发机；

其中，所述处理器，用于读取存储器中的程序并执行：

在一些示例性的实施方式中，所述处理器具体用于：

若所述移动信息为加速度信息，将所述智能设备上报的状态参数和与所述智能设备距离最近的障碍物的相对位置信息输入到所述智能设备对应的策略模型中，获取所述智能设备对应的策略模型输出的加速度信息。

在一些示例性的实施方式中，所述处理器具体用于：

若所述移动信息为目标位置信息，将M个智能设备中每个智能设备上报的状态参数和与所述智能设备距离最近的障碍物的相对位置信息分别输入到所述智能设备对应的策略模型中，获取所述智能设备对应的策略模型输出的加速度信息，并将所述加速度信息发送给所述智能设备；其中，M为预设的智能设备数量，M大于等于1；

在一些示例性的实施方式中，所述处理器具体用于根据下列方式训练所述策略评估模型以及所述M个智能设备对应的策略模型：

其中，每轮训练执行下列过程：

在一些示例性的实施方式中，所述处理器具体用于：

根据示例性的实施方式中的第三方面，提供一种策略确定装置，用以实现如本发明实施例第一方面中任一项所述的策略确定方法。

根据示例性的实施方式中的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例第一方面中任一项所述的策略确定方法。

本发明的实施例提供的技术方案至少带来以下有益效果：

本发明实施例提供的策略确定方法，中控设备能够根据智能设备上报的状态参数和与智能设备距离最近的障碍物的相对位置信息，基于智能设备对应的策略模型，确定智能设备对应的移动信息，并将确定出的移动信息发送给智能设备，以使智能设备根据移动信息进行位置调整。由于本发明实施例中可以由中控设备确定智能设备进行位置调整的移动信息，从而指挥智能设备进行移动，不再依靠专家分析下达指令，提供了一种方便及时的策略确定方式，基于策略模型确定的封控策略更加准确，且能够适应不同建筑分布的城市街区。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种策略确定系统示意图；

图2为本发明实施例提供的一种策略确定方法的流程图；

图3为本发明实施例提供的一种智能设备确定当前前进方向上距离最近的障碍物的相对位置信息的示意图；

图4为本发明实施例提供的一种智能设备与中控设备的交互流程图；

图5为本发明实施例提供的一种城市封控问题仿真演练示意图；

图6为本发明实施例提供的一种策略评估模型以及M个智能设备对应的策略模型的训练方法流程图；

图7为本发明实施例提供的一种中控设备的结构示意图；

图8为本发明实施例提供的一种策略确定装置的结构示意图。

具体实施方式

下面将结合附图对本申请实施例中的技术方案进行清除、详尽地描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；文本中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

下面对文中出现的一些术语进行解释：

1、本发明实施例中术语“马尔可夫决策过程(Markov Decision Process，MDP)”，是序贯决策的数学模型，用于在系统状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报。MDP基于一组交互对象，即智能体和环境进行构建，所具有的要素包括状态、动作、策略和奖励。在MDP的模拟中，智能体会感知当前的系统状态，按策略对环境实施动作，从而改变环境的状态并得到奖励，奖励随时间的积累被称为回报。

2、本发明实施例中术语“深度学习(DL，Deep Learning)”，是机器学习(ML，Machine Learning)领域中一个新的研究方向，深度学习的概念源于人工神经网络的研究，含多个隐藏层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

3、本发明实施例中术语“粒子群优化算法(Particle Swarm optimization，PSO)”，又称为粒子群算法、微粒群算法、或微粒群优化算法。是通过模拟鸟群觅食行为而发展起来的一种基于群体协作的随机搜索算法。通常认为PSO是群集智能(Swarmintelligence，SI)的一种。PSO的基本核心是利用群体中的个体对信息的共享从而使整个群体的运动在问题求解空间中产生从无序到有序的演化过程，从而获得问题的最优解。

现代城市在发生重大安全事件或公共卫生事件时，需要对城市街区的关键点实施有效的立体封控，现有的城市街区封控策略通常需要专家基于图论对城市模型进行评估后确定封控策略，存在无法满足时限要求的风险，且确定出的封控策略具有局限性，无法适用于其它城市街区。

基于上述问题，本发明实施例提供一种策略确定系统，如图1所示，包括中控设备10和M个智能设备11、12、13…(M大于等于1)；其中，智能设备可以为地面力量智能体，例如装甲车，智能机器人等，智能设备还可以为空中力量智能体，如无人机，四旋翼等。

在具体实施中，中控设备10能够同时对M个智能设备进行控制，为便于描述，下面以单个智能设备11为例对本发明实施例提供的策略确定方法进行介绍：

智能设备11检测当前的位置信息和运动速度，将检测得到的位置信息和运动速度作为智能设备11的状态参数，同时智能设备11检测当前前进方向上与智能设备11距离最近的障碍物的相对位置信息，智能设备11将状态参数和距离智能设备11最近的障碍物的相对位置信息上报给中控设备10；中控设备10根据接收到的智能设备11的状态参数和距离智能设备11最近的障碍物的相对位置信息，基于智能设备11对应的策略模型，确定智能设备11对应的加速度信息，并将该加速度信息发送给智能设备11；智能设备11根据接收到的加速度信息进行位置调整。

如图2所示，为发明实施例一种策略确定方法，包括以下步骤：

步骤S201、接收至少一个智能设备上报的状态参数和与智能设备距离最近的障碍物的相对位置信息；其中，智能设备的状态参数包括智能设备当前的位置信息和运动速度；

步骤S202、根据智能设备上报的状态参数和与智能设备距离最近的障碍物的相对位置信息，基于智能设备对应的策略模型，确定智能设备对应的移动信息；

步骤S203、将确定出的智能设备对应的移动信息发送给智能设备，以使智能设备根据移动信息进行位置调整。

在城市街区封控问题中，可以包括攻击方和防守方两方力量，攻击方的目标是夺取城市街区中的目标建筑，防守方的目标是防守城市街区中的目标建筑；本发明实施例提供的策略确定方法，可以应用于确定攻击方的攻击策略，也可以应用于确定防守方的防守策略。

一种可选的实施方式为，采用马尔科夫决策对城市街区封控问题进行数学建模，其中，数学模型包括设计城市街区封控问题的状态空间S、动作空间A、回报函数R以及折扣率γ，其中，回报函数R以及折扣率γ可以用于确定智能设备调整位置后的评估参数，该评估参数用于表示智能设备调整位置后对城市封控问题的胜负结果的影响。

可选的，根据下列方式设计状态空间S：

以城市街区中的目标建筑中心作为城市街区模型的原点建立城市街区模型，智能设备检测与原点的相对位置(x，y)作为智能设备当前的位置信息，并检测当前的运动速度(v_x，v_y)，智能设备将检测得到的相对位置以及运动速度作为智能设备的状态参数；同时，智能设备检测当前运动方向上与智能设备距离最近的障碍物的相对位置信息(c_x，c_y)。则智能设备的状态包括智能设备的状态参数以及与智能设备距离最近的障碍物的相对位置信息，每个智能设备的状态可以表示为s＝(x，y，v_x，v_y，c_x，c_y)，假设共有M个智能设备，则M个智能设备的全体状态为S＝{s₁，s₂…s_m}。

一种可选的实施方式为，智能设备根据下列方式确定当前前进方向上距离最近的障碍物的相对位置信息：

在虚拟仿真环境中，以智能设备当前位置为原点，朝智能设备运动方向发射一个高速粒子，如图3所示，该高速粒子的速度是一个远大于智能体最大运动速度的预设值，当高速粒子接触到第一障碍物时停止运动，确定高速粒子的运动时间，根据该高速粒子的速度、运动时间以及智能设备的位置信息，确定障碍物的相对位置信息；

如根据下列公式确定障碍物与智能设备的相对位置信息：

c_x＝v_x*Δt

c_y＝v_y*Δt

其中，c_x为障碍物在x轴方向上与智能设备的相对位置，c_y为障碍物在y轴方向上与智能设备的相对位置，v_x为智能设备的运动速度在x轴方向上的速度分量，v_y为智能设备的运动速度在y轴方向上的速度分量，Δt为高速粒子的运动时间。

马尔科夫决策的动作空间A中包括M个智能设备下一步执行的加速度信息，中控设备根据智能设备上报的状态参数和与智能设备距离最近的障碍物的相对位置信息，基于智能设备对应的策略模型，确定智能设备对应的加速度信息。

具体实施中，将智能设备上报的状态参数和与智能设备距离最近的障碍物的相对位置信息输入到智能设备对应的策略模型中，获取智能设备对应的策略模型输出的加速度信息。

中控设备能够同时接收M个智能设备上报的状态参数以及与智能设备距离最近的障碍物的相对位置信息，基于M个智能设备对应的M个策略模型，确定M个智能设备对应的加速度信息，并将M个智能设备对应的加速度信息分别发送给对应的智能设备，以使智能设备根据加速度信息进行位置调整；M个智能设备对应的加速度信息构成马尔科夫决策的动作空间A，动作空间A＝{(a_ix，a_iy)|-d₁≤a_ix≤d₁,-d₂≤a_iy≤d₂}，其中，(a_ix，a_iy)为M个智能设备中第i个智能设备对应的加速度信息，d₁和d₂均为大于0的可调超参数。

智能设备在接收到中控设备发送的加速度信息后，根据加速度信息调整智能设备的运动速度，具体实施中，智能设备在预设时间内保持接收到的加速度，在预设时间结束后，将加速度重新设为0，从而改变智能设备的运动速度，进而调整智能设备的位置。

由于本发明实施例中控设备确定智能设备的加速度信息时，输入到智能设备对应的策略模型中的智能设备的位置信息为智能设备在以目标建筑中心为原点的坐标系中的位置坐标，则策略模型输出的智能设备的加速度信息是中控设备确定的智能设备为夺取或防守目标建筑而执行的下一步移动动作对应的加速度信息。

如图4所示，为本发明实施例一种智能设备与中控设备的交互流程图，包括以下步骤：

步骤S401、智能设备确定位置信息和运动速度作为智能设备的状态参数，并确定当前运动方向上与智能设备距离最近的障碍物的相对位置信息；

步骤S402、智能设备将状态参数和与智能设备距离最近的障碍物的相对位置信息上报给中控设备；

步骤S403、中控设备将智能设备上报的状态参数和与智能设备距离最近的障碍物的相对位置信息输入到智能设备对应的策略模型中，获取智能设备对应的策略模型输出的加速度信息；

步骤S404、中控设备将确定出的加速度信息发送给智能设备；

步骤S405、智能设备根据接收到的加速度信息调整位置。

下面以两个具体的实施例对本发明实施例提供的策略确定方式进行介绍：

实施例1

在城市封控问题中，中控设备实时接收M个智能设备上报的状态参数和与智能设备距离最近的障碍物的相对位置信息，将每个智能设备上报的状态参数和与该智能设备距离最近的障碍物的相对位置信息输入到该智能设备对应的策略模型中，获取智能设备对应的策略模型输出的该智能设备对应的加速度信息。

中控设备将确定出的M个智能设备对应的加速度信息分别发送给对应的智能设备，智能设备在接收到中控设备发送的加速度信息后，在预设时间内根据加速度信息调整运动速度，从而调整位置。

实施例2

在城市封控问题中，先对城市封控问题进行仿真演练，例如，在如图5所示的仿真环境中进行演练，以当前为防守方为例，根据仿真演练中防守方的M个智能设备上报的状态参数和与智能设备距离最近的障碍物的相对位置信息，将每个智能设备上报的状态参数和与该智能设备距离最近的障碍物的相对位置信息输入到该智能设备对应的策略模型中，获取智能设备对应的策略模型输出的该智能设备对应的加速度信息。

中控设备将确定出的M个智能设备对应的加速度信息分别发送给对应的智能设备，智能设备在接收到中控设备发送的加速度信息后，在预设时间内根据加速度信息调整运动速度，从而调整位置；

中控设备根据M个智能设备的状态参数以及M个智能设备对应的加速度信息，基于策略评估模型，确定M个智能设备对应的评估参数集合；

具体实施中，中控设备将M个智能设备的状态参数以及M个智能设备对应的加速度信息输入到策略评估模型中，获取策略评估模型输出的M个智能设备对应的评估参数集合，其中，评估参数集合中包括M个智能设备对应的M个评估参数，评估参数用于表示智能设备根据加速度信息调整位置后对城市封控问题的胜负结果的影响。

中控设备接收智能设备调整位置后再次发送的状态参数和与所述智能设备距离最近的障碍物的相对位置，重复上述过程，直至M个智能设备对应的评估参数集合中的评估参数均收敛，则确定此时仿真演练中攻击方与防守方达到纳什平衡，当前的防守方智能设备的位置分布为中控设备确定的最优的分布策略。

确定当前M个智能设备的位置信息，将M个智能设备的位置信息作为目标位置信息，目标位置信息为通过仿真演练得到的最优分布策略，在实际的城市封控问题中，可以将防守方的智能设备按照目标位置信息进行排布。

本发明实施例还提供一种策略评估模型以及M个智能设备对应的策略模型的训练方法：

如图6所示，本发明实施例提供的策略评估模型以及M个智能设备对应的策略模型的训练方法，包括以下步骤：

步骤S601、初始化策略评估模型以及M个智能设备对应的策略模型的参数，初始化训练轮次n＝1；

步骤S602、判断训练轮次n是否小于预设的训练轮数N，若是，执行步骤S603；否则，执行步骤S609；

步骤S603、将M个智能设备中每个智能设备的状态参数和与智能设备距离最近的障碍物的相对位置信息作为策略模型的输入，获取智能设备对应的策略模型输出的加速度信息；

步骤S604、将M个智能设备对应的策略模型输出的加速度信息以及M个智能设备的状态参数作为策略评估模型的输入，获取策略评估模型输出的预测评估参数集合；

步骤S605、确定M个智能设备对应的实际评估参数集合；

具体实施中，根据智能设备的状态参数和与智能设备距离最近的障碍物的相对位置信息，确定智能设备根据策略模型确定出的加速度信息调整位置后的立即回报值；

例如，智能设备为攻击方智能设备时，根据下列公式确定智能设备根据策略模型确定出的加速度信息调整位置后的立即回报值R：

其中，

为攻击方M个智能设备中的第i个智能设备根据策略模型确定出的加速度信息调整位置后的立即回报值，

为第i个智能设备根据加速度信息调整位置后的位置信息，

为第i个智能设备根据加速度信息调整后的运动速度，

为第i个智能设备根据加速度信息调整位置后距离最近的障碍物的相对位置信息，∝和ε为可调超参数。

智能设备为防守智能设备时，根据下列公式确定智能设备根据策略模型确定出的加速度信息调整位置后的立即回报值R：

其中，

为防守方M个智能设备中第j个智能设备根据策略模型确定出的加速度信息调整位置后的立即回报值，

为第j个智能设备根据加速度信息调整后的位置信息，

为攻击方第i个智能设备的位置信息，

为攻击方第i个智能设备的运动速度，

为攻击方第i个智能设备距离最近的障碍物的相对位置信息，∝和ε为可调超参数，情况A为防守方第j个智能设备为地面力量时，当前仿真未结束，并且没有捕获攻击方智能设备；情况B为防守方第j个智能设备为空中力量时，当前仿真未结束，并且没有捕获攻击方智能设备。

在确定出智能设备调整位置后的立即回报值R后，根据下列公式确定智能设备对应的实际评估参数集合：

U＝R+γ*Q(s‘，π(s‘,w),θ)

其中，U为智能设备对应的实际评估参数集合，R为智能设备调整位置后的立即回报值，γ为折扣率，Q()为策略评估模型，π()为智能设备对应的策略模型，s‘为智能设备根据加速度调整位置后的状态，w为智能设备对应的策略模型的参数，θ为策略评估模型的参数。

步骤S606、基于损失函数确定预测评估参数集合与实际评估参数集合之间的损失值，通过梯度下降法调整策略评估模型的参数，以减小预测评估参数集合与实际评估参数集合之间的损失值；

可选的，损失函数可以为均方差损失函数。

步骤S607、根据策略评估模型输出的预测评估参数集合，通过梯度下降法调整智能设备对应的策略模型的参数，以增大策略评估模型输出的预测评估参数；

步骤S608、更新训练轮次n＝n+1，返回步骤S602；

步骤S609、根据粒子群算法确定N轮训练中M个智能设备对应的策略模型中的全局最优策略模型；

具体实施中，在N轮训练中，对M个智能设备对应的策略模型根据评估参数调整策略模型的参数时，记录每个智能设备对应的策略模型的参数调整值，在N轮训练后，将参数调整值最小的策略模型作为全局最优策略模型。

步骤S610、对全局最优策略模型以及每个智能设备对应的N轮训练中的历史最优策略模型进行加权求和运算，确定每个智能设备对应的策略模型。

具体实施中，将N轮训练中参数调整值最小的智能设备对应的策略模型，作为该智能设备对应的历史最优策略模型；根据预设的权重值对全局最优策略模型和每个智能设备对应的N轮训练中的历史最优策略模型进行加权求和，确定每个智能设备对应的策略模型。

本发明实施例提供的对策略评估模型以及M个智能设备对应的策略模型的训练方法，对仿真环境中的所有智能设备可以进行多回合的对抗训练，每回合的对抗训练均包括上述的N轮训练过程。在每一回合的对抗训练中，防守方智能设备捕获到攻击方智能设备时，攻击方智能设备停止运转，当攻击方的全部智能设备停止运转时，本回合结束，防守方胜利；当回合进行的时间超过预设时间，且攻击方未能夺取目标时，本回合结束，防守方胜利；当任意攻击方智能体成功夺取目标时，本回合结束，攻击方胜利。

基于同一发明构思，本发明实施例中还提供了一种中控设备，由于该中控设备解决问题的原理与本发明实施例的策略确定方法相似，因此该终端的实施可以参见方法的实施，重复之处不再赘述。

如图7所示，本发明实施例提供一种中控设备，包括处理器701、存储器702和收发机703；

其中，所述处理器701，用于读取存储器702中的程序并执行：

在一些示例性的实施方式中，所述处理器701具体用于：

在一些示例性的实施方式中，所述处理器701具体用于根据下列方式训练所述策略评估模型以及所述M个智能设备对应的策略模型：

其中，每轮训练执行下列过程：

在一些示例性的实施方式中，所述处理器701具体用于：

如图8所示，本发明实施例提供一种策略确定装置，包括：

接收模块801，用于接收至少一个智能设备上报的状态参数和与所述智能设备距离最近的障碍物的相对位置信息；其中，所述智能设备的状态参数包括所述智能设备当前的位置信息和运动速度；

确定模块802，用于根据所述智能设备上报的状态参数和与所述智能设备距离最近的障碍物的相对位置信息，基于所述智能设备对应的策略模型，确定所述智能设备对应的移动信息；

发送模块803，用于将确定出的所述智能设备对应的移动信息发送给所述智能设备，以使所述智能设备根据所述移动信息进行位置调整。

在一些示例性的实施方式中，所述确定模块802具体用于：

在一些示例性的实施方式中，策略确定装置还包括训练模块804，所述训练模块804具体用于：

其中，每轮训练执行下列过程：

在一些示例性的实施方式中，所述训练模块804具体用于：

由于本发明实施例中计算机存储介质可以应用于上述策略确定方法，因此，其所能获得的技术效果也可参考上述方法实施例，本发明的实施例在此不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种策略确定方法，其特征在于，该方法包括：

2.如权利要求1所述的方法，其特征在于，若所述移动信息为加速度信息，所述根据所述智能设备上报的状态参数和与所述智能设备距离最近的障碍物的相对位置信息，基于所述智能设备对应的策略模型，确定所述智能设备对应的移动信息，包括：

3.如权利要求1所述的方法，其特征在于，若所述移动信息为目标位置信息，所述根据所述智能设备上报的状态参数和与所述智能设备距离最近的障碍物的相对位置信息，基于所述智能设备对应的策略模型，确定所述智能设备对应的移动信息，包括：

4.如权利要求3所述的方法，其特征在于，根据下列方式训练所述策略评估模型以及所述M个智能设备对应的策略模型：

其中，每轮训练执行下列过程：

5.如权利要求4所述的方法，其特征在于，所述根据粒子群算法确定N轮训练后的每个智能设备对应的策略模型，包括：

6.一种中控设备，其特征在于，包括处理器、存储器和收发机；

其中，所述处理器，用于读取存储器中的程序并执行：

7.如权利要求6所述的中控设备，其特征在于，所述处理器具体用于：

8.如权利要求6所述的中控设备，其特征在于，所述处理器具体用于：

9.如权利要求8所述的中控设备，其特征在于，所述处理器具体用于根据下列方式训练所述策略评估模型以及所述M个智能设备对应的策略模型：

其中，每轮训练执行下列过程：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1～5任一所述方法的步骤。