CN112149344B

CN112149344B - 一种基于强化学习的足球机器人带球策略选择方法

Info

Publication number: CN112149344B
Application number: CN202010857210.8A
Authority: CN
Inventors: 刘成菊; 张�浩; 陈启军
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2023-03-28
Anticipated expiration: 2040-08-24
Also published as: CN112149344A

Abstract

本发明涉及一种基于强化学习的足球机器人带球策略选择方法，足球机器人的球场场景环境建立在RoboCup仿真平台的基础上，方法步骤包括：构建足球机器人‑球‑目标位置模型；将足球机器人‑球‑目标位置模型分解为多个独立智能体，获取共用同一状态空间且具有不同速度空间的多个独立学习者，并对每个独立学习者分别设置奖励函数；对每个独立学习者，构建基于SARSA(λ)的强化学习模型，并采用RBF网络对动作价值进行近似处理；对各个独立学习者进行训练，采用频率调整学习方法使其得到同步收敛，获取完整模型，完成带球策略选择。与现有技术相比，本发明具有使机器人的带球过程更快速，对球更具掌控性，提升收敛性等优点。

Description

一种基于强化学习的足球机器人带球策略选择方法

技术领域

本发明涉及足球机器人运动技术领域，尤其是涉及一种基于强化学习的足球机器人带球策略选择方法。

背景技术

在RoboCup标准平台组比赛中，带球是一种复杂的行为，在此期间，机器人球员试图以非常受控的方式操纵球，同时朝向期望的目标移动。对于双足机器人，需要考虑球，机器人和地面之间的相互作用，以得到前向，横向和转动三个方向上的速度，这使得该任务具有高度动态的和非线性的特征。由此，目前的技术方案中，带球行为大多通过定速度、定角度去控制球，也就是说，机器人以预先给定好的速度去与球进行交互，无论机器人，足球，目标点三者之间呈何种关系，机器人总以给定的转角速度和横向移动的速度调整至三点一线，然后带球去往目标点，整个过程中，速度始终为恒定值，在整个带球过程中，三个方向的速度并不能更改，也没有进行协调。目前的技术方案既不能保证最快地将球带往目标点，也不能保证在整个过程中始终将球控制在合适的距离内。此外，目前技术方案中大多采用将球场分割化的方式为足球机器人建立状态空间，这样巨大的状态空间需要大量的内存及计算单元，影响足球机器人的运行速度，且无法对不同状态空间下选用不同的策略，适用不够灵活。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于强化学习的足球机器人带球策略选择方法，该方法通过将强化学习引入足球机器人带球策略选择中，将三个维度的运动分解为三个独立学习者，再使用频率调整学习方法使三个智能体同步收敛，既能够动态进行速度调整，也避免了强化学习维度过高难以收敛的问题。

本发明的目的可以通过以下技术方案来实现：

一种基于强化学习的足球机器人带球策略选择方法，所述足球机器人的球场场景环境建立在RoboCup仿真平台的基础上，该方法具体包括如下步骤：

S1：采用角度值和距离值对局部行为构建足球机器人-球-目标位置模型。

所述足球机器人-球-目标位置模型以足球机器人与球之间的角度α，足球机器人与球之间的距离ρ，以及足球机器人-球-目标角度的补角β作为状态参数，所述足球机器人-球-目标位置模型以足球机器人的速度向量[V_x,V_y,V_z]为动作参数，，V_x、V_y、V_z分别为足球机器人在X、Y、Z三个维度方向运动的速度，所述足球机器人-球-目标位置模型以足球机器人带球至对方球门正终点为优化目标。

S2：判断足球机器人-球-目标位置模型是否可在动作空间进行分解，若可分解，将足球机器人-球-目标位置模型分解为多个独立智能体，获取共用同一状态空间且具有不同速度空间的多个独立学习者，并对每个独立学习者分别设置奖励函数；具体步骤包括：

21)确定RoboCup仿真平台的状态空间与动作空间，判断动作空间的维度是否大于1，若不是，则集中强化学习方法，若是，则将足球机器人-球-目标位置模型分散成与动作空间维度相同数量的智能体；

22)对分散后的智能体判定是否可以定义个体目标，若是，则定义个体目标、共同目标和奖励函数，否则，定义总体目标及奖励函数；

所述共同目标设为最大化速度V_x，最小化参数α，β，V_y、V_z，同时对足球机器人与球之间的距离ρ限制其满足ρ＜ρ_th，ρ_th为使球始终保持在距离机器人的设定距离阈值，V_x、V_y、V_z分别为足球机器人在X、Y、Z三个维度方向运动的速度，β为足球机器人-球-目标角度的补角，α为足球机器人与球之间的角度。

所述个体目标包括：调整球的方向：使足球机器人与球之间的角度保持为0；对球：保持足球机器人-球-目标角度的补角β为0；推球：令足球机器人在保持球的控制的同时，快速行走并击球以改变其速度，使足球机器人朝x方向运动的速度V_x在稳定行走的速度区间[0,0.6]中取值最大。

进一步地，将足球机器人-球-目标位置模型分散成与动作空间维度相同数量的三个智能体，并定义三个个体目标，定义的三个个体目标所对应的奖励函数为：

式中：r^x、r^y、r^z分别为三个个体目标的奖励值，α为足球机器人与球之间的角度，ρ为足球机器人与球之间的距离，β为足球机器人-球-目标角度的补角β，α_th、ρ_th、β_th分别为α、ρ、β三个参量要求的最大值，V_x.max′为足球机器人朝x方向运动的期望速度。

23)确定各智能体的智能状态空间是否可分散，若可分散，则采用联合状态空间完善环境细节，为各智能体选择算法，否则，定义分散状态空间，完善环境细节。

S3：对每个独立学习者，构建基于SARSA(λ)的强化学习模型，并采用RBF网络对动作价值进行近似处理；具体地：

构建的基于SARSA(λ)的强化学习模型的表达式为：

δ＝r+γQ(s',a')-Q(s,a)

式中：

为每个动作的学习步长，s,a为当前环境下的状态动作对，s′,a′为更新λ步之后的状态动作对，r为智能体接受奖惩值，E(s,a)为资格迹，Q(s,a)为动作价值，δ为临时参数；

引入RBF网络参数θ对智能体m的动作价值进行估计，则更新表达式为：

δ←r^m+γQ^m(s′,a′)-Q^m(s,a)

式中：

为智能体m对应的动作a的网络参数，

为智能体m的特征值，r^m是智能体m接受的奖惩值，δ为临时参数，Q^m(s,a)为智能体m在状态动作对s,a下的动作价值，E^m(s,a)为智能体m的资格迹。

S4：分别对各个独立学习者进行训练，同时采用频率调整学习方法使其得到同步收敛，获取完整模型，完成带球策略选择。具体地：

采用频率调整学习方法对各个独立学习者得到同步收敛的具体内容为：

41)采用softmax选择由动作价值Q(s,a)得到动作a的概率分布：

式中，τ为用以调整动作选择概率的间距的人工系数，a为动作；

42)对于每个状态s，选择概率P(s,a)中最大值Pa^＊对应的动作a^＊执行，然后在更新时调整每个动作的学习步长来补偿频率差异，即当

时，将Q值更新为：

当

时，将Q值更新保持为：

式中，

为用以改变频率调整学习的子空间的大小的人工参数。

对各个独立学习者进行训练，达到收敛要求的判断依据包括：

a)控球失败率％F：计算方法为控球失败的次数/总剧集数，将其转化为百分制，若状态参数超出限定值时，即ρ＞ρ_th∨|γ|＞γ_th∨|φ|＞φ_th，视为一次控球失败，该指标越低视为控球的稳定性越强；

b)带球速度％S：计算方法为带球的平均速度/最大速度，将其转化为百分制，该指标越高视为带球越优；

c)总体评价指标GF：计算方法为GF＝1/2(100-％S+％F)，该指标越低视为效果越好。

本发明提供的基于强化学习的足球机器人带球策略选择方法，相较于现有技术至少包括如下有益效果：

一、本发明采用强化学习方法对RoboCup标准平台组进行带球策略学习，通过将强化学习引入足球机器人带球策略选择问题中，将三个维度的运动分解为三个独立学习者，使得机器人在其自身，球，目标点三者无论成何种位置关系的情况下，都能得到较优的解，与预定速度方法相比，机器人的带球过程更加快速，且对球更具有掌控性。

二、本发明采用角度值和距离值对足球机器人的局部行为进行建模，显著缩小了状态空间需要的内存及计算单元，可针对不同状态空间下选用不同的策略，更加灵活，有利于提高足球机器人的运行速度。

三、与普通的强化学习方法相比，本发明将原本一个智能体的集中强化学习问题拆分成多个智能体的系统，大大减少了动作数目，同时使用频率调整学习协调方法，修正每个智能体的更新步长，针对多智能体系统中各个智能体收敛不同步的问题进行改进，在个体较差值附近以较大步长更新，而在个体最优值附近以较小步长更新，使得整体系统更容易收敛到最优值处，提升了算法的收敛性和收敛后的性能表现。

四、三个维度的运动分解为三个独立学习者，再使用频率调整学习方法使三个智能体同步收敛，既能够动态进行速度调整，也避免了强化学习维度过高难以收敛的问题。

附图说明

图1为实施例中机器人-足球-目标点球场建模示意图；

图2为实施例中强化学习分解成独立智能体的流程示意图；

图3为实施例中SARSA(λ)算法示意图；

图4为实施例中用于近似动作价值函数的RBF网络示意图；

图5为实施例中频率调整算法示意图；

图6为实施例中评价指标与训练剧集关系图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

实施例

本实施例以RoboCup标准平台组所使用的全向行走Nao型机器人为例，来说明本发明提出的基于强化学习的足球机器人带球策略选择方法，该方法具体包括如下步骤：

第一步、建立机器人-球-目标位置模型

目前大部分相关研究是采用将球场分割化的方式来建立状态空间，这样巨大的状态空间需要大量的内存及计算单元。本发明使用角度值和距离值对局部行为进行建模。如图1所示，以机器人-球角α，机器人-球距离ρ，以及机器人-球-目标角度补角β作为状态参数，全向双足机器人的速度向量[V_x,V_y,V_z]为动作参数，V_x、V_y、V_z分别代表机器人三个维度方向运动的速度，以球员带球到对方球门正终点为优化目标。

第二步、对上述模型分解成三个独立智能体

根据图2所示流程，将上述模型问题分解为三个独立智能体问题。具体地：

首先，确定问题是否可以分散：即确定RoboCup仿真平台的状态空间S与动作空间A，判断动作空间的维度M是否大于1，若不是，则集中强化学习方法，若是，则将问题分散成M个智能体，每一个智能体动作空间维度为1。因为全向双足机器人的速度矢量是[V_x,V_y,V_z]，因此可以通过使用三个单独的智能体，Agent_x,Agent_y和Agent_z来分散这个三维动作空间。

然后，确定共同目标和个体目标：对分散后的智能体判定是否可以定义个体目标，若是，则定义个体目标、共同目标和收益函数(奖励函数)，否则，定义总体目标及收益函数(奖励函数)。

预期的共同目标是在保证得到球权的同时尽可能快速的走向期望的目标。由于全向双足机器人x方向速度要快于y方向速度和旋转速度，在获得较好控球率的基础上，要获得最大速度。因此共同目标设置为最大化速度V_x，最小化参数α，β，V_y、V_z，同时要对球的距离有限制，使球始终保持在距离机器人设定距离阈值ρ_th范围内，即有ρ＜ρ_th，则视为机器人对球保持控制。把带球行为分散成3个子任务(即三个个体目标)，调整球的方向：保持机器人-球角γ＝0；对球：保持机器人-球-目标角φ＝0；推球：让机器人在保持球的控制的同时，尽可能快地行走并击球以改变其速度，使V_x在稳定行走的速度区间[0,0.6]中取值尽可能大。

然后，定义收益函数：根据提出的带球模型定义的三个个体目标，调整球的方向，对球和推球。本发明方法将三个目标的奖励定义为：

其中，r^x,r^y,r^z即为三个个体目标奖励，[ρ_th,α_th,β_th]是对[ρ,α,β]三个参量要求的最大值，表示本发明对球在机器人控制下的定义，即当变量在这个范围之内，视为球处在机器人的控制下。V_x.max′是机器人朝x方向行走(朝前走)的期望速度，为最大限制速度的90％。由于推球任务只涉及到Agent_x，而调整球的方向和对球两个任务，紧密涉及Agent_y,Agent_z，因此，对其角度的限制范围更加严格。该收益函数定义比较粗糙，不能将不同程度的行为详细的界定开来。因此，为了更好的达到目标，需要更好的定义回报函数，在实际控制指令代码中，定义了如下所示的奖励函数：

其中，fa是经验衰减参数，保证算法收敛，thres是经验常量，保证r^x在两种情况下有足够区分度。

然后，确定问题是否可以完全分散化：

对于可分散的情况，使用联合状态空间S，并完善环境细节，为每一个智能体选择算法；若不可分散，定义分散状态空间S1…SM。由于上述三个状态变量需要被视作联合状态向量，因此该问题是无法被完全分散的，因此，对于该问题来讲，无法减少其状态空间。

最后，加入需要定义和实现环境细节：在上述内容中已经定义了状态和动作的范围要求，在这里对终止和复位条件做出限制，当满足以下条件时视为该训练剧集的结束：

①机器人带球到目标点。

②机器人走出场地范围。

③所定义的状态范围超出限制。

④达到限制时间。

第三步、建立使用RBF价值近似的SARSA(λ)算法

SARSA(λ)算法是强化学习领域基础的算法，如图3，4所示，这里针对该问题做简单介绍。

对于SARSA算法，即它是一种单步更新法，也就是说进行单次决策后可以直接更新行为准则。而对于SARSA(λ)来说，策略进行到λ步之后再进行更新，则动作价值Q更新公式变为：

δ＝r+γQ(s',a')-Q(s,a)

其中，

为每个动作的学习步长，s,a是当前环境下的状态动作对，s′,a′是λ步之后的状态动作对，r是智能体接受奖惩值，δ为临时参数，E(s,a)是资格迹。

再参考图4引入RBF网络参数θ对每个智能体m的动作价值Q进行估计，则更新公式换为：

δ←r^m+γQ^m(s′,a′)-Q^m(s,a)

其中，

是智能体m对应的动作a的网络参数，

是智能体m的特征值，r^m是智能体m接受的奖惩值，δ是临时参数，Q^m(s,a)是智能体m在状态动作对s,a下的动作价值，E^m(s,a)是智能体m的资格迹。

第四步、频率调整学习

在多智能体环境中学习比单智能体学习要复杂得多，因要学习的最佳行为取决于其他智能体的策略。而策略的更迭需要依赖其他智能体的策略变更，使得所有的智能体的学习目标成为一个动态目标，也就是说，所有的智能体在追求自己的动态学习目标同时，他们会影响和移动其他智能体的学习目标。因此，多智能体无法保证所有的智能体同步收敛到最优值位置，由此难以收敛或者收敛不到最优位置。而本发明通过频率调整学习去修正每个智能体的更新步长，使得所有智能体在个体较差值附近以较大步长更新，而在个体最优值附近以较小步长更新，使整个多智能体系统更容易收敛到最优值处。

上述过程已经针对每个智能体给出了各自的强化学习模型，该部分是调整每个独立学习者的更新频率。在实际的Q值更新中，Q值的实际值与预测值不同源于动作以不同的频率更新。也就是说，正是由于基于Q值的不同所以导致了每个动作出现频率的不同。

本发明针对此做出调整，首先，使用softmax选择由Q值得到动作a的概率分布：

其中τ为人工系数，用来调整动作选择概率的间距。如果τ值越小，最优动作的概率就越接近1；如果τ值越大，各动作选择概率就越趋于平均。

则对于每个状态s，选择概率P(s,a)中最大值Pa^＊对应的动作a^＊执行，然后在更新时调整每个动作的学习步长来补偿频率差异，即每次在智能体取得较优性能时降低更新步长，即当

时，将Q值的更新换为：

而在智能体性能不佳时增大更新步长，即

时，Q值的更新保持为：

即在智能体获胜时小心翼翼地学习(学习率较低，即更新步长较小)，在智能体性能不佳时快速学习。其中，

为人工参数，用来改变频率调整学习的子空间的大小。从收敛路径上考虑，更期望较小的值，但是导致所需迭代次数的增加。通过选择任意小的

可以使智能体在任意大部分策略空间的得到收敛。

第五步、评级指标设计与结果

本实施例通过测量和平均10次，每次3000剧集的运行来评估学习过程的演变，然后使算法收敛。然后使用100剧集依照如下指标对算法进行测试。

(1)控球的失败率(％F)：控球失败的次数/总剧集数，转化为百分制。当状态参数超出限定值时，即ρ＞ρ_th∨|γ|＞γ_th∨|φ|＞φ_th，视为一次控球失败。该指标越低视为控球的稳定性越强。

(2)带球的速度(％S)：带球的平均速度/最大速度，转化为百分制。该指标越高视为带球的越优。

(3)总体评价指标(GF)：结合上述两个参数进行综合评GF＝1/2(100-％S+％F)。该指标越低视为效果越好。

如图6所示，在1000剧集后，算法基本达到收敛，在达到了60％的速度基础上，出错率收敛到5％以下，达到了理想的效果。

本发明方法使用强化学习法对RoboCup标准平台组进行带球策略学习，使得机器人在其自身，球，目标点三者无论成何种位置关系的情况下，都能得到较优的解，与预定速度方法相比，机器人的带球过程更加快速，且对球更具有掌控性。将强化学习引入足球机器人带球策略选择问题中，将三个维度的运动分解为三个独立学习者，再使用频率调整学习方法使三个智能体同步收敛，既能够动态进行速度调整，也避免了强化学习维度过高难以收敛的问题。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的工作人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于强化学习的足球机器人带球策略选择方法，其特征在于，所述足球机器人的球场场景环境建立在RoboCup仿真平台的基础上，该方法包括下列步骤：

1)构建足球机器人-球-目标位置模型；

2)判断足球机器人-球-目标位置模型是否可在动作空间进行分解，若可分解，将足球机器人-球-目标位置模型分解为多个独立智能体，获取共用同一状态空间且具有不同速度空间的多个独立学习者，并对每个独立学习者分别设置奖励函数；

3)对每个独立学习者，构建基于SARSA(λ)的强化学习模型，并采用RBF网络对动作价值进行近似处理；

4)分别对各个独立学习者进行训练，同时采用频率调整学习方法使其得到同步收敛，获取完整模型，完成带球策略选择；

所述足球机器人-球-目标位置模型以足球机器人与球之间的角度α，足球机器人与球之间的距离ρ，以及足球机器人-球-目标角度的补角β作为状态参数，所述足球机器人-球-目标位置模型以足球机器人的速度向量[V_x,V_y,V_z]为动作参数， V_x、V_y、V_z分别为足球机器人在X、Y、Z三个维度方向运动的速度，所述足球机器人-球-目标位置模型以足球机器人带球至对方球门正终点为优化目标；

步骤3)中，构建的基于SARSA(λ)的强化学习模型的表达式为：

δ＝r+γQ(s',a')-Q(s,a)

式中：

δ←r^m+γQ^m(s′,a′)-Q^m(s,a)

式中：

为智能体m对应的动作a的网络参数，

为智能体m的特征值，r^m是智能体m接受的奖惩值，δ为临时参数，Q^m(s,a)为智能体m在状态动作对s,a下的动作价值，E^m(s,a)为智能体m的资格迹，

步骤4)中，采用频率调整学习方法对各个独立学习者得到同步收敛的具体内容为：

41)采用softmax选择由动作价值Q(s,a)得到动作a的概率分布：

时，将Q值更新为：

当

时，将Q值更新保持为：

式中，

为用以改变频率调整学习的子空间的大小的人工参数。

2.根据权利要求1所述的基于强化学习的足球机器人带球策略选择方法，其特征在于，步骤1)中，采用角度值和距离值对局部行为构建足球机器人-球-目标位置模型。

3.根据权利要求1所述的基于强化学习的足球机器人带球策略选择方法，其特征在于，步骤2)具体包括以下步骤：

4.根据权利要求3所述的基于强化学习的足球机器人带球策略选择方法，其特征在于，所述共同目标设为最大化速度V_x，最小化参数α，β，V_y、V_z，同时对足球机器人与球之间的距离ρ限制其满足ρ＜ρ_th，ρ_th为使球始终保持在距离机器人的设定距离阈值，V_x、V_y、V_z分别为足球机器人在X、Y、Z三个维度方向运动的速度，β为足球机器人-球-目标角度的补角，α为足球机器人与球之间的角度。

5.根据权利要求3所述的基于强化学习的足球机器人带球策略选择方法，其特征在于，所述个体目标包括：调整球的方向：使足球机器人与球之间的角度保持为0；对球：保持足球机器人-球-目标角度的补角β为0；推球：令足球机器人在保持球的控制的同时，快速行走并击球以改变其速度，使足球机器人朝x方向运动的速度V_x在稳定行走的速度区间[0,0.6]中取值最大。

6.根据权利要求3所述的基于强化学习的足球机器人带球策略选择方法，其特征在于，将足球机器人-球-目标位置模型分散成与动作空间维度相同数量的三个智能体，并定义三个个体目标，定义的三个个体目标所对应的奖励函数为：