[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN112149344B - 一种基于强化学习的足球机器人带球策略选择方法 - Google Patents

一种基于强化学习的足球机器人带球策略选择方法 Download PDF

Info

Publication number
CN112149344B
CN112149344B CN202010857210.8A CN202010857210A CN112149344B CN 112149344 B CN112149344 B CN 112149344B CN 202010857210 A CN202010857210 A CN 202010857210A CN 112149344 B CN112149344 B CN 112149344B
Authority
CN
China
Prior art keywords
ball
robot
football
action
football robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010857210.8A
Other languages
English (en)
Other versions
CN112149344A (zh
Inventor
刘成菊
张�浩
陈启军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202010857210.8A priority Critical patent/CN112149344B/zh
Publication of CN112149344A publication Critical patent/CN112149344A/zh
Application granted granted Critical
Publication of CN112149344B publication Critical patent/CN112149344B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/06Multi-objective optimisation, e.g. Pareto optimisation using simulated annealing [SA], ant colony algorithms or genetic algorithms [GA]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及一种基于强化学习的足球机器人带球策略选择方法,足球机器人的球场场景环境建立在RoboCup仿真平台的基础上,方法步骤包括:构建足球机器人‑球‑目标位置模型;将足球机器人‑球‑目标位置模型分解为多个独立智能体,获取共用同一状态空间且具有不同速度空间的多个独立学习者,并对每个独立学习者分别设置奖励函数;对每个独立学习者,构建基于SARSA(λ)的强化学习模型,并采用RBF网络对动作价值进行近似处理;对各个独立学习者进行训练,采用频率调整学习方法使其得到同步收敛,获取完整模型,完成带球策略选择。与现有技术相比,本发明具有使机器人的带球过程更快速,对球更具掌控性,提升收敛性等优点。

Description

一种基于强化学习的足球机器人带球策略选择方法
技术领域
本发明涉及足球机器人运动技术领域,尤其是涉及一种基于强化学习的足球机器人带球策略选择方法。
背景技术
在RoboCup标准平台组比赛中,带球是一种复杂的行为,在此期间,机器人球员试图以非常受控的方式操纵球,同时朝向期望的目标移动。对于双足机器人,需要考虑球,机器人和地面之间的相互作用,以得到前向,横向和转动三个方向上的速度,这使得该任务具有高度动态的和非线性的特征。由此,目前的技术方案中,带球行为大多通过定速度、定角度去控制球,也就是说,机器人以预先给定好的速度去与球进行交互,无论机器人,足球,目标点三者之间呈何种关系,机器人总以给定的转角速度和横向移动的速度调整至三点一线,然后带球去往目标点,整个过程中,速度始终为恒定值,在整个带球过程中,三个方向的速度并不能更改,也没有进行协调。目前的技术方案既不能保证最快地将球带往目标点,也不能保证在整个过程中始终将球控制在合适的距离内。此外,目前技术方案中大多采用将球场分割化的方式为足球机器人建立状态空间,这样巨大的状态空间需要大量的内存及计算单元,影响足球机器人的运行速度,且无法对不同状态空间下选用不同的策略,适用不够灵活。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于强化学习的足球机器人带球策略选择方法,该方法通过将强化学习引入足球机器人带球策略选择中,将三个维度的运动分解为三个独立学习者,再使用频率调整学习方法使三个智能体同步收敛,既能够动态进行速度调整,也避免了强化学习维度过高难以收敛的问题。
本发明的目的可以通过以下技术方案来实现:
一种基于强化学习的足球机器人带球策略选择方法,所述足球机器人的球场场景环境建立在RoboCup仿真平台的基础上,该方法具体包括如下步骤:
S1:采用角度值和距离值对局部行为构建足球机器人-球-目标位置模型。
所述足球机器人-球-目标位置模型以足球机器人与球之间的角度α,足球机器人与球之间的距离ρ,以及足球机器人-球-目标角度的补角β作为状态参数,所述足球机器人-球-目标位置模型以足球机器人的速度向量[Vx,Vy,Vz]为动作参数,,Vx、Vy、Vz分别为足球机器人在X、Y、Z三个维度方向运动的速度,所述足球机器人-球-目标位置模型以足球机器人带球至对方球门正终点为优化目标。
S2:判断足球机器人-球-目标位置模型是否可在动作空间进行分解,若可分解,将足球机器人-球-目标位置模型分解为多个独立智能体,获取共用同一状态空间且具有不同速度空间的多个独立学习者,并对每个独立学习者分别设置奖励函数;具体步骤包括:
21)确定RoboCup仿真平台的状态空间与动作空间,判断动作空间的维度是否大于1,若不是,则集中强化学习方法,若是,则将足球机器人-球-目标位置模型分散成与动作空间维度相同数量的智能体;
22)对分散后的智能体判定是否可以定义个体目标,若是,则定义个体目标、共同目标和奖励函数,否则,定义总体目标及奖励函数;
所述共同目标设为最大化速度Vx,最小化参数α,β,Vy、Vz,同时对足球机器人与球之间的距离ρ限制其满足ρ<ρth,ρth为使球始终保持在距离机器人的设定距离阈值,Vx、Vy、Vz分别为足球机器人在X、Y、Z三个维度方向运动的速度,β为足球机器人-球-目标角度的补角,α为足球机器人与球之间的角度。
所述个体目标包括:调整球的方向:使足球机器人与球之间的角度保持为0;对球:保持足球机器人-球-目标角度的补角β为0;推球:令足球机器人在保持球的控制的同时,快速行走并击球以改变其速度,使足球机器人朝x方向运动的速度Vx在稳定行走的速度区间[0,0.6]中取值最大。
进一步地,将足球机器人-球-目标位置模型分散成与动作空间维度相同数量的三个智能体,并定义三个个体目标,定义的三个个体目标所对应的奖励函数为:
Figure BDA0002646847380000031
Figure BDA0002646847380000032
Figure BDA0002646847380000033
式中:rx、ry、rz分别为三个个体目标的奖励值,α为足球机器人与球之间的角度,ρ为足球机器人与球之间的距离,β为足球机器人-球-目标角度的补角β,αth、ρth、βth分别为α、ρ、β三个参量要求的最大值,Vx.max′为足球机器人朝x方向运动的期望速度。
23)确定各智能体的智能状态空间是否可分散,若可分散,则采用联合状态空间完善环境细节,为各智能体选择算法,否则,定义分散状态空间,完善环境细节。
S3:对每个独立学习者,构建基于SARSA(λ)的强化学习模型,并采用RBF网络对动作价值进行近似处理;具体地:
构建的基于SARSA(λ)的强化学习模型的表达式为:
δ=r+γQ(s',a')-Q(s,a)
Figure BDA0002646847380000038
式中:
Figure BDA0002646847380000039
为每个动作的学习步长,s,a为当前环境下的状态动作对,s′,a′为更新λ步之后的状态动作对,r为智能体接受奖惩值,E(s,a)为资格迹,Q(s,a)为动作价值,δ为临时参数;
引入RBF网络参数θ对智能体m的动作价值进行估计,则更新表达式为:
Figure BDA0002646847380000034
Figure BDA0002646847380000035
δ←rm+γQm(s′,a′)-Qm(s,a)
Figure BDA00026468473800000310
式中:
Figure BDA0002646847380000036
为智能体m对应的动作a的网络参数,
Figure BDA0002646847380000037
为智能体m的特征值,rm是智能体m接受的奖惩值,δ为临时参数,Qm(s,a)为智能体m在状态动作对s,a下的动作价值,Em(s,a)为智能体m的资格迹。
S4:分别对各个独立学习者进行训练,同时采用频率调整学习方法使其得到同步收敛,获取完整模型,完成带球策略选择。具体地:
采用频率调整学习方法对各个独立学习者得到同步收敛的具体内容为:
41)采用softmax选择由动作价值Q(s,a)得到动作a的概率分布:
Figure BDA0002646847380000041
式中,τ为用以调整动作选择概率的间距的人工系数,a为动作;
42)对于每个状态s,选择概率P(s,a)中最大值Pa对应的动作a执行,然后在更新时调整每个动作的学习步长来补偿频率差异,即当
Figure BDA0002646847380000042
时,将Q值更新为:
Figure BDA0002646847380000043
Figure BDA0002646847380000044
时,将Q值更新保持为:
Figure BDA0002646847380000045
式中,
Figure BDA0002646847380000046
为用以改变频率调整学习的子空间的大小的人工参数。
对各个独立学习者进行训练,达到收敛要求的判断依据包括:
a)控球失败率%F:计算方法为控球失败的次数/总剧集数,将其转化为百分制,若状态参数超出限定值时,即ρ>ρth∨|γ|>γth∨|φ|>φth,视为一次控球失败,该指标越低视为控球的稳定性越强;
b)带球速度%S:计算方法为带球的平均速度/最大速度,将其转化为百分制,该指标越高视为带球越优;
c)总体评价指标GF:计算方法为GF=1/2(100-%S+%F),该指标越低视为效果越好。
本发明提供的基于强化学习的足球机器人带球策略选择方法,相较于现有技术至少包括如下有益效果:
一、本发明采用强化学习方法对RoboCup标准平台组进行带球策略学习,通过将强化学习引入足球机器人带球策略选择问题中,将三个维度的运动分解为三个独立学习者,使得机器人在其自身,球,目标点三者无论成何种位置关系的情况下,都能得到较优的解,与预定速度方法相比,机器人的带球过程更加快速,且对球更具有掌控性。
二、本发明采用角度值和距离值对足球机器人的局部行为进行建模,显著缩小了状态空间需要的内存及计算单元,可针对不同状态空间下选用不同的策略,更加灵活,有利于提高足球机器人的运行速度。
三、与普通的强化学习方法相比,本发明将原本一个智能体的集中强化学习问题拆分成多个智能体的系统,大大减少了动作数目,同时使用频率调整学习协调方法,修正每个智能体的更新步长,针对多智能体系统中各个智能体收敛不同步的问题进行改进,在个体较差值附近以较大步长更新,而在个体最优值附近以较小步长更新,使得整体系统更容易收敛到最优值处,提升了算法的收敛性和收敛后的性能表现。
四、三个维度的运动分解为三个独立学习者,再使用频率调整学习方法使三个智能体同步收敛,既能够动态进行速度调整,也避免了强化学习维度过高难以收敛的问题。
附图说明
图1为实施例中机器人-足球-目标点球场建模示意图;
图2为实施例中强化学习分解成独立智能体的流程示意图;
图3为实施例中SARSA(λ)算法示意图;
图4为实施例中用于近似动作价值函数的RBF网络示意图;
图5为实施例中频率调整算法示意图;
图6为实施例中评价指标与训练剧集关系图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
实施例
本实施例以RoboCup标准平台组所使用的全向行走Nao型机器人为例,来说明本发明提出的基于强化学习的足球机器人带球策略选择方法,该方法具体包括如下步骤:
第一步、建立机器人-球-目标位置模型
目前大部分相关研究是采用将球场分割化的方式来建立状态空间,这样巨大的状态空间需要大量的内存及计算单元。本发明使用角度值和距离值对局部行为进行建模。如图1所示,以机器人-球角α,机器人-球距离ρ,以及机器人-球-目标角度补角β作为状态参数,全向双足机器人的速度向量[Vx,Vy,Vz]为动作参数,Vx、Vy、Vz分别代表机器人三个维度方向运动的速度,以球员带球到对方球门正终点为优化目标。
第二步、对上述模型分解成三个独立智能体
根据图2所示流程,将上述模型问题分解为三个独立智能体问题。具体地:
首先,确定问题是否可以分散:即确定RoboCup仿真平台的状态空间S与动作空间A,判断动作空间的维度M是否大于1,若不是,则集中强化学习方法,若是,则将问题分散成M个智能体,每一个智能体动作空间维度为1。因为全向双足机器人的速度矢量是[Vx,Vy,Vz],因此可以通过使用三个单独的智能体,Agentx,Agenty和Agentz来分散这个三维动作空间。
然后,确定共同目标和个体目标:对分散后的智能体判定是否可以定义个体目标,若是,则定义个体目标、共同目标和收益函数(奖励函数),否则,定义总体目标及收益函数(奖励函数)。
预期的共同目标是在保证得到球权的同时尽可能快速的走向期望的目标。由于全向双足机器人x方向速度要快于y方向速度和旋转速度,在获得较好控球率的基础上,要获得最大速度。因此共同目标设置为最大化速度Vx,最小化参数α,β,Vy、Vz,同时要对球的距离有限制,使球始终保持在距离机器人设定距离阈值ρth范围内,即有ρ<ρth,则视为机器人对球保持控制。把带球行为分散成3个子任务(即三个个体目标),调整球的方向:保持机器人-球角γ=0;对球:保持机器人-球-目标角φ=0;推球:让机器人在保持球的控制的同时,尽可能快地行走并击球以改变其速度,使Vx在稳定行走的速度区间[0,0.6]中取值尽可能大。
然后,定义收益函数:根据提出的带球模型定义的三个个体目标,调整球的方向,对球和推球。本发明方法将三个目标的奖励定义为:
Figure BDA0002646847380000071
Figure BDA0002646847380000072
Figure BDA0002646847380000073
其中,rx,ry,rz即为三个个体目标奖励,[ρththth]是对[ρ,α,β]三个参量要求的最大值,表示本发明对球在机器人控制下的定义,即当变量在这个范围之内,视为球处在机器人的控制下。Vx.max′是机器人朝x方向行走(朝前走)的期望速度,为最大限制速度的90%。由于推球任务只涉及到Agentx,而调整球的方向和对球两个任务,紧密涉及Agenty,Agentz,因此,对其角度的限制范围更加严格。该收益函数定义比较粗糙,不能将不同程度的行为详细的界定开来。因此,为了更好的达到目标,需要更好的定义回报函数,在实际控制指令代码中,定义了如下所示的奖励函数:
Figure BDA0002646847380000074
Figure BDA0002646847380000075
Figure BDA0002646847380000076
其中,fa是经验衰减参数,保证算法收敛,thres是经验常量,保证rx在两种情况下有足够区分度。
然后,确定问题是否可以完全分散化:
对于可分散的情况,使用联合状态空间S,并完善环境细节,为每一个智能体选择算法;若不可分散,定义分散状态空间S1…SM。由于上述三个状态变量需要被视作联合状态向量,因此该问题是无法被完全分散的,因此,对于该问题来讲,无法减少其状态空间。
最后,加入需要定义和实现环境细节:在上述内容中已经定义了状态和动作的范围要求,在这里对终止和复位条件做出限制,当满足以下条件时视为该训练剧集的结束:
①机器人带球到目标点。
②机器人走出场地范围。
③所定义的状态范围超出限制。
④达到限制时间。
第三步、建立使用RBF价值近似的SARSA(λ)算法
SARSA(λ)算法是强化学习领域基础的算法,如图3,4所示,这里针对该问题做简单介绍。
对于SARSA算法,即它是一种单步更新法,也就是说进行单次决策后可以直接更新行为准则。而对于SARSA(λ)来说,策略进行到λ步之后再进行更新,则动作价值Q更新公式变为:
δ=r+γQ(s',a')-Q(s,a)
Figure BDA0002646847380000081
其中,
Figure BDA0002646847380000082
为每个动作的学习步长,s,a是当前环境下的状态动作对,s′,a′是λ步之后的状态动作对,r是智能体接受奖惩值,δ为临时参数,E(s,a)是资格迹。
再参考图4引入RBF网络参数θ对每个智能体m的动作价值Q进行估计,则更新公式换为:
Figure BDA0002646847380000083
Figure BDA0002646847380000084
δ←rm+γQm(s′,a′)-Qm(s,a)
Figure BDA0002646847380000085
其中,
Figure BDA0002646847380000086
是智能体m对应的动作a的网络参数,
Figure BDA0002646847380000087
是智能体m的特征值,rm是智能体m接受的奖惩值,δ是临时参数,Qm(s,a)是智能体m在状态动作对s,a下的动作价值,Em(s,a)是智能体m的资格迹。
第四步、频率调整学习
在多智能体环境中学习比单智能体学习要复杂得多,因要学习的最佳行为取决于其他智能体的策略。而策略的更迭需要依赖其他智能体的策略变更,使得所有的智能体的学习目标成为一个动态目标,也就是说,所有的智能体在追求自己的动态学习目标同时,他们会影响和移动其他智能体的学习目标。因此,多智能体无法保证所有的智能体同步收敛到最优值位置,由此难以收敛或者收敛不到最优位置。而本发明通过频率调整学习去修正每个智能体的更新步长,使得所有智能体在个体较差值附近以较大步长更新,而在个体最优值附近以较小步长更新,使整个多智能体系统更容易收敛到最优值处。
上述过程已经针对每个智能体给出了各自的强化学习模型,该部分是调整每个独立学习者的更新频率。在实际的Q值更新中,Q值的实际值与预测值不同源于动作以不同的频率更新。也就是说,正是由于基于Q值的不同所以导致了每个动作出现频率的不同。
本发明针对此做出调整,首先,使用softmax选择由Q值得到动作a的概率分布:
Figure BDA0002646847380000091
其中τ为人工系数,用来调整动作选择概率的间距。如果τ值越小,最优动作的概率就越接近1;如果τ值越大,各动作选择概率就越趋于平均。
则对于每个状态s,选择概率P(s,a)中最大值Pa对应的动作a执行,然后在更新时调整每个动作的学习步长来补偿频率差异,即每次在智能体取得较优性能时降低更新步长,即当
Figure BDA0002646847380000092
时,将Q值的更新换为:
Figure BDA0002646847380000093
而在智能体性能不佳时增大更新步长,即
Figure BDA0002646847380000094
时,Q值的更新保持为:
Figure BDA0002646847380000095
即在智能体获胜时小心翼翼地学习(学习率较低,即更新步长较小),在智能体性能不佳时快速学习。其中,
Figure BDA0002646847380000096
为人工参数,用来改变频率调整学习的子空间的大小。从收敛路径上考虑,更期望较小的值,但是导致所需迭代次数的增加。通过选择任意小的
Figure BDA0002646847380000097
可以使智能体在任意大部分策略空间的得到收敛。
第五步、评级指标设计与结果
本实施例通过测量和平均10次,每次3000剧集的运行来评估学习过程的演变,然后使算法收敛。然后使用100剧集依照如下指标对算法进行测试。
(1)控球的失败率(%F):控球失败的次数/总剧集数,转化为百分制。当状态参数超出限定值时,即ρ>ρth∨|γ|>γth∨|φ|>φth,视为一次控球失败。该指标越低视为控球的稳定性越强。
(2)带球的速度(%S):带球的平均速度/最大速度,转化为百分制。该指标越高视为带球的越优。
(3)总体评价指标(GF):结合上述两个参数进行综合评GF=1/2(100-%S+%F)。该指标越低视为效果越好。
如图6所示,在1000剧集后,算法基本达到收敛,在达到了60%的速度基础上,出错率收敛到5%以下,达到了理想的效果。
本发明方法使用强化学习法对RoboCup标准平台组进行带球策略学习,使得机器人在其自身,球,目标点三者无论成何种位置关系的情况下,都能得到较优的解,与预定速度方法相比,机器人的带球过程更加快速,且对球更具有掌控性。将强化学习引入足球机器人带球策略选择问题中,将三个维度的运动分解为三个独立学习者,再使用频率调整学习方法使三个智能体同步收敛,既能够动态进行速度调整,也避免了强化学习维度过高难以收敛的问题。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的工作人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (6)

1.一种基于强化学习的足球机器人带球策略选择方法,其特征在于,所述足球机器人的球场场景环境建立在RoboCup仿真平台的基础上,该方法包括下列步骤:
1)构建足球机器人-球-目标位置模型;
2)判断足球机器人-球-目标位置模型是否可在动作空间进行分解,若可分解,将足球机器人-球-目标位置模型分解为多个独立智能体,获取共用同一状态空间且具有不同速度空间的多个独立学习者,并对每个独立学习者分别设置奖励函数;
3)对每个独立学习者,构建基于SARSA(λ)的强化学习模型,并采用RBF网络对动作价值进行近似处理;
4)分别对各个独立学习者进行训练,同时采用频率调整学习方法使其得到同步收敛,获取完整模型,完成带球策略选择;
所述足球机器人-球-目标位置模型以足球机器人与球之间的角度α,足球机器人与球之间的距离ρ,以及足球机器人-球-目标角度的补角β作为状态参数,所述足球机器人-球-目标位置模型以足球机器人的速度向量[Vx,Vy,Vz]为动作参数, Vx、Vy、Vz分别为足球机器人在X、Y、Z三个维度方向运动的速度,所述足球机器人-球-目标位置模型以足球机器人带球至对方球门正终点为优化目标;
步骤3)中,构建的基于SARSA(λ)的强化学习模型的表达式为:
δ=r+γQ(s',a')-Q(s,a)
Figure FDA0004016245380000011
式中:
Figure FDA0004016245380000012
为每个动作的学习步长,s,a为当前环境下的状态动作对,s′,a′为更新λ步之后的状态动作对,r为智能体接受奖惩值,E(s,a)为资格迹,Q(s,a)为动作价值,δ为临时参数;
引入RBF网络参数θ对智能体m的动作价值进行估计,则更新表达式为:
Figure FDA0004016245380000021
Figure FDA0004016245380000022
δ←rm+γQm(s′,a′)-Qm(s,a)
Figure FDA0004016245380000023
式中:
Figure FDA0004016245380000024
为智能体m对应的动作a的网络参数,
Figure FDA0004016245380000025
为智能体m的特征值,rm是智能体m接受的奖惩值,δ为临时参数,Qm(s,a)为智能体m在状态动作对s,a下的动作价值,Em(s,a)为智能体m的资格迹,
步骤4)中,采用频率调整学习方法对各个独立学习者得到同步收敛的具体内容为:
41)采用softmax选择由动作价值Q(s,a)得到动作a的概率分布:
Figure FDA0004016245380000026
式中,τ为用以调整动作选择概率的间距的人工系数,a为动作;
42)对于每个状态s,选择概率P(s,a)中最大值Pa对应的动作a执行,然后在更新时调整每个动作的学习步长来补偿频率差异,即当
Figure FDA0004016245380000027
时,将Q值更新为:
Figure FDA0004016245380000028
Figure FDA0004016245380000029
时,将Q值更新保持为:
Figure FDA00040162453800000210
式中,
Figure FDA00040162453800000211
为用以改变频率调整学习的子空间的大小的人工参数。
2.根据权利要求1所述的基于强化学习的足球机器人带球策略选择方法,其特征在于,步骤1)中,采用角度值和距离值对局部行为构建足球机器人-球-目标位置模型。
3.根据权利要求1所述的基于强化学习的足球机器人带球策略选择方法,其特征在于,步骤2)具体包括以下步骤:
21)确定RoboCup仿真平台的状态空间与动作空间,判断动作空间的维度是否大于1,若不是,则集中强化学习方法,若是,则将足球机器人-球-目标位置模型分散成与动作空间维度相同数量的智能体;
22)对分散后的智能体判定是否可以定义个体目标,若是,则定义个体目标、共同目标和奖励函数,否则,定义总体目标及奖励函数;
23)确定各智能体的智能状态空间是否可分散,若可分散,则采用联合状态空间完善环境细节,为各智能体选择算法,否则,定义分散状态空间,完善环境细节。
4.根据权利要求3所述的基于强化学习的足球机器人带球策略选择方法,其特征在于,所述共同目标设为最大化速度Vx,最小化参数α,β,Vy、Vz,同时对足球机器人与球之间的距离ρ限制其满足ρ<ρth,ρth为使球始终保持在距离机器人的设定距离阈值,Vx、Vy、Vz分别为足球机器人在X、Y、Z三个维度方向运动的速度,β为足球机器人-球-目标角度的补角,α为足球机器人与球之间的角度。
5.根据权利要求3所述的基于强化学习的足球机器人带球策略选择方法,其特征在于,所述个体目标包括:调整球的方向:使足球机器人与球之间的角度保持为0;对球:保持足球机器人-球-目标角度的补角β为0;推球:令足球机器人在保持球的控制的同时,快速行走并击球以改变其速度,使足球机器人朝x方向运动的速度Vx在稳定行走的速度区间[0,0.6]中取值最大。
6.根据权利要求3所述的基于强化学习的足球机器人带球策略选择方法,其特征在于,将足球机器人-球-目标位置模型分散成与动作空间维度相同数量的三个智能体,并定义三个个体目标,定义的三个个体目标所对应的奖励函数为:
Figure FDA0004016245380000031
Figure FDA0004016245380000032
Figure FDA0004016245380000033
式中:rx、ry、rz分别为三个个体目标的奖励值,α为足球机器人与球之间的角度,ρ为足球机器人与球之间的距离,β为足球机器人-球-目标角度的补角β,αth、ρth、βth分别为α、ρ、β三个参量要求的最大值,Vx.max′为足球机器人朝x方向运动的期望速度。
CN202010857210.8A 2020-08-24 2020-08-24 一种基于强化学习的足球机器人带球策略选择方法 Active CN112149344B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010857210.8A CN112149344B (zh) 2020-08-24 2020-08-24 一种基于强化学习的足球机器人带球策略选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010857210.8A CN112149344B (zh) 2020-08-24 2020-08-24 一种基于强化学习的足球机器人带球策略选择方法

Publications (2)

Publication Number Publication Date
CN112149344A CN112149344A (zh) 2020-12-29
CN112149344B true CN112149344B (zh) 2023-03-28

Family

ID=73888212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010857210.8A Active CN112149344B (zh) 2020-08-24 2020-08-24 一种基于强化学习的足球机器人带球策略选择方法

Country Status (1)

Country Link
CN (1) CN112149344B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114167749A (zh) * 2021-11-17 2022-03-11 深兰盛视科技(苏州)有限公司 足球机器人的控制方法及相关装置
CN114526738B (zh) * 2022-01-25 2023-06-16 中国科学院深圳先进技术研究院 一种基于深度强化学习的移动机器人视觉导航方法及装置
CN117807894B (zh) * 2024-02-28 2024-06-04 南京信息工程大学 一种面向足球对战的数据驱动强化学习方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018115963A2 (en) * 2016-12-23 2018-06-28 Mobileye Vision Technologies Ltd. Navigational system with imposed liability constraints
CN110147891A (zh) * 2019-05-23 2019-08-20 北京地平线机器人技术研发有限公司 应用于强化学习训练过程的方法、装置及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10977551B2 (en) * 2016-12-14 2021-04-13 Microsoft Technology Licensing, Llc Hybrid reward architecture for reinforcement learning
US11461703B2 (en) * 2019-01-23 2022-10-04 International Business Machines Corporation Determinantal reinforced learning in artificial intelligence

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018115963A2 (en) * 2016-12-23 2018-06-28 Mobileye Vision Technologies Ltd. Navigational system with imposed liability constraints
CN110147891A (zh) * 2019-05-23 2019-08-20 北京地平线机器人技术研发有限公司 应用于强化学习训练过程的方法、装置及电子设备

Also Published As

Publication number Publication date
CN112149344A (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
CN112149344B (zh) 一种基于强化学习的足球机器人带球策略选择方法
Zhang et al. Weighted double Q-learning.
CN109794937B (zh) 一种基于强化学习的足球机器人协作方法
CN113962012B (zh) 无人机对抗策略优化方法及装置
CN111260026B (zh) 一种基于元强化学习的导航迁移方法
CN110442129B (zh) 一种多智能体编队的控制方法和系统
CN112550314B (zh) 适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统
Khamassi et al. Active exploration and parameterized reinforcement learning applied to a simulated human-robot interaction task
CN112286218B (zh) 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法
Faußer et al. Ensemble methods for reinforcement learning with function approximation
CN110327624A (zh) 一种基于课程强化学习的游戏跟随方法和系统
Zakharenkov et al. Deep reinforcement learning with dqn vs. ppo in vizdoom
Freire et al. Modeling theory of mind in multi-agent games using adaptive feedback control
CN113962013B (zh) 飞行器对抗决策方法及装置
CN112540614A (zh) 一种基于深度强化学习的无人艇航迹控制方法
Yoon et al. New reinforcement learning algorithm for robot soccer
CN116776929A (zh) 一种基于pf-maddpg的多智能体任务决策方法
CN116796843A (zh) 一种基于pso-m3ddpg的无人机多对多追逃博弈方法
CN116432539A (zh) 一种时间一致性协同制导方法、系统、设备及介质
CN114800488A (zh) 一种基于深度强化学习的冗余机械臂可操作度优化方法及装置
CN110501903B (zh) 机器人免逆解控制系统参数的自调节及优化方法
CN112819144B (zh) 一种具有多智能体的神经网络提升收敛和训练速度的方法
CN114895699B (zh) 一种无人机集群飞行中有限交互情形下的协同控制方法
Igarashi et al. Learning of soccer player agents using a policy gradient method: Coordination between kicker and receiver during free kicks
CN115544898B (zh) 基于深度强化学习的多智能体攻防决策方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant