CN112149344B - 一种基于强化学习的足球机器人带球策略选择方法 - Google Patents
一种基于强化学习的足球机器人带球策略选择方法 Download PDFInfo
- Publication number
- CN112149344B CN112149344B CN202010857210.8A CN202010857210A CN112149344B CN 112149344 B CN112149344 B CN 112149344B CN 202010857210 A CN202010857210 A CN 202010857210A CN 112149344 B CN112149344 B CN 112149344B
- Authority
- CN
- China
- Prior art keywords
- ball
- robot
- football
- action
- football robot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 27
- 238000010187 selection method Methods 0.000 title claims abstract description 14
- 230000009471 action Effects 0.000 claims abstract description 63
- 238000000034 method Methods 0.000 claims abstract description 31
- 230000006870 function Effects 0.000 claims abstract description 18
- 238000004088 simulation Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims abstract description 3
- 239000003795 chemical substances by application Substances 0.000 claims description 68
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 230000006399 behavior Effects 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 8
- 230000000875 corresponding effect Effects 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 5
- 238000012797 qualification Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 3
- 230000001360 synchronised effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 125000000205 L-threonino group Chemical group [H]OC(=O)[C@@]([H])(N([H])[*])[C@](C([H])([H])[H])([H])O[H] 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/06—Multi-objective optimisation, e.g. Pareto optimisation using simulated annealing [SA], ant colony algorithms or genetic algorithms [GA]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Feedback Control In General (AREA)
Abstract
本发明涉及一种基于强化学习的足球机器人带球策略选择方法,足球机器人的球场场景环境建立在RoboCup仿真平台的基础上,方法步骤包括:构建足球机器人‑球‑目标位置模型;将足球机器人‑球‑目标位置模型分解为多个独立智能体,获取共用同一状态空间且具有不同速度空间的多个独立学习者,并对每个独立学习者分别设置奖励函数;对每个独立学习者,构建基于SARSA(λ)的强化学习模型,并采用RBF网络对动作价值进行近似处理;对各个独立学习者进行训练,采用频率调整学习方法使其得到同步收敛,获取完整模型,完成带球策略选择。与现有技术相比,本发明具有使机器人的带球过程更快速,对球更具掌控性,提升收敛性等优点。
Description
技术领域
本发明涉及足球机器人运动技术领域,尤其是涉及一种基于强化学习的足球机器人带球策略选择方法。
背景技术
在RoboCup标准平台组比赛中,带球是一种复杂的行为,在此期间,机器人球员试图以非常受控的方式操纵球,同时朝向期望的目标移动。对于双足机器人,需要考虑球,机器人和地面之间的相互作用,以得到前向,横向和转动三个方向上的速度,这使得该任务具有高度动态的和非线性的特征。由此,目前的技术方案中,带球行为大多通过定速度、定角度去控制球,也就是说,机器人以预先给定好的速度去与球进行交互,无论机器人,足球,目标点三者之间呈何种关系,机器人总以给定的转角速度和横向移动的速度调整至三点一线,然后带球去往目标点,整个过程中,速度始终为恒定值,在整个带球过程中,三个方向的速度并不能更改,也没有进行协调。目前的技术方案既不能保证最快地将球带往目标点,也不能保证在整个过程中始终将球控制在合适的距离内。此外,目前技术方案中大多采用将球场分割化的方式为足球机器人建立状态空间,这样巨大的状态空间需要大量的内存及计算单元,影响足球机器人的运行速度,且无法对不同状态空间下选用不同的策略,适用不够灵活。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于强化学习的足球机器人带球策略选择方法,该方法通过将强化学习引入足球机器人带球策略选择中,将三个维度的运动分解为三个独立学习者,再使用频率调整学习方法使三个智能体同步收敛,既能够动态进行速度调整,也避免了强化学习维度过高难以收敛的问题。
本发明的目的可以通过以下技术方案来实现:
一种基于强化学习的足球机器人带球策略选择方法,所述足球机器人的球场场景环境建立在RoboCup仿真平台的基础上,该方法具体包括如下步骤:
S1:采用角度值和距离值对局部行为构建足球机器人-球-目标位置模型。
所述足球机器人-球-目标位置模型以足球机器人与球之间的角度α,足球机器人与球之间的距离ρ,以及足球机器人-球-目标角度的补角β作为状态参数,所述足球机器人-球-目标位置模型以足球机器人的速度向量[Vx,Vy,Vz]为动作参数,,Vx、Vy、Vz分别为足球机器人在X、Y、Z三个维度方向运动的速度,所述足球机器人-球-目标位置模型以足球机器人带球至对方球门正终点为优化目标。
S2:判断足球机器人-球-目标位置模型是否可在动作空间进行分解,若可分解,将足球机器人-球-目标位置模型分解为多个独立智能体,获取共用同一状态空间且具有不同速度空间的多个独立学习者,并对每个独立学习者分别设置奖励函数;具体步骤包括:
21)确定RoboCup仿真平台的状态空间与动作空间,判断动作空间的维度是否大于1,若不是,则集中强化学习方法,若是,则将足球机器人-球-目标位置模型分散成与动作空间维度相同数量的智能体;
22)对分散后的智能体判定是否可以定义个体目标,若是,则定义个体目标、共同目标和奖励函数,否则,定义总体目标及奖励函数;
所述共同目标设为最大化速度Vx,最小化参数α,β,Vy、Vz,同时对足球机器人与球之间的距离ρ限制其满足ρ<ρth,ρth为使球始终保持在距离机器人的设定距离阈值,Vx、Vy、Vz分别为足球机器人在X、Y、Z三个维度方向运动的速度,β为足球机器人-球-目标角度的补角,α为足球机器人与球之间的角度。
所述个体目标包括:调整球的方向:使足球机器人与球之间的角度保持为0;对球:保持足球机器人-球-目标角度的补角β为0;推球:令足球机器人在保持球的控制的同时,快速行走并击球以改变其速度,使足球机器人朝x方向运动的速度Vx在稳定行走的速度区间[0,0.6]中取值最大。
进一步地,将足球机器人-球-目标位置模型分散成与动作空间维度相同数量的三个智能体,并定义三个个体目标,定义的三个个体目标所对应的奖励函数为:
式中:rx、ry、rz分别为三个个体目标的奖励值,α为足球机器人与球之间的角度,ρ为足球机器人与球之间的距离,β为足球机器人-球-目标角度的补角β,αth、ρth、βth分别为α、ρ、β三个参量要求的最大值,Vx.max′为足球机器人朝x方向运动的期望速度。
23)确定各智能体的智能状态空间是否可分散,若可分散,则采用联合状态空间完善环境细节,为各智能体选择算法,否则,定义分散状态空间,完善环境细节。
S3:对每个独立学习者,构建基于SARSA(λ)的强化学习模型,并采用RBF网络对动作价值进行近似处理;具体地:
构建的基于SARSA(λ)的强化学习模型的表达式为:
δ=r+γQ(s',a')-Q(s,a)
引入RBF网络参数θ对智能体m的动作价值进行估计,则更新表达式为:
δ←rm+γQm(s′,a′)-Qm(s,a)
S4:分别对各个独立学习者进行训练,同时采用频率调整学习方法使其得到同步收敛,获取完整模型,完成带球策略选择。具体地:
采用频率调整学习方法对各个独立学习者得到同步收敛的具体内容为:
41)采用softmax选择由动作价值Q(s,a)得到动作a的概率分布:
式中,τ为用以调整动作选择概率的间距的人工系数,a为动作;
对各个独立学习者进行训练,达到收敛要求的判断依据包括:
a)控球失败率%F:计算方法为控球失败的次数/总剧集数,将其转化为百分制,若状态参数超出限定值时,即ρ>ρth∨|γ|>γth∨|φ|>φth,视为一次控球失败,该指标越低视为控球的稳定性越强;
b)带球速度%S:计算方法为带球的平均速度/最大速度,将其转化为百分制,该指标越高视为带球越优;
c)总体评价指标GF:计算方法为GF=1/2(100-%S+%F),该指标越低视为效果越好。
本发明提供的基于强化学习的足球机器人带球策略选择方法,相较于现有技术至少包括如下有益效果:
一、本发明采用强化学习方法对RoboCup标准平台组进行带球策略学习,通过将强化学习引入足球机器人带球策略选择问题中,将三个维度的运动分解为三个独立学习者,使得机器人在其自身,球,目标点三者无论成何种位置关系的情况下,都能得到较优的解,与预定速度方法相比,机器人的带球过程更加快速,且对球更具有掌控性。
二、本发明采用角度值和距离值对足球机器人的局部行为进行建模,显著缩小了状态空间需要的内存及计算单元,可针对不同状态空间下选用不同的策略,更加灵活,有利于提高足球机器人的运行速度。
三、与普通的强化学习方法相比,本发明将原本一个智能体的集中强化学习问题拆分成多个智能体的系统,大大减少了动作数目,同时使用频率调整学习协调方法,修正每个智能体的更新步长,针对多智能体系统中各个智能体收敛不同步的问题进行改进,在个体较差值附近以较大步长更新,而在个体最优值附近以较小步长更新,使得整体系统更容易收敛到最优值处,提升了算法的收敛性和收敛后的性能表现。
四、三个维度的运动分解为三个独立学习者,再使用频率调整学习方法使三个智能体同步收敛,既能够动态进行速度调整,也避免了强化学习维度过高难以收敛的问题。
附图说明
图1为实施例中机器人-足球-目标点球场建模示意图;
图2为实施例中强化学习分解成独立智能体的流程示意图;
图3为实施例中SARSA(λ)算法示意图;
图4为实施例中用于近似动作价值函数的RBF网络示意图;
图5为实施例中频率调整算法示意图;
图6为实施例中评价指标与训练剧集关系图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
实施例
本实施例以RoboCup标准平台组所使用的全向行走Nao型机器人为例,来说明本发明提出的基于强化学习的足球机器人带球策略选择方法,该方法具体包括如下步骤:
第一步、建立机器人-球-目标位置模型
目前大部分相关研究是采用将球场分割化的方式来建立状态空间,这样巨大的状态空间需要大量的内存及计算单元。本发明使用角度值和距离值对局部行为进行建模。如图1所示,以机器人-球角α,机器人-球距离ρ,以及机器人-球-目标角度补角β作为状态参数,全向双足机器人的速度向量[Vx,Vy,Vz]为动作参数,Vx、Vy、Vz分别代表机器人三个维度方向运动的速度,以球员带球到对方球门正终点为优化目标。
第二步、对上述模型分解成三个独立智能体
根据图2所示流程,将上述模型问题分解为三个独立智能体问题。具体地:
首先,确定问题是否可以分散:即确定RoboCup仿真平台的状态空间S与动作空间A,判断动作空间的维度M是否大于1,若不是,则集中强化学习方法,若是,则将问题分散成M个智能体,每一个智能体动作空间维度为1。因为全向双足机器人的速度矢量是[Vx,Vy,Vz],因此可以通过使用三个单独的智能体,Agentx,Agenty和Agentz来分散这个三维动作空间。
然后,确定共同目标和个体目标:对分散后的智能体判定是否可以定义个体目标,若是,则定义个体目标、共同目标和收益函数(奖励函数),否则,定义总体目标及收益函数(奖励函数)。
预期的共同目标是在保证得到球权的同时尽可能快速的走向期望的目标。由于全向双足机器人x方向速度要快于y方向速度和旋转速度,在获得较好控球率的基础上,要获得最大速度。因此共同目标设置为最大化速度Vx,最小化参数α,β,Vy、Vz,同时要对球的距离有限制,使球始终保持在距离机器人设定距离阈值ρth范围内,即有ρ<ρth,则视为机器人对球保持控制。把带球行为分散成3个子任务(即三个个体目标),调整球的方向:保持机器人-球角γ=0;对球:保持机器人-球-目标角φ=0;推球:让机器人在保持球的控制的同时,尽可能快地行走并击球以改变其速度,使Vx在稳定行走的速度区间[0,0.6]中取值尽可能大。
然后,定义收益函数:根据提出的带球模型定义的三个个体目标,调整球的方向,对球和推球。本发明方法将三个目标的奖励定义为:
其中,rx,ry,rz即为三个个体目标奖励,[ρth,αth,βth]是对[ρ,α,β]三个参量要求的最大值,表示本发明对球在机器人控制下的定义,即当变量在这个范围之内,视为球处在机器人的控制下。Vx.max′是机器人朝x方向行走(朝前走)的期望速度,为最大限制速度的90%。由于推球任务只涉及到Agentx,而调整球的方向和对球两个任务,紧密涉及Agenty,Agentz,因此,对其角度的限制范围更加严格。该收益函数定义比较粗糙,不能将不同程度的行为详细的界定开来。因此,为了更好的达到目标,需要更好的定义回报函数,在实际控制指令代码中,定义了如下所示的奖励函数:
其中,fa是经验衰减参数,保证算法收敛,thres是经验常量,保证rx在两种情况下有足够区分度。
然后,确定问题是否可以完全分散化:
对于可分散的情况,使用联合状态空间S,并完善环境细节,为每一个智能体选择算法;若不可分散,定义分散状态空间S1…SM。由于上述三个状态变量需要被视作联合状态向量,因此该问题是无法被完全分散的,因此,对于该问题来讲,无法减少其状态空间。
最后,加入需要定义和实现环境细节:在上述内容中已经定义了状态和动作的范围要求,在这里对终止和复位条件做出限制,当满足以下条件时视为该训练剧集的结束:
①机器人带球到目标点。
②机器人走出场地范围。
③所定义的状态范围超出限制。
④达到限制时间。
第三步、建立使用RBF价值近似的SARSA(λ)算法
SARSA(λ)算法是强化学习领域基础的算法,如图3,4所示,这里针对该问题做简单介绍。
对于SARSA算法,即它是一种单步更新法,也就是说进行单次决策后可以直接更新行为准则。而对于SARSA(λ)来说,策略进行到λ步之后再进行更新,则动作价值Q更新公式变为:
δ=r+γQ(s',a')-Q(s,a)
再参考图4引入RBF网络参数θ对每个智能体m的动作价值Q进行估计,则更新公式换为:
δ←rm+γQm(s′,a′)-Qm(s,a)
第四步、频率调整学习
在多智能体环境中学习比单智能体学习要复杂得多,因要学习的最佳行为取决于其他智能体的策略。而策略的更迭需要依赖其他智能体的策略变更,使得所有的智能体的学习目标成为一个动态目标,也就是说,所有的智能体在追求自己的动态学习目标同时,他们会影响和移动其他智能体的学习目标。因此,多智能体无法保证所有的智能体同步收敛到最优值位置,由此难以收敛或者收敛不到最优位置。而本发明通过频率调整学习去修正每个智能体的更新步长,使得所有智能体在个体较差值附近以较大步长更新,而在个体最优值附近以较小步长更新,使整个多智能体系统更容易收敛到最优值处。
上述过程已经针对每个智能体给出了各自的强化学习模型,该部分是调整每个独立学习者的更新频率。在实际的Q值更新中,Q值的实际值与预测值不同源于动作以不同的频率更新。也就是说,正是由于基于Q值的不同所以导致了每个动作出现频率的不同。
本发明针对此做出调整,首先,使用softmax选择由Q值得到动作a的概率分布:
其中τ为人工系数,用来调整动作选择概率的间距。如果τ值越小,最优动作的概率就越接近1;如果τ值越大,各动作选择概率就越趋于平均。
即在智能体获胜时小心翼翼地学习(学习率较低,即更新步长较小),在智能体性能不佳时快速学习。其中,为人工参数,用来改变频率调整学习的子空间的大小。从收敛路径上考虑,更期望较小的值,但是导致所需迭代次数的增加。通过选择任意小的可以使智能体在任意大部分策略空间的得到收敛。
第五步、评级指标设计与结果
本实施例通过测量和平均10次,每次3000剧集的运行来评估学习过程的演变,然后使算法收敛。然后使用100剧集依照如下指标对算法进行测试。
(1)控球的失败率(%F):控球失败的次数/总剧集数,转化为百分制。当状态参数超出限定值时,即ρ>ρth∨|γ|>γth∨|φ|>φth,视为一次控球失败。该指标越低视为控球的稳定性越强。
(2)带球的速度(%S):带球的平均速度/最大速度,转化为百分制。该指标越高视为带球的越优。
(3)总体评价指标(GF):结合上述两个参数进行综合评GF=1/2(100-%S+%F)。该指标越低视为效果越好。
如图6所示,在1000剧集后,算法基本达到收敛,在达到了60%的速度基础上,出错率收敛到5%以下,达到了理想的效果。
本发明方法使用强化学习法对RoboCup标准平台组进行带球策略学习,使得机器人在其自身,球,目标点三者无论成何种位置关系的情况下,都能得到较优的解,与预定速度方法相比,机器人的带球过程更加快速,且对球更具有掌控性。将强化学习引入足球机器人带球策略选择问题中,将三个维度的运动分解为三个独立学习者,再使用频率调整学习方法使三个智能体同步收敛,既能够动态进行速度调整,也避免了强化学习维度过高难以收敛的问题。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的工作人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (6)
1.一种基于强化学习的足球机器人带球策略选择方法,其特征在于,所述足球机器人的球场场景环境建立在RoboCup仿真平台的基础上,该方法包括下列步骤:
1)构建足球机器人-球-目标位置模型;
2)判断足球机器人-球-目标位置模型是否可在动作空间进行分解,若可分解,将足球机器人-球-目标位置模型分解为多个独立智能体,获取共用同一状态空间且具有不同速度空间的多个独立学习者,并对每个独立学习者分别设置奖励函数;
3)对每个独立学习者,构建基于SARSA(λ)的强化学习模型,并采用RBF网络对动作价值进行近似处理;
4)分别对各个独立学习者进行训练,同时采用频率调整学习方法使其得到同步收敛,获取完整模型,完成带球策略选择;
所述足球机器人-球-目标位置模型以足球机器人与球之间的角度α,足球机器人与球之间的距离ρ,以及足球机器人-球-目标角度的补角β作为状态参数,所述足球机器人-球-目标位置模型以足球机器人的速度向量[Vx,Vy,Vz]为动作参数, Vx、Vy、Vz分别为足球机器人在X、Y、Z三个维度方向运动的速度,所述足球机器人-球-目标位置模型以足球机器人带球至对方球门正终点为优化目标;
步骤3)中,构建的基于SARSA(λ)的强化学习模型的表达式为:
δ=r+γQ(s',a')-Q(s,a)
引入RBF网络参数θ对智能体m的动作价值进行估计,则更新表达式为:
δ←rm+γQm(s′,a′)-Qm(s,a)
步骤4)中,采用频率调整学习方法对各个独立学习者得到同步收敛的具体内容为:
41)采用softmax选择由动作价值Q(s,a)得到动作a的概率分布:
式中,τ为用以调整动作选择概率的间距的人工系数,a为动作;
2.根据权利要求1所述的基于强化学习的足球机器人带球策略选择方法,其特征在于,步骤1)中,采用角度值和距离值对局部行为构建足球机器人-球-目标位置模型。
3.根据权利要求1所述的基于强化学习的足球机器人带球策略选择方法,其特征在于,步骤2)具体包括以下步骤:
21)确定RoboCup仿真平台的状态空间与动作空间,判断动作空间的维度是否大于1,若不是,则集中强化学习方法,若是,则将足球机器人-球-目标位置模型分散成与动作空间维度相同数量的智能体;
22)对分散后的智能体判定是否可以定义个体目标,若是,则定义个体目标、共同目标和奖励函数,否则,定义总体目标及奖励函数;
23)确定各智能体的智能状态空间是否可分散,若可分散,则采用联合状态空间完善环境细节,为各智能体选择算法,否则,定义分散状态空间,完善环境细节。
4.根据权利要求3所述的基于强化学习的足球机器人带球策略选择方法,其特征在于,所述共同目标设为最大化速度Vx,最小化参数α,β,Vy、Vz,同时对足球机器人与球之间的距离ρ限制其满足ρ<ρth,ρth为使球始终保持在距离机器人的设定距离阈值,Vx、Vy、Vz分别为足球机器人在X、Y、Z三个维度方向运动的速度,β为足球机器人-球-目标角度的补角,α为足球机器人与球之间的角度。
5.根据权利要求3所述的基于强化学习的足球机器人带球策略选择方法,其特征在于,所述个体目标包括:调整球的方向:使足球机器人与球之间的角度保持为0;对球:保持足球机器人-球-目标角度的补角β为0;推球:令足球机器人在保持球的控制的同时,快速行走并击球以改变其速度,使足球机器人朝x方向运动的速度Vx在稳定行走的速度区间[0,0.6]中取值最大。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010857210.8A CN112149344B (zh) | 2020-08-24 | 2020-08-24 | 一种基于强化学习的足球机器人带球策略选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010857210.8A CN112149344B (zh) | 2020-08-24 | 2020-08-24 | 一种基于强化学习的足球机器人带球策略选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112149344A CN112149344A (zh) | 2020-12-29 |
CN112149344B true CN112149344B (zh) | 2023-03-28 |
Family
ID=73888212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010857210.8A Active CN112149344B (zh) | 2020-08-24 | 2020-08-24 | 一种基于强化学习的足球机器人带球策略选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112149344B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114167749A (zh) * | 2021-11-17 | 2022-03-11 | 深兰盛视科技(苏州)有限公司 | 足球机器人的控制方法及相关装置 |
CN114526738B (zh) * | 2022-01-25 | 2023-06-16 | 中国科学院深圳先进技术研究院 | 一种基于深度强化学习的移动机器人视觉导航方法及装置 |
CN117807894B (zh) * | 2024-02-28 | 2024-06-04 | 南京信息工程大学 | 一种面向足球对战的数据驱动强化学习方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018115963A2 (en) * | 2016-12-23 | 2018-06-28 | Mobileye Vision Technologies Ltd. | Navigational system with imposed liability constraints |
CN110147891A (zh) * | 2019-05-23 | 2019-08-20 | 北京地平线机器人技术研发有限公司 | 应用于强化学习训练过程的方法、装置及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10977551B2 (en) * | 2016-12-14 | 2021-04-13 | Microsoft Technology Licensing, Llc | Hybrid reward architecture for reinforcement learning |
US11461703B2 (en) * | 2019-01-23 | 2022-10-04 | International Business Machines Corporation | Determinantal reinforced learning in artificial intelligence |
-
2020
- 2020-08-24 CN CN202010857210.8A patent/CN112149344B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018115963A2 (en) * | 2016-12-23 | 2018-06-28 | Mobileye Vision Technologies Ltd. | Navigational system with imposed liability constraints |
CN110147891A (zh) * | 2019-05-23 | 2019-08-20 | 北京地平线机器人技术研发有限公司 | 应用于强化学习训练过程的方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112149344A (zh) | 2020-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112149344B (zh) | 一种基于强化学习的足球机器人带球策略选择方法 | |
Zhang et al. | Weighted double Q-learning. | |
CN109794937B (zh) | 一种基于强化学习的足球机器人协作方法 | |
CN113962012B (zh) | 无人机对抗策略优化方法及装置 | |
CN111260026B (zh) | 一种基于元强化学习的导航迁移方法 | |
CN110442129B (zh) | 一种多智能体编队的控制方法和系统 | |
CN112550314B (zh) | 适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统 | |
Khamassi et al. | Active exploration and parameterized reinforcement learning applied to a simulated human-robot interaction task | |
CN112286218B (zh) | 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法 | |
Faußer et al. | Ensemble methods for reinforcement learning with function approximation | |
CN110327624A (zh) | 一种基于课程强化学习的游戏跟随方法和系统 | |
Zakharenkov et al. | Deep reinforcement learning with dqn vs. ppo in vizdoom | |
Freire et al. | Modeling theory of mind in multi-agent games using adaptive feedback control | |
CN113962013B (zh) | 飞行器对抗决策方法及装置 | |
CN112540614A (zh) | 一种基于深度强化学习的无人艇航迹控制方法 | |
Yoon et al. | New reinforcement learning algorithm for robot soccer | |
CN116776929A (zh) | 一种基于pf-maddpg的多智能体任务决策方法 | |
CN116796843A (zh) | 一种基于pso-m3ddpg的无人机多对多追逃博弈方法 | |
CN116432539A (zh) | 一种时间一致性协同制导方法、系统、设备及介质 | |
CN114800488A (zh) | 一种基于深度强化学习的冗余机械臂可操作度优化方法及装置 | |
CN110501903B (zh) | 机器人免逆解控制系统参数的自调节及优化方法 | |
CN112819144B (zh) | 一种具有多智能体的神经网络提升收敛和训练速度的方法 | |
CN114895699B (zh) | 一种无人机集群飞行中有限交互情形下的协同控制方法 | |
Igarashi et al. | Learning of soccer player agents using a policy gradient method: Coordination between kicker and receiver during free kicks | |
CN115544898B (zh) | 基于深度强化学习的多智能体攻防决策方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |