CN110826723A

CN110826723A - 一种结合tamer框架和面部表情反馈的交互强化学习方法

Info

Publication number: CN110826723A
Application number: CN201910967991.3A
Authority: CN
Inventors: 李光亮; 林金莹; 张期磊; 何波; 冯晨
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2020-02-21
Also published as: WO2021068638A1; LU500028B1

Abstract

本发明属于人工智能技术领域，公开了一种结合TAMER框架和面部表情反馈的交互强化学习方法，所述方法结合TAMER框架和面部表情评估形成Face Valuing‑TAMER；所述算法为：TAMER通过从人类反馈中学习值函数来预期未来奖励。人类训练者首先在TAMER框架下训练智能体，通过键盘按键反馈提供奖励信号，训练智能体获得一个初始的可执行策略，然后允许人类训练者通过面部表情反馈提供奖励调整智能体的行为。本发明通过基于面部表情反馈的交互强化学习方法可以减少人类用户训练智能体过程中的认知负担，使智能体更好的理解人类偏好，能够有效的从人类奖励中进行学习。

Description

一种结合TAMER框架和面部表情反馈的交互强化学习方法

技术领域

本发明属于人工智能技术领域，尤其涉及一种结合TAMER框架和面部表情反馈的交互强化学习方法。

背景技术

目前，最接近的现有技术：

研究以人为中心的强化学习方法近年来受到广泛关注，通过人类反馈进行强化学习已经被证明是一种非常有效的方法，它允许非技术人员指导智能体执行任务，智能体从人类反馈中学习的优势使这一方法在现实生活中的应用越来越广泛。智能体从人类反馈中学习时，需要一个不断的试错过程：当智能体执行一个正确的动作时，人类用户可以通过提供一个积极的反馈来鼓励它，当智能体执行一个不正确的动作时，需要提供一个消极反馈对它进行惩罚，告诉智能体尝试其他动作，这可能会带来一定的风险，因为智能体可能会执行更糟糕的动作。人类用户便需要提供更多反馈引导智能体修正已经学到的模型并重新学习正确的行为策略，这将增加智能体的学习成本并给人类带来更多负担。

交互强化学习的一个重要应用是扩展或增强人类的认知和身体能力。要做到这一点，智能体必须了解人类用户的意图并适应他们的偏好，在当前的大多数研究中，人类用户的偏好是通过明确的指示或者昂贵的纠正反馈传达的，比如通过预定义的单词或句子、按钮、鼠标单点等形式，然而在实际应用中，这些反馈方法会增加人类用户的认知负荷。

TAMER是一种典型的交互强化学习方法，在TAMER中，系统能够学习人类用户奖励的预测模型，这一模型甚至能在人类奖励延迟或者不一致的情况下成功地训练智能体，但是它存在一定的缺点：当用户需要更新智能体的行为时，必须更新模型。

因此，亟需一种基于面部表情反馈的交互强化学习方法，允许训练者在不需要大量昂贵的交互行为的情况下提供反馈，并且不需要重新训练智能体就可以转移到新的或者变化着的场景中。

综上所述，现有技术存在的问题是：通过预定义的键盘反馈等明确反馈形式调整智能体的行为会增加人类用户的认知负担，策略更新需要大量的交互行为，增加了学习成本。

解决上述技术问题的难度：

1、如何向TAMER框架中引入面部表情识别处理，用面部表情取代键盘等明确反馈接口；

2、如何将人类复杂的面部表情与奖励信号有效结合，为智能体学习提供有效反馈。

解决上述技术问题的意义：

1、直接意义是减少智能体训练过程中需要的明确反馈的数量，降低人类用户的认知负担；

2、建立起人类用户与智能体直接沟通的渠道，人类用户不需要提前进行技能培训便可获得能快速适应自己偏好的智能体；

3、尤其是对肢体障碍的残障人士，他们不方便与智能体进行肢体交互，面部表情反馈的引入为他们提供了便利。

发明内容

针对现有技术存在的问题，本发明提供了一种结合TAMER框架和面部表情反馈的交互强化学习方法，结合明确反馈和面部表情反馈在TAMER框架上进行学习。

本发明的实现如下：结合TAMER框架和面部表情反馈的交互强化学习方法，所述结合TAMER框架和面部表情反馈的交互强化学习方法结合TAMER框架和面部表情评估形成Face Valuing-TAMER；TAMER通过从人类反馈中学习值函数来预期未来奖励；训练者首先在TAMER框架下训练智能体，通过键盘按键反馈提供奖励信号，训练智能体获得一个初始的可执行策略，然后允许训练者通过面部表情反馈提供奖励调整智能体的行为。

进一步，所述结合TAMER框架和面部表情反馈的交互强化学习方法包括以下步骤：

步骤一，Face Valuing-TAMER允许人类训练者在TAMER框架下训练智能体；智能体根据当前状态选择动作；

步骤二，人类训练者观察并通过键盘按键等接口提供明确反馈作为奖励信号；

步骤三，更新奖励函数及值函数；

步骤四，更新智能体的行为策略；

步骤五，智能体通过键盘反馈学习获得一个初始的可执行策略；

步骤六，人类训练者通过表情反馈提供奖励调整智能体的行为，对策略进行调整检测是否达到满意状态；若满意则结束，若不满意则重新通过表情反馈对策略进行调整。

进一步，所述智能体从人类反馈中进行学习的算法包括：

TAMER通过从人类反馈中学习的预测奖励模型学习值函数：

其中，R_t+1表示在状态S_t采取动作A_t后收到的奖励；G_t是在时间实例t上的预期回报，被定义为在时间t之后的奖励的折扣总和；v_π(s)是对应于每一个策略π的状态值函数，通过遵循策略π将每个状态s∈S映射到该状态的预期奖励G_t； q_π(s,a)是对应于每一个策略π的动作值函数，通过遵循策略π，在状态s下执行动作a来提供预期的回报G_t；

当给定任务需要预测时，状态值函数非常重要，相反，如果给定的任务需要控制，使用动作值函数q_π(s,a)；人类训练者能够通过键盘按键或者面部表情提供奖励反馈调整智能体的行为。

进一步，所述结合TAMER框架和面部表情反馈的交互强化学习方法的一个TAMER智能体学习一个函数

近似于在当前状态和行动下预期的人类奖励，给定一个状态s，智能体短期的选择了最大的预期回报，

训练者观察和评估智能体的行为并给予奖励；

在TAMER中，每一个反馈按钮的按下都被标记为一个标量奖励信号-1或 +1，通过多次按下按钮加强，样本的标签作为延迟加权的总回报，根据针对特定time step的人类奖励信号的概率计算的，TAMER学习算法不断重复采取行动，感知奖励，并更新

过程；

把TAMER作为智能体从人类奖励中学习的方法，并把γ_TAMER作为人类奖励的折扣因子。

本发明的另一目的在于提供一种应用所述合TAMER框架和面部表情反馈的交互强化学习方法的信息数据处理终端。

综上所述，本发明的优点及积极效果为：本发明在TAMER框架中引入人类用户的面部表情反馈，人类用户可以通过键盘或其他交互接口提供反馈训练 TAMER智能体。智能体学习到一个初始策略后，人类用户通过面部表情反馈对智能体的行为进行调整，这一过程将减少人类用户的认知负担，将人类用户从繁重反馈任务中解放出来，这一方法是对现有交互机器学习方法的补充，有助于进一步提高智能体与人类用户的交互效率。

本发明结合TAMER框架和面部表情反馈的交互强化学习方法可以减少人类用户训练智能体过程中的认知负担，使智能体更好的理解人类偏好，能够有效的从人类奖励中进行学习。从实验结果图5和图6分析中看出，引入面部表情反馈可以有效缩短智能体的训练时间并使智能体能从较少的人类反馈中学习到相同的行为策略，降低了学习成本。

附图说明

图1本发明实施例提供的结合TAMER框架和面部表情反馈的交互强化学习方法流程图。

图2是本发明实施例提供的结合TAMER框架和面部表情反馈的交互强化学习方法实现流程图。

图3是本发明实施例提供的训练接口界面及Grid World环境任务示例截图。

图4是本发明实施例提供的结合TAMER框架和面部表情反馈的智能体交互强化学习示意框图。

图5是本发明实施例提供的通过键盘反馈训练与引入面部表情反馈训练的 TimeStep对照图。

图6是本发明实施例提供的通过键盘反馈训练与引入面部表情反馈训练的需要的反馈数对照图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种结合TAMER框架和面部表情反馈的交互强化学习方法，下面结合附图对本发明作详细的描述。

如图1和2所示，本发明实施例提供的结合TAMER框架和面部表情反馈的交互强化学习方法包括以下步骤：

S101：Face Valuing-TAMER允许人类训练者首先在TAMER框架下训练智能体；智能体根据当前状态选择动作。

S102：人类训练者观察并通过键盘按键等接口提供明确反馈作为奖励信号。

S103：更新奖励函数及值函数。

S104：更新智能体的行为策略。

S105：智能体通过键盘反馈学习获得一个初始的可执行策略。

S106：人类训练者通过表情反馈提供奖励调整智能体的行为，对策略进行调整检测是否达到满意状态；若满意则结束，若不满意则重新通过表情反馈对策略进行调整。

进一步，所述智能体从人类反馈中进行学习的算法包括：

TAMER通过从人类反馈中学习的预测奖励模型学习值函数：

v_π(s)＝E{G_t|S_t＝s,π}

q_π(s,a)＝E{G_t|S_t＝s,A_t＝a,π}

其中，R_t+1表示在状态S_t采取动作A_t后收到的奖励；G_t是在时间实例t上的预期回报，被定义为在时间t之后的奖励的折扣总和；v_π(s)是对应于每一个策略π的状态值函数，它通过遵循策略π将每个状态s∈S映射到该状态的预期奖励 G_t；

q_π(s,a)是对应于每一个策略π的动作值函数，它通过遵循策略π，在状态s 下执行动作a来提供预期的回报G_t。

当给定任务需要预测时，状态值函数非常重要，相反，如果给定的任务需要控制，那么使用动作值函数q_π(s,a)就非常重要；人类训练者能够通过键盘按键或者面部表情提供奖励反馈调整智能体的行为。

下面结合实施例对本发明的技术方案作进一步的描述。

本发明在TAMER框架的基础上引入面部表情识别反馈，TAMER框架是一种典型的智能体从人类奖励中学习的方法。假设TAMER智能体在通过键盘反馈学习到一个初始策略后通过面部表情反馈进行调整需要的明确反馈数量比智能体单独从键盘反馈中学习需要的反馈数量少，在Grid World任务领域内测试了算法并且与通过TAMER框架在人类奖励上使用不同的折扣因子进行智能体学习进行了比较，结果表明虽然直接通过面部表情反馈训练智能体不能快速获得一个有效的策略，但它可以实时抓取人类用户的面部特征，在不改变模型的情况下按照用户喜好在线调整智能体的策略。实验结果还表明，从人类用户的面部表情反馈中进行学习，可以减少需要的明确反馈数量。图4是结合TAMER 框架和面部表情反馈的智能体交互强化学习示意框图。

A.TAMER框架

TAMER框架是为马尔可夫决策过程的一个变种而构建的，这是一个顺序决策的模型，通过动态编程和强化学习来解决。在TAMER框架中，一个智能体在MDP中学习，没有明确定义的奖励函数，而是学习一个奖励函数，用MDP\R 表示。

TAMER智能体从人类训练者对其行为的实时评估中学习，智能体将此评估解释为人类奖励，创建一个预测模型，并选择它所预测的将会获得最多人类奖励的行为。它努力使行为引起的即时回报最大化，这与传统的强化学习形成了鲜明的对比，在传统的强化学习中，智能体寻求最大的未来奖励。有两个原因可以解释为什么一个智能体可以从短期的奖励中学习执行任务:首先，人类的奖励可以以小的延迟来传递，这个延迟是训练者评估智能体的行为并传递它的反馈的时间。其次，由人类培训者提供的评估，对行为本身进行了判断，并将其长期后果的模型考虑在内。

一个TAMER智能体学习一个函数

近似于在当前状态和行动下预期的人类奖励，

给定一个状态s，智能体短期的选择了最大的预期回报，

训练者可以观察和评估智能体的行为并给予奖励。

在TAMER中，反馈是通过键盘输入给出的，并被归因于智能体最近的行动。每一个反馈按钮的按下都被标记为一个标量奖励信号(-1或+1)，这个信号也可以通过多次按下按钮来加强，样本的标签作为延迟加权的总回报，是根据针对特定time step的人类奖励信号的概率来计算的。TAMER学习算法不断重复采取行动，感知奖励，并更新这一过程。

直到最近，目光短浅一直是所有涉及从人类评估反馈中学习的算法的一个特征，并得到了实证支持。然而，最近有人提出了一种名为VI-TAMER的TAMER 变体，它可以帮助智能体从非短期的人类奖励中学习。在VI-TAMER中，智能体从折扣的人类奖励中学习，产生了一个规划算法——值迭代，一个VI-TAMER 智能体学习并把它的值函数应用到最近从TAMER改变的奖励函数中，并使用值函数来选择下一步行动。在强化学习(RL)中，折扣因子γ(0≤γ≤1)决定智能体可以展望多远的未来，由于初始TAMER的折扣因子γ是0(短期的)，它能被视为VI-TAMER的特殊情况。因此，在本文中，从现在开始把TAMER作为智能体从人类奖励中学习的一般方法，并把γ_TAMER作为人类奖励的折扣因子。

B.实验验证：

为了证明所提出的方法的潜在有效性，在具有离散状态和动作空间的Grid World任务领域进行了实验。

a.Grid World任务

Grid World任务包含30个状态，在每个状态下，智能体的运动可以从动作空间的四个动作中进行选择：向上、向下、向左或向右移动。智能体不能穿过墙壁，试图穿过墙壁的动作不会改变智能体当前的状态。任务性能指标是从初始位置出发到达目标位置所需要的time step即动作的数量。如图3截图中间所示深灰色小方块为智能体，叉号指示智能体下一步的运动方向。在本次任务中，智能体尝试学习一种策略，使它可以达到目标状态，并且尽可能减少time step 的数量。从开始状态出发到达目标状态的最优策略需要20timestep。智能体当前所处的位置为智能体的起始状态，目标状态是右上角椭圆方块所在的位置，在图3截图中，黑色线条和浅灰色方块均表示围墙，该区域智能体不能直接穿过。

b.实验设置

在实验中，为了观察从人类用户面部表情反馈中学习的智能体是否能减少它需要的明确反馈的数量，计划将通过TAMER框架的智能体学习与通过有不同折扣因子γ_TAMER的Face Valuing-TAMER框架的智能体学习进行比较。在Face Valuing-TAMER中，TAMER模块和TAMER框架是相同的。当说γ_TAMER时，它适用于两者。因此，TAMER和Face Valuing-TAMER之间的唯一区别是是否引入人类用户面部表情反馈。采用高斯径向基函数的线性模型作为对TAMER人类奖励模型R_H的表示。TAMER的值函数也是通过高斯径向基函数近似的线性函数。

一个径向基函数以Grid World的每个方块单元为中心有效地创建了一个伪表格，可以在附近的单元之间稍微泛化。每一个径向基函数宽度σ²＝0.05，1是最邻近的径向基函数中心的距离，并且线性模型有一个额外的恒定值0.1为偏压特性。对所有折扣因子的FaceValuing-TAMER和TAMER智能体进行训练，每个智能体用不同的折扣因子各训练20次。对于任何一种方法的每次实验，都将智能体训练到能够获得最优策略。使用Face Valuing-TAMER时，首先通过键盘提供反馈训练智能体获得一个初始策略，然后通过用户的面部表情反馈来调整智能体获得的策略。预计基于20次实验中收集的平均数据进行分析，测试所提方法的性能。

C.实验结果：

计划采用不同的人类奖励折扣因子γ_TAMER＝0,0.2,0.5,0.8,1，需要注意的是在Face Valuing-TAMER的TAMER模块和TAMER框架中，γ_TAMER的值是一样的。

a.反馈的数量

假设用Face Valuing-TAMER训练智能体比用TAMER框架训练智能体需要的反馈尤其是明确反馈少。为了测量给出的反馈量，可以计算接收反馈的time step数，来比较FaceValuing-TAMER和TAMER在不同的折扣因子下，智能体分别接收总反馈、正反馈和负反馈的time step数。期待Face Valuing-TAMER智能体收到的反馈比TAMER智能体少得多，这样的结果表明，人类以面部表情反馈的方式为智能体提供评估反馈可以减少训练智能体需要的反馈数量，有效减少了人类训练智能体行为的认知负担。通过研究结果可以表明，与从TAMER 框架中学习相比，通过面部表情反馈能减少训练智能体获得最佳策略所需的明确反馈的数量。

b.性能

由于任务性能指标是基于在Grid World域中实现目标所需的time step数，可以采用训练智能体获得最优策略所需总time step的数量作为实验中的性能度量。实验对比在人类奖励上使用不同的折扣因子训练Face Valuing-TAMER和 TAMER智能体获得最佳策略所需的总time step数。期待训练一个Face Valuing-TAMER智能体所需的总time step比TAMER智能体要少得多。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种结合TAMER框架和面部表情反馈的交互强化学习方法，其特征在于，所述结合TAMER框架和面部表情反馈的交互强化学习方法结合TAMER框架和面部表情评估形成FaceValuing-TAMER；TAMER通过从人类反馈中学习值函数来预期未来奖励；训练者首先在TAMER框架下训练智能体，通过键盘按键反馈提供奖励信号，训练智能体获得一个初始的可执行策略，然后允许训练者通过面部表情反馈提供奖励调整智能体的行为。

2.如权利要求1所述的结合TAMER框架和面部表情反馈的交互强化学习方法，其特征在于，所述结合TAMER框架和面部表情反馈的交互强化学习方法包括以下步骤：

步骤三，更新奖励函数及值函数；

步骤四，更新智能体的行为策略；

3.如权利要求2所述的结合TAMER框架和面部表情反馈的交互强化学习方法，其特征在于，所述智能体从人类反馈中进行学习的算法包括：

TAMER通过从人类反馈中学习的预测奖励模型学习值函数：

其中，R_t+1表示在状态S_t采取动作A_t后收到的奖励；G_t是在时间实例t上的预期回报，被定义为在时间t之后的奖励的折扣总和；v_π(s)是对应于每一个策略π的状态值函数，通过遵循策略π将每个状态s∈S映射到该状态的预期奖励G_t；q_π(s,a)是对应于每一个策略π的动作值函数，通过遵循策略π，在状态s下执行动作a来提供预期的回报G_t；

4.如权利要求1所述的结合TAMER框架和面部表情反馈的交互强化学习方法，其特征在于，所述结合TAMER框架和面部表情反馈的交互强化学习方法的一个TAMER智能体学习一个函数

近似于在当前状态和行动下预期的人类奖励，

给定一个状态s，智能体短期的选择了最大的预期回报，

训练者观察和评估智能体的行为并给予奖励；

在TAMER中，每一个反馈按钮的按下都被标记为一个标量奖励信号-1或+1，通过多次按下按钮加强，样本的标签作为延迟加权的总回报，根据针对特定time step的人类奖励信号的概率计算的，TAMER学习算法不断重复采取行动，感知奖励，并更新

过程；

5.一种应用权利要求1～4任意一项所述合TAMER框架和面部表情反馈的交互强化学习方法的信息数据处理终端。