WO2021068638A1

WO2021068638A1 - 结合tamer框架和面部表情反馈的交互强化学习方法

Info

Publication number: WO2021068638A1
Application number: PCT/CN2020/108156
Authority: WO
Inventors: 李光亮; 林金莹; 张期磊; 何波; 冯晨
Original assignee: 中国海洋大学
Priority date: 2019-10-12
Filing date: 2020-08-10
Publication date: 2021-04-15
Also published as: LU500028B1; CN110826723A

Abstract

一种结合TAMER框架和面部表情反馈的交互强化学习方法，所述方法包括：结合TAMER框架和面部表情评估形成Face Valuing-TAMER智能体；所述Face Valuing-TAMER智能体通过从人类反馈中学习值函数来预期未来奖励。人类训练者首先在TAMER框架下训练智能体，通过键盘按键反馈提供奖励信号，训练智能体获得一个初始的可执行策略，然后允许人类训练者通过面部表情反馈提供奖励调整智能体的行为。通过基于面部表情反馈的交互强化学习方法可以减少人类用户训练智能体过程中的认知负担，使智能体更好的理解人类偏好，能够有效的从人类奖励中进行学习。

Description

结合TAMER框架和面部表情反馈的交互强化学习方法

本申请要求于2019年10月12日提交中国专利局、申请号为201910967991.3、发明名称为“一种结合TAMER框架和面部表情反馈的交互强化学习方法”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及人工智能技术领域，特别是涉及一种结合TAMER框架和面部表情反馈的交互强化学习方法。

背景技术

目前，最接近的现有技术：

研究以人为中心的强化学习方法近年来受到广泛关注，通过人类反馈进行强化学习已经被证明是一种非常有效的方法，它允许非技术人员指导TAMER智能体执行任务，TAMER智能体从人类反馈中学习的优势使这一方法在现实生活中的应用越来越广泛。TAMER智能体从人类反馈中学习时，需要一个不断的试错过程：当TAMER智能体执行一个正确的动作时，人类用户可以通过提供一个积极的反馈来鼓励它，当TAMER智能体执行一个不正确的动作时，需要提供一个消极反馈对它进行惩罚，告诉TAMER智能体尝试其他动作，这可能会带来一定的风险，因为TAMER智能体可能会执行更糟糕的动作。人类用户便需要提供更多反馈引导TAMER智能体修正已经学到的模型并重新学习正确的行为策略，这将增加TAMER智能体的学习成本并给人类带来更多负担。

交互强化学习的一个重要应用是扩展或增强人类的认知和身体能力。TAMER是一种典型的交互强化学习方法，在TAMER中，系统能够学习人类用户奖励的预测模型，这一模型甚至能在人类奖励延迟或者不一致的情况下成功地训练TAMER智能体。通过交互学习，TAMER智能体可以理解人类用户的意图并适应他们的偏好。在当前的大多数研究中，人类用户的偏好是通过明确的指示或者昂贵的纠正反馈传达的，比如通过预定义的单词或句子、按钮、鼠标单点等形式，然而在实际应用中，这些反馈方法会增加人类用户的认知负荷。

因此，亟需一种基于面部表情反馈的交互强化学习方法，允许训练者在不需要大量昂贵的交互行为的情况下提供反馈，并且不需要重新训练TAMER智能体就可以转移到新的或者变化着的场景中。

综上所述，现有技术存在的问题是：通过预定义的键盘反馈等明确反馈形式调整TAMER智能体的行为会增加人类用户的认知负担，策略更新需要大量的交互行为，增加了学习成本。

解决上述技术问题的难度：

1、如何向TAMER框架中引入面部表情识别处理，用面部表情取代键盘等明确反馈接口；

2、如何将人类复杂的面部表情与奖励信号有效结合，为TAMER智能体学习提供有效反馈。

解决上述技术问题的意义：

1、直接意义是减少TAMER智能体训练过程中需要的明确反馈的数量，降低人类用户的认知负担；

2、建立起人类用户与TAMER智能体直接沟通的渠道，人类用户不需要提前进行技能培训便可获得能快速适应自己偏好的TAMER智能体；

3、尤其是对肢体障碍的残障人士，他们不方便与TAMER智能体进行肢体交互，面部表情反馈的引入为他们提供了便利。

发明内容

本发明的目的是提供一种结合TAMER框架和面部表情反馈的交互强化学习方法，结合明确反馈和面部表情反馈在TAMER框架上进行学习。

为达到上述目的，本发明的技术方案为：一种结合TAMER框架和面部表情反馈的交互强化学习方法，包括：

结合TAMER框架和面部表情评估形成Face Valuing-TAMER智能体；所述Face Valuing-TAMER智能体通过从人类反馈中学习值函数预期未来奖励；

所述结合TAMER框架和面部表情评估形成Face Valuing-TAMER智能体具体为：训练者在所述TAMER框架下训练TAMER智能体，通过键盘按键反馈，确定键盘奖励信号，并训练TAMER智能体获得一个初始的可执行策略；

基于所述初始的可执行策略使得所述训练者通过面部表情反馈，确定所述面部奖励信号以调整所述TAMER智能体的行为策略。

可选的，所述训练者在所述TAMER框架下训练TAMER智能体，通过键盘按键反馈，确定键盘奖励信号，并训练所述TAMER智能体获得一个初始的可执行策略，具体包括：

所述训练者观察所述TAMER智能体的当前动作，并通过键盘接口反馈，获取键盘反馈信号，并根据所述键盘反馈信号确定键盘奖励信号；

根据所述键盘反馈信号以及所述键盘奖励信号确定初始的可执行策略。

可选的，所述基于所述初始的可执行策略使得所述训练者通过面部表情反馈，确定所述面部奖励信号以调整所述TAMER智能体的行为策略，具体包括：

根据所述键盘奖励信号更新所述值函数，确定更新后的值函数；所述更新后的值函数包括状态值函数以及动作值函数；

根据所述奖励函数更新所述TAMER智能体的行为策略；

基于所述初始的可执行策略，所述训练者通过面部表情反馈，获取面部反馈信号，并根据所述面部反馈信号确定面部奖励信号；

根据所述面部奖励信号调整所述TAMER智能体的行为策略。

可选的，所述更新后的值函数为：

v _π(s)＝Ε{G _t|S _t＝s,π}

q _π(s,a)＝Ε{G _t|S _t＝s,A _t＝a,π}

其中，G _t为任一时间t时的预期回报,即为任一时间t时的奖励折扣总和；i为第t+i步长与第t步长之间的步长差值，γ为折扣因子,γ ^i-1为对第t+i步长获得奖励的折扣因数；R _t+i在TAMER智能体在t+i时刻在状态s下执行动作a获得的奖励；v _π(s)是对应于每一个行为策略π的状态值函数，通过遵循行为策略π将每个状态s映射到所述状态s的预期回报G _t，s∈S _t；q _π(s,a)是对应于每一个行为策略π的动作值函数，通过遵循行为策略π，在状态s下执行动作a来提供预期回报，a∈A _t；E为对获得的预期回报求取期望值。

可选的，所述Face Valuing-TAMER智能体通过从人类反馈中学习值函数预期未来奖励，具体包括：

一个TAMER智能体学习一个奖励模型

的行为定义为在当前状态和行动下预期的人类奖励：

为智能体在任一状态S _t下采取动作A _t后收到的奖励信号；

给定一个状态s，TAMER智能体选择最大预期回报：

基于所述最大预期回报，训练者观察和评估TAMER智能体的行为并给予奖励。

一种应用于所述结合TAMER框架和面部表情反馈的交互强化学习方法的信息数据处理终端。

本发明与现有技术相比的优点在于：本发明在TAMER框架中引入人类用户的面部表情反馈，人类用户可以通过键盘或其他交互接口提供反馈训练TAMER智能体。智能体学习到一个初始策略后，人类用户通过面部表情反馈对智能体的行为进行调整，这一过程将减少人类用户的认知负担，将人类用户从繁重反馈任务中解放出来，这一方法是对现有交互机器学习方法的补充，有助于进一步提高智能体与人类用户的交互效率。

本发明结合TAMER框架和面部表情反馈的交互强化学习方法可以减少人类用户训练智能体过程中的认知负担，使智能体更好的理解人类偏好，能够有效的从人类奖励中进行学习。图5显示训练过程中每一个Episode通过键盘反馈训练与引入面部表情反馈训练的所需时间步长数，柱状图显示每一个Episode的平均值和标准差,表格显示的是平均值；图6反映训练过程中每一个Episode通过键盘反馈训练与引入面部表情反馈训练的所需反馈数量，柱状图显示每一个Episode的平均值和标准差，表格显示的是平均值，从实验结果图5和图6分析中看出，引入面部表情反馈虽然没有减少需要的明确反馈数量(由于当前面部表情识别准确度较低只有60％多)，但仍然可以获得一个和从键盘反馈学习一样的最优策略，降低了训练成本。进一步提高表情识别精度可以有效减少获得最优策略所需的明确反馈数量。

说明书附图

下面结合附图对本发明作进一步说明：

图1本发明实施例提供的结合TAMER框架和面部表情反馈的交互强化学习方法流程图；

图2是本发明实施例提供的结合TAMER框架和面部表情反馈的交互强化学习方法实现流程图；

图3是本发明实施例提供的训练接口界面及Grid World环境任务示例截图；

图4是本发明实施例提供的结合TAMER框架和面部表情反馈的智能体交互强化学习示意框图；

图5是本发明实施例提供的通过键盘反馈训练与引入面部表情反馈训练的所需时间步长对照图；

图6是本发明实施例提供的通过键盘反馈训练与引入面部表情反馈训练的需要的反馈数量对照图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种结合TAMER框架和面部表情反馈的交互强化学习方法，下面结合附图对本发明作详细的描述。

如图1和图2所示，本发明实施例提供的结合TAMER框架和面部表情反馈的交互强化学习方法包括以下步骤：

S101：Face Valuing-TAMER允许人类训练者首先在TAMER框架下训练智能体；智能体根据当前状态选择动作。

S102：人类训练者观察并通过键盘按键等接口提供明确反馈作为奖励信号。

S103：更新奖励函数及值函数。

S104：更新智能体的行为策略。

S105：智能体通过键盘反馈学习获得一个初始的可执行策略。

S106：人类训练者通过表情反馈提供奖励调整智能体的行为，对策略进行调整检测是否达到满意状态；若满意则结束，若不满意则重新通过表情反馈对策略进行调整。

进一步，所述智能体从人类反馈中进行学习的算法包括：

TAMER通过从人类反馈中学习的预测奖励模型学习值函数：

v _π(s)＝Ε{G _t|S _t＝s,π}

q _π(s,a)＝Ε{G _t|S _t＝s,A _t＝a,π}

其中，R _t+i在TAMER智能体在t+i时刻在状态s下执行动作a获得的奖励；G _t是在时间t时的预期回报，被定义为在时间t之后的奖励的折扣总和；v _π(s)是对应于每一个策略π的状态值函数，它通过遵循策略π将每个状态s∈S映射到该状态的预期回报G _t；

q _π(s,a)是对应于每一个策略π的动作值函数，它通过遵循策略π，在状态s下执行动作a来提供预期的回报G _t。

当给定任务需要预测时，状态值函数非常重要，相反，如果给定的任务需要控制，那么使用动作值函数q _π(s,a)就非常重要；人类训练者能够通过键盘按键或者面部表情提供奖励反馈调整智能体的行为。

下面结合实施例对本发明的技术方案作进一步的描述。

本发明在TAMER框架的基础上引入面部表情识别反馈，TAMER框架是一种典型的智能体从人类奖励中学习的方法。假设TAMER智能体在通过键盘反馈学习到一个初始策略后通过面部表情反馈进行调整需要的明确反馈数量比智能体单独从键盘反馈中学习需要的反馈数量少，在Grid World任务领域内测试了算法并且与通过TAMER框架在人类奖励上使用不同的折扣因子进行智能体学习进行了比较，结果表明虽然直接通过面部表情反馈训练智能体不能快速获得一个有效的策略，但它可以实时抓取人类用户的面部特征，在不改变模型的情况下按照用户喜好在线调整智能体的策略。实验结果还表明，从人类用户的面部表情反馈中进行学习，没有减少需要的明确反馈数量(由于当前面部表情识别准确度较低只有60％多)，但仍然可以获得一个和从键盘反馈学习一样的最优策略。图4是结合TAMER框架和面部表情反馈的智能体交互强化学习示意框图。

A.TAMER框架

TAMER框架是为马尔可夫决策过程的一个变种而构建的，这是一个顺序决策的模型，通过动态编程和强化学习来解决。在TAMER框架中，一个智能体在MDP中学习，没有明确定义的奖励函数，而是学习一个奖励模型，用MDP\R表示。

TAMER智能体从人类训练者对其行为的实时评估中学习，智能体将此评估解释为人类奖励，创建一个预测模型，并选择它所预测的将会获得最多人类奖励的行为。它努力使行为引起的即时回报最大化，这与传统的强化学习形成了鲜明的对比，在传统的强化学习中，智能体寻求最大的未来奖励。有两个原因可以解释为什么一个智能体可以从短期的奖励中学习执行任务:首先，人类的奖励可以以小的延迟来传递，这个延迟是训练者评估智能体的行为并传递它的反馈的时间。其次，由人类培训者提供的评估，对行为本身进行了判断，并将其长期后果的模型考虑在内。

一个TAMER智能体学习一个奖励模型

近似于在当前状态和行动下预期的人类奖励，

给定一个状态s，智能体短期的选择了最大的预期回报，

训练者可以观察和评估智能体的行为并给予奖励。

在TAMER中，反馈是通过键盘输入给出的，并被归因于智能体最近的行动。每一个反馈按钮的按下都被标记为一个标量奖励信号(-1或+1)，这个信号也可以通过多次按下按钮来加强，样本的标签作为延迟加权的总回报，是根据针对特定time step的人类奖励信号的概率来计算的。TAMER学习算法不断重复采取行动，感知奖励，并更新

这一过程。

直到最近，目光短浅一直是所有涉及从人类评估反馈中学习的算法的一个特征，并得到了实证支持。然而，最近有人提出了一种名为VI-TAMER的TAMER变体，它可以帮助智能体从非短期的人类奖励中学习。在VI-TAMER中，智能体从折扣的人类奖励中学习，产生了一个规划算法——值迭代，一个VI-TAMER智能体学习并把它的值函数应用到最近从TAMER改变的奖励函数

中，并使用值函数来选择下一步行动。在强化学习(RL)中，折扣因子γ(0≤γ≤1)决定智能体可以展望多远的未来，由于初始TAMER的折扣因子γ是0(短期的)，它能被视为VI-TAMER的特殊情况。因此，在本发明中，从现在开始把TAMER作为智能体从人类奖励中学习的一般方法，并把γ _TAMER作为人类奖励的折扣因子。

B.实验验证：

为了证明所提出的方法的潜在有效性，在具有离散状态和动作空间的Grid World任务领域进行了实验。

a.Grid World任务

Grid World任务包含30个状态，在每个状态下，智能体的运动可以从动作空间的四个动作中进行选择：向上、向下、向左或向右移动。智能体不能穿过墙壁，试图穿过墙壁的动作不会改变智能体当前的状态。任务性能指标是从初始位置出发到达目标位置所需要的time step即动作的数量。如图3截图中间所示深灰色小方块为智能体，叉号指示智能体下一步的运动方向。在本次任务中，智能体尝试学习一种策略，使它可以达到目标状态，并且尽可能减少time step的数量。从开始状态出发到达目标状态的最优策略需要20time step。智能体当前所处的位置为智能体的起始状态，目标状态是右上角椭圆方块所在的位置，在图3截图中，黑色线条和浅灰色方块均表示围墙，该区域智能体不能直接穿过。

b.实验设置

在实验中，为了观察从人类用户面部表情反馈中学习的智能体是否能减少它需要的明确反馈的数量，计划将通过TAMER框架的智能体学习与通过有不同折扣因子γ _TAMER的Face Valuing-TAMER框架的智能体学习进行比较。在Face Valuing-TAMER中，TAMER模块和TAMER框架是相同的。当说γ _TAMER时，它适用于两者。因此，TAMER和Face Valuing-TAMER 之间的唯一区别是是否引入人类用户面部表情反馈。采用高斯径向基函数的线性模型作为对TAMER人类奖励模型R _H的表示。TAMER的值函数也是通过高斯径向基函数近似的线性函数。

一个径向基函数以Grid World的每个方块单元为中心有效地创建了一个伪表格，可以在附近的单元之间稍微泛化。每一个径向基函数宽度σ ²＝0.05，1是最邻近的径向基函数中心的距离，并且线性模型有一个额外的恒定值0.1为偏压特性。对所有折扣因子的Face Valuing-TAMER和TAMER智能体进行训练，每个智能体用不同的折扣因子各训练20次。对于任何一种方法的每次实验，都将智能体训练到能够获得最优策略。使用Face Valuing-TAMER时，首先通过键盘提供反馈训练智能体获得一个初始策略，然后通过用户的面部表情反馈来调整智能体获得的策略。预计基于20次实验中收集的平均数据进行分析，测试所提方法的性能。

C.实验结果：

计划采用不同的人类奖励折扣因子γ _TAMER＝0,0.2,0.5,0.8,1，需要注意的是在Face Valuing-TAMER的TAMER模块和TAMER框架中，γ _TAMER的值是一样的。

a.反馈的数量

假设用Face Valuing-TAMER训练智能体比用TAMER框架训练智能体需要的反馈尤其是明确反馈少。为了测量给出的反馈量，可以计算接收反馈的time step数，来比较Face Valuing-TAMER和TAMER在不同的折扣因子下，智能体分别接收总反馈、正反馈和负反馈的time step数。期待Face Valuing-TAMER智能体收到的反馈比TAMER智能体少得多，这样的结果表明，人类以面部表情反馈的方式为智能体提供评估反馈可以减少训练智能体需要的反馈数量，有效减少了人类训练智能体行为的认知负担。通过研究结果可以表明，与从TAMER框架中学习相比，通过面部表情反馈虽然不能有效减少需要的明确反馈数量(由于当前面部表情识别准确度较低只有60％多),但仍然可以获得一个和从键盘反馈学习一样的最优策略。进一步提高表情识别精度可以有效减少获得最优策略所需的明确反馈数量。

b.性能

由于任务性能指标是基于在Grid World域中实现目标所需的time step数，可以采用训练智能体获得最优策略所需总time step的数量作为实验中的性能度量。实验对比在人类奖励上使用不同的折扣因子训练Face Valuing-TAMER和TAMER智能体获得最佳策略所需的总time step数。期待训练一个Face Valuing-TAMER智能体所需的总time step比TAMER智能体要少得多。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

一种结合TAMER框架和面部表情反馈的交互强化学习方法，其特征在于，包括：

结合TAMER框架和面部表情评估形成Face Valuing-TAMER智能体；所述Face Valuing-TAMER智能体通过从人类反馈中学习值函数预期未来奖励；

所述结合TAMER框架和面部表情评估形成FaceValuing-TAMER智能体具体为：训练者在所述TAMER框架下训练TAMER智能体，通过键盘按键反馈，确定键盘奖励信号，并训练TAMER智能体获得一个初始的可执行策略；

基于所述初始的可执行策略使得所述训练者通过面部表情反馈，确定所述面部奖励信号以调整所述TAMER智能体的行为策略。
如权利要求1所述的结合TAMER框架和面部表情反馈的交互强化学习方法，其特征在于，所述训练者在所述TAMER框架下训练TAMER智能体，通过键盘按键反馈，确定键盘奖励信号，并训练所述TAMER智能体获得一个初始的可执行策略，具体包括：

所述训练者观察所述TAMER智能体的当前动作，并通过键盘接口反馈，获取键盘反馈信号，并根据所述键盘反馈信号确定键盘奖励信号；

根据所述键盘反馈信号以及所述键盘奖励信号确定初始的可执行策略。
如权利要求2所述的结合TAMER框架和面部表情反馈的交互强化学习方法，其特征在于，所述基于所述初始的可执行策略使得所述训练者通过面部表情反馈，确定所述面部奖励信号以调整所述TAMER智能体的行为策略，具体包括：

根据所述键盘奖励信号更新所述值函数，确定更新后的值函数；所述更新后的值函数包括状态值函数以及动作值函数；

根据所述奖励函数更新所述TAMER智能体的行为策略；

基于所述初始的可执行策略，所述训练者通过面部表情反馈，获取面部反馈信号，并根据所述面部反馈信号确定面部奖励信号；

根据所述面部奖励信号调整所述TAMER智能体的行为策略。
如权利要求3所述的结合TAMER框架和面部表情反馈的交互强化学习方法，其特征在于，所述更新后的值函数为：

v _π(s)＝Ε{G _t|S _t＝s,π}

q _π(s,a)＝Ε{G _t|S _t＝s,A _t＝a,π}

其中，G _t为任一时间t时的预期回报，即为任一时间t时的奖励折扣总和；i为第t+i步长与第t步长之间的步长差值，γ为折扣因子，γ ^i-1为对第t+i步长获得奖励的折扣因数；R _t+i在TAMER智能体在t+i时刻在状态s下执行动作a获得的奖励；v _π(s)是对应于每一个行为策略π的状态值函数，通过遵循行为策略π将每个状态s映射到所述状态s的预期回报G _t，s∈S _t；q _π(s,a)是对应于每一个行为策略π的动作值函数，通过遵循行为策略π，在状态s下执行动作a来提供预期回报，a∈A _t；E为对获得的预期回报求取期望值。
如权利要求4所述的结合TAMER框架和面部表情反馈的交互强化学习方法，其特征在于，所述Face Valuing-TAMER智能体通过从人类反馈中学习值函数预期未来奖励，具体包括：

一个TAMER智能体学习一个奖励模型
的行为定义为在当前状态和行动下预期的人类奖励：
为智能体在任一状态S _t下采取动作A _t后收到的奖励信号；

给定一个状态s，TAMER智能体选择最大预期回报：

基于所述最大预期回报，训练者观察和评估TAMER智能体的行为并给予奖励。
一种应用于权利要求1～5任意一项所述的结合TAMER框架和面部表情反馈的交互强化学习方法的信息数据处理终端。