WO2021068638A1

WO2021068638A1 - Procédé d'apprentissage interactif intensif qui combine une structure tamer et une rétroaction d'expression faciale

Info

Publication number: WO2021068638A1
Application number: PCT/CN2020/108156
Authority: WO
Inventors: 李光亮; 林金莹; 张期磊; 何波; 冯晨
Original assignee: 中国海洋大学
Priority date: 2019-10-12
Filing date: 2020-08-10
Publication date: 2021-04-15
Also published as: LU500028B1; CN110826723A

Abstract

L'invention concerne un procédé d'apprentissage interactif intensif qui combine une structure de formation d'un agent manuellement par l'intermédiaire du renforcement évaluatif (TAMER) et une rétroaction d'expression faciale, consistant : à former un agent TAMER-évaluation faciale par combinaison d'une structure TAMER et d'une évaluation d'expression faciale ; et à attendre, par l'agent TAMER-évaluation faciale, une récompense future à partir d'une fonction de valeur d'apprentissage dans la rétroaction humaine. Un formateur humain forme d'abord un agent dans une structure TAMER et fournit un signal de récompense au moyen d'une rétroaction de touche de clavier, et l'agent formé acquiert une stratégie exécutable initiale et permet ensuite au formateur humain de fournir une récompense au moyen d'une rétroaction d'expression faciale de façon à ajuster le comportement de l'agent. La charge cognitive au cours d'un processus dans lequel un utilisateur humain forme un agent peut être réduit au moyen du procédé d'apprentissage interactif intensif basé sur une rétroaction d'expression faciale, de sorte que l'agent peut mieux comprendre les préférences humaines et apprendre efficacement à partir de récompenses humaines.