CN116512256A - 基于联合学习的机器人最优人机交互阻抗控制方法、存储介质及机器人 - Google Patents
基于联合学习的机器人最优人机交互阻抗控制方法、存储介质及机器人 Download PDFInfo
- Publication number
- CN116512256A CN116512256A CN202310459253.4A CN202310459253A CN116512256A CN 116512256 A CN116512256 A CN 116512256A CN 202310459253 A CN202310459253 A CN 202310459253A CN 116512256 A CN116512256 A CN 116512256A
- Authority
- CN
- China
- Prior art keywords
- robot
- matrix
- impedance
- task space
- joint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 108
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000003860 storage Methods 0.000 title claims abstract description 12
- 238000013528 artificial neural network Methods 0.000 claims abstract description 59
- 230000003416 augmentation Effects 0.000 claims abstract description 39
- 230000006870 function Effects 0.000 claims abstract description 23
- 230000003044 adaptive effect Effects 0.000 claims abstract description 22
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 21
- 238000011156 evaluation Methods 0.000 claims abstract description 16
- 230000002787 reinforcement Effects 0.000 claims abstract description 13
- 238000005728 strengthening Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 81
- 230000001133 acceleration Effects 0.000 claims description 22
- 238000006073 displacement reaction Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000013016 damping Methods 0.000 claims description 7
- 238000013461 design Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 230000005484 gravity Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 230000003190 augmentative effect Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 7
- 238000005312 nonlinear dynamic Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000009776 industrial production Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 238000005299 abrasion Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005498 polishing Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
- B25J9/161—Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1664—Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Automation & Control Theory (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于联合学习的机器人最优人机交互阻抗控制方法、存储介质及机器人,方法包括如下步骤:构建任务空间参考回归轨迹、人机交互二阶阻抗模型与任务空间辅助轨迹,建立人机交互任务空间增广系统与对应的评价指标函数;基于积分强化算法在线更新人机交互二阶阻抗模型参数,直至得到最优参数;针对二阶阻抗模型,构建自适应神经网络阻抗控制器;基于确定学习理论获取经验知识,构建常值神经网络阻抗控制器。本方法有效解决了机器人在未知动力学信息与未知人类运动特性条件下人机交互的精确阻抗控制,运用强化学习机制实现在不同任务场景与不同交互对象条件下人机交互参数的在线最优调整。
Description
技术领域
本发明涉及机器人的人机交互控制的技术领域,具体涉及一种基于联合学习的机器人最优人机交互阻抗控制方法、存储介质及机器人。
背景技术
随着近年来我国科学技术水平的提高与工业生产制造能力的快速发展,机器人的控制技术也不断提高。机器人除了被用于传统的抛光、打磨、装配等工业生产任务外,也逐步被用于康复医疗、人机协作等领域,如康复机器人、手术机器人、助力外骨骼等。人机交互系统既发挥了人类的智能、自主等优点,也充分运用了机器人的重复性高、精度高、定量化评估准确、适用于极端工作环境等优势。在人机交互控制领域中,柔顺交互控制方法的设计尤为关键。阻抗控制是机器人柔顺控制的常用控制方法,不同于传统的力位控制,阻抗控制通过设计机器人控制力矩直接控制人机交互过程,能实现更好的柔顺交互效果。为了达到更高水平的人机交互质量,往往需要根据不同任务需求与不同操作人员的独特运动特性对交互过程中的阻抗参数进行合理设计,而传统的阻抗控制技术难以实现阻抗参数的最优选取。此外,高精度的机器人阻抗控制往往需要精确的动力学模型,但由于机器人自身的非线性因素、零部件磨损以及工作环境参数变化,如温度、湿度等因素变化的影响,对机器人进行精确建模十分困难。现有研究通常采用神经网络对机器人系统中存在的非线性未知动态进行精确逼近,但在每次执行任务时,都需要重新调整神经网络权值来实现辨识。这不仅降低了控制方案的实时性,也极大地耗费算力。因此,结合强化学习与确定学习理论,设计具有根据不同任务场景与不同交互对象条件下人机交互参数的在线最优调整,同时针对相似人机交互任务能复用历史经验知识以节省计算资源、缩短调节时间的高性能人机交互阻抗控制方法具有重要意义。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于联合学习的机器人最优人机交互阻抗控制方法、存储介质及机器人,本发明对人机交互柔顺控制问题,利用阻抗控制思想,结合李雅普诺夫稳定性理论提出了自适应神经网络阻抗控制器;针对不同人机交互任务场景与交互对象运动学特性未知的条件下人机柔顺交互参数的在线调整问题,本发明利用强化学习理论,实现可根据不同任务场景与不同运动特性的交互对象进行阻抗参数的在线最优选取;针对机器人模型中存在的未知非线性动态,本发明利用确定学习理论,实现对未知非线性动态模型的精确拟合,同时对学习收敛后的神经网络权值进行保存,针对相似人机交互任务能复用历史经验知识以节省计算资源、缩短调节时间。
为了达到上述目的,本发明采用以下技术方案:
第一方面,本发明提供了一种基于联合学习的机器人最优人机交互阻抗控制方法,包括下述步骤:
S1、基于机器人特性构建任务空间参考回归轨迹、人机交互二阶阻抗模型与任务空间辅助轨迹:
所述人机交互二阶阻抗模型如下:
其中,t为时间,Md(t)为t时刻二阶阻抗模型惯性矩阵,Bd(t)为t时刻二阶阻抗模型阻尼矩阵,Kd(t)为t时刻二阶阻抗模型刚度矩阵,Kf(t)为t时刻人机交互力增益,为机器人末端加速度,为机器人末端速度,ξ为机器人末端位置,为机器人任务空间参考加速度,为机器人任务空间参考速度,ξd为机器人任务空间参考位置,f为机器人与人类操作员的交互力,
所述任务空间辅助轨迹如下:
其中,ξr1为机器人任务空间辅助位置,ξr2为机器人任务空间辅助速度;
S2、建立人机交互任务空间增广系统与对应的评价指标函数,并基于积分强化算法在线更新二阶阻抗模型参数,直至得到最优参数,具体如下:
设计人机交互任务空间增广系统与对应的评价指标函数:
U=KX,
其中,为人机交互任务空间增广系统状态,为任务空间辅助速度,为任务空间辅助加速度,kf1、kf2、kf3为未知人机交互力特性参数,U为增广系统控制输入,K为增广系统控制增益矩阵、V为性能评价指标函数,t为时间,Kq为对称正定矩阵,通过设计Kq矩阵元素可实现对人机交互任务侧重点的调整,Kr为对称正定矩阵,τ为辅助时间变量;
S3、针对二阶阻抗模型,构建自适应神经网络阻抗控制器,基于确定学习理论,将训练收敛后的神经网络权值保存为常值神经网络权值具体如下:
定义阻抗误差为:
设计自适应神经网络阻抗控制器:
其中,e为辅助阻抗误差变量,由e收敛可得阻抗误差ε收敛,τf为机器人关节空间控制力矩映射到任务空间下的控制输入,为神经网络权值估计值的转置,为高斯径向基函数,θk为布点中心点,k=i,2,…,N,ρk为宽度,N为神经网络布点数,其中,q=[q1,q2,…,qn]T为机器人在关节空间的角位移,qi为第i个关节的角位移,i=1,2,…,n,n对应着机器人的关节数,为机器人在关节空间的角速度,为第i个关节的角速度,Ke是自适应神经网络控制器增益矩阵;
构造神经网络权值估计值的权值更新律为:
其中,Γ为权值更新律的增益项,σ为权值更新律的设计常数;
S4、利用常值神经网络权值构建常值神经网络阻抗控制器:
其中,Kf是最优人机交互力增益,Md是二阶阻抗模型惯性矩阵,Bd是最优二阶阻抗模型阻尼矩阵,Kd是最优二阶阻抗模型刚度矩阵。
作为优选的技术方案,所述机器人特性是由机器人模型确定的,所述机器人模型设定为n连杆刚性机械臂模型,具体包括:
机器人运动学模型为:
ξ=g(q),
其中,g(·)为机器人从关节空间角位移到任务空间坐标的映射,J为机器人系统的雅可比矩阵;
机器人关节空间动力学模型为:
其中,为机器人在关节空间的角加速度,Mq(q)为关节空间下机器人的惯性矩阵、为关节空间下机器人的向心力矩阵、Gq(q)为关节空间下机器人的重力矩阵,τq为关节控制力矩,为第i关节的角加速度,i=1,2,…,n。
作为优选的技术方案,在步骤S1中,所述任务空间参考回归轨迹为:
其中,为给定的连续光滑函数,ξd1=ξd为机器人任务空间参考加速度,为机器人任务空间参考速度。
作为优选的技术方案,步骤S2中,所述基于积分强化算法在线更新二阶阻抗模型参数,直至得到最优参数,具体为:
选用积分强化算法如下:
策略评估:
策略更新:
Ki+1=Kr -1BTPi
其中,X(t)表示任务空间增广系统状态X在时间为t时的值,Pi表示第i步迭代时该算法的解,T为采样时间,τ为辅助时间变量,定义Ki为第i步迭代时任务空间增广系统的控制增益矩阵,Ki+1为第i+1步迭代时任务空间增广系统的控制增益矩阵,B=[0In×n 0]T为任务空间增广系统矩阵;
通过最小二乘法对上述强化学习算法进行在线实时计算:
其中,为Pi元素向量的转置,表示X(t)的克罗内克积二次多项式基向量,为辅助变量,为辅助矩阵,为辅助矩阵,为辅助矩阵;
将使得增广系统稳定的初值K0代入算法,最小二乘法在线计算每一步解后得到Pi,将其代入策略更新公式得到控制增益Ki+1,当||Ki+1-Ki||<δ时,得到最优反馈增益K*,δ为设定的误差常数,通常取较小值;
在t时刻,任务空间增广系统控制增益K(t)为:
基于以上关系,通过选定合适的Md(t)矩阵,可得实时人机交互二阶阻抗模型参数Kd(t),Bd(t),Kf(t),当K(t)收敛至K*时,得到最优人机交互二阶阻抗模型参数Kd,Bd,Kf。
作为优选的技术方案,步骤S3中,所述常值神经网络权值具体为:
其中,t2>t1>T,T为收敛时间。
第二方面,本发明提供了一种机器人,所述机器人包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的基于联合学习的机器人最优人机交互阻抗控制方法。
第三方面,本发明提供了一种计算机可读存储介质,存储有程序,所述程序被处理器执行时,实现所述的基于联合学习的机器人最优人机交互阻抗控制方法。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明结合强化学习思想,实现不同人机交互任务场景与交互对象运动学特性未知的条件下人机柔顺交互参数的在线最优选取,使得人机交互控制系统更具有通用性;
2、本发明在人机交互过程中实现了对机器人模型中未知非线性动态的精确辨识,同时针对相似人机交互任务能复用历史经验知识以节省计算资源、缩短调节时间,使机器人控制更具有实时性;
3、本发明在阻抗控制的思想上结合强化学习、确定学习理论,实现了期望阻抗模型特性,提高了人机交互柔顺控制性能,提高了人机交互体验。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种基于联合学习的机器人最优人机交互阻抗控制方法流程图。
图2为本发明实施例双连杆机器人示意图。
图3为本实施例任务空间增广系统控制增益矩阵范数收敛图。
图4为本发明实施例自适应控制阶段机器人系统人机交互辅助阻抗误差曲线图。
图5为本发明实施例自适应控制阶段机器人系统神经网络权值范数收敛曲线图。
图6为本发明实施例自适应控制阶段机器人系统神经网络拟合系统模型未知动态效果图。
图7为本发明实施例自适应控制阶段机器人系统任务空间下控制输入信号变化曲线图。
图8为本发明实施例机器人末端与操作员交互力曲线图。
图9为本发明机器人末端轨迹曲线图。
图10为本发明实施例学习控制阶段机器人系统人机交互辅助阻抗误差变量曲线图。
图11为本发明实施例机器人的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本申请所描述的实施例可以与其它实施例相结合。
如图1所示,本实施例提供的一种基于联合学习的机器人最优人机交互阻抗控制方法,选取双连杆刚性机器人为模型,包括以下步骤:
S1、基于机器人特性建立对应的运动学与任务空间动力学模型,并构建任务空间参考回归轨迹、人机交互二阶阻抗模型与任务空间辅助轨迹:
基于机器人特性得到机器人从关节空间到任务空间的映射为:
ξ=g(q)
其中,ξ为机器人末端位置,为机器人末端速度,g(·)为机器人从关节空间角位移到任务空间坐标的映射,J为机器人系统的雅可比矩阵,q=[q1,q2]T为机器人在关节空间的角位移,qi(i=1,2)为第i个关节的角位移,为机器人在关节空间的角速度,为第i个关节的角速度。
根据机器人的结构,本实施例选取正运动学模型为:
其中,x,y,z分别为任务空间下三个方向的位置,l1=1m和l2=1m分别为连杆1和连杆2的长度,如图2所示。
机器人系统的雅可比矩阵为:
机器人在关节空间的动力学模型为:
其中,为机器人在关节空间的角加速度,Mq(q)为关节空间下机器人的惯性矩阵、为关节空间下机器人的向心力矩阵、Gq(q)为关节空间下机器人的重力矩阵,τq为关节控制力矩,为第i关节的角加速度,f为机器人与人类操作员的交互力,由力传感器实时测量,Kf(t)为t时刻人机交互力增益。
基于任务空间的机器人动力学模型为:
其中,τf为关节力矩映射到机器人末端的控制力矩,M(q)为任务空间下的惯性矩阵、为任务空间下的向心力矩阵,G(q)为任务空间下的重力项,为机器人末端加速度,与关节空间的动力学模型参数的转换关系如下:
M(q)=J-TMq(q)J-1,
G(q)=J-TGq(q)。
本实施例中选取的双连杆刚性机器人模型的相关参数分别为:
本实施例中,选取m1=3kg和m2=3kg分别是连杆1和连杆2的质量,g=9.8m/s2为重力加速度。
设计任务空间参考回归轨迹为:
其中,为给定的连续光滑函数,ξd2为机器人任务空间参考速度,ξd1为机器人任务空间参考位置。本实施例中选取的任务空间参考轨迹为:
ξd=[1+0.2sin(t),1-0.2cos(t)]T
设计人机交互二阶阻抗模型:
其中,t为时间,Md(t)为t时刻二阶阻抗模型惯性矩阵,Bd(t)为t时刻二阶阻抗模型阻尼矩阵,Kd(t)为t时刻二阶阻抗模型刚度矩阵,Kf(t)为t时刻人机交互力增益,为机器人末端加速度,为机器人末端速度,ξ为机器人末端位置,为机器人任务空间参考加速度,为机器人任务空间参考速度,ξd为机器人任务空间参考位置。本实施例中,选取Md(t)为常值矩阵,
设计任务空间辅助轨迹:
其中,ξr1为机器人任务空间辅助位置,ξr2为机器人任务空间辅助速度。
S2、建立人机交互任务空间增广系统与对应的评价指标函数,并基于积分强化算法在线更新二阶阻抗模型参数,直至得到最优参数:
设计人机交互任务空间增广系统与对应的评价指标函数:
U=KX
其中,为人机交互任务空间增广系统状态,ξr为机器人任务空间辅助位置,为任务空间辅助速度,为任务空间辅助加速度,kf1,kf2,kf3为未知人机交互力特性参数,U为增广系统控制输入,K为增广系统控制增益矩阵、V为性能评价指标函数,t为时间,Kq为对称正定矩阵,通过设计Kq矩阵元素可实现对人机交互任务侧重点的调整,Kr为对称正定矩阵,τ为辅助时间变量。本实施例中,选取
基于积分强化算法,对任务空间增广系统最优控制问题进行求解:
选用积分强化算法如下:
策略评估:
策略更新:
Ki+1=Kr -1BTPi
其中,X(t)表示任务空间增广系统状态X在时间为t时的值,Pi表示第i步迭代时该算法的解,T为采样时间,τ为辅助时间变量,定义Ki为第i步迭代时任务空间增广系统的控制增益矩阵,Ki+1为第i+1步迭代时任务空间增广系统的控制增益矩阵,B=[0 In×n 0]T为任务空间增广系统矩阵。
通过最小二乘法对上述强化学习算法进行在线实时计算:
其中,为Pi元素向量的转置,表示X(t)的克罗内克积二次多项式基向量,为辅助变量,为辅助矩阵,为辅助矩阵,为辅助矩阵,N为数据取样数量。将使得增广系统稳定的初值K0代入算法,最小二乘法在线计算每一步解后得到Pi,将其代入策略更新公式得到控制增益Ki+1,当||Ki+1-Ki||<δ时,得到最优反馈增益K*,δ为设定的误差常数,通常取较小值。
在t时刻,任务空间增广系统控制增益K(t)为:
基于以上关系,通过选定合适的Md(t)矩阵,可得实时人机交互二阶阻抗模型参数Kd(t),Bd(t),Kf(t),当K(t)收敛至K*时,可得到最优人机交互二阶阻抗模型参数Kd,Bd,Kf。本实施例中,选取采样时间T=0.05s,δ=0.1,N=6。
S3、针对二阶阻抗模型,构建自适应神经网络阻抗控制器,基于确定学习理论,将训练收敛后的神经网络权值保存为常值神经网络权值
定义阻抗误差为:
设计自适应神经网络阻抗控制器:
其中,e为辅助阻抗误差变量,由e收敛可得阻抗误差ε收敛,τf为机器人关节空间控制力矩映射到任务空间下的控制输入,为神经网络权值估计值的转置,为高斯径向基函数,M为神经网络布点数,为布点中心,ρk(k=i,2,…,M)为神经元宽度,其中,Ke是自适应神经网络控制器增益矩阵。本实施例中,ξ和的初值为ξ=[0.8,1]T和神经网络权值初值为神经网络布点中心为[0.3,0.3,0.4,0.3,0.3,0.4,0.4,0.4,0.4,0.4,0,0]T,神经网络神经元宽度为[0.375,0.375,0.5,0.375,0.375,0.5,0.5,0.5,0.5,0.5,0,0]T,自适应神经网络控制器增益
构造神经网络权值估计值的权值更新律为:
其中,Γ为权值更新律的增益项,σ为权值更新律的设计常数。本实施例中,σ=0.00001。
利用确定学习理论将收敛后的神经网络权值保存为常值权值具体为:
其中,T<t1<t2,T为收敛时间。本实施例中,T=100s,t1=180s,t2=200s。
S4、利用常值神经网络权值构建常值神经网络阻抗控制器:
其中,
本实施例中,学习控制阶段各状态初值与参数设置值与自适应控制阶段相同。
采用本实施例中的参数,可获得如下结果:
图3为任务空间增广系统控制增益矩阵范数收敛图,由图可知,实际增益矩阵范数在4次迭代后收敛至理想最优增益矩阵附近,耗时为0.349s,范数误差为0.16,证明强化学习算法在较短时间内可以收敛得到最优人机交互阻抗参数;图4为自适应控制阶段机器人系统人机交互辅助阻抗误差曲线图,可以看出在100s后,辅助阻抗误差基本收敛至零附近,可以得到自适应神经网络控制器可以基本实现人机交互柔顺控制,其暂态控制性能一般;图5为自适应控制阶段机器人系统神经网络权值范数收敛曲线图,图6为自适应控制阶段机器人系统神经网络拟合系统模型未知动态效果图,可以看出神经网络权值在100s后基本实现了收敛,并实现对系统内部未知非线性动态的良好逼近;图7为自适应控制阶段机器人系统任务空间下控制输入信号变化曲线图,可得控制输入信号光滑连续且暂态震动过程短,可保证系统稳定安全运行;图8为机器人末端与操作员交互力曲线图,图9为机器人末端轨迹曲线图,由图可得在机器人与操作员进行人机交互过程中,机器人保持着良好的柔顺特性,且随着人机交互力的减小逐渐收敛于参考轨迹;图10为学习控制阶段机器人系统人机交互辅助阻抗误差变量曲线图,由图可得学习控制极大缩短了系统调节时间,提高了控制性能,同时节省了计算资源,实现了高精度人机交互柔顺控制。
需要说明的是,对于前述的各方法实施例,为了简便描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。
请参阅图11,在一个实施例中,提供了一种基于联合学习的机器人最优人机交互阻抗控制方法的机器人,所述机器人100可以包括第一处理器101、第一存储器102和总线,还可以包括存储在所述第一存储器102中并可在所述第一处理器101上运行的计算机程序,如机器人最优人机交互阻抗控制程序103。
其中,所述第一存储器102至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述第一存储器102在一些实施例中可以是机器人100的内部存储单元,例如该机器人100的移动硬盘。所述第一存储器102在另一些实施例中也可以是机器人100的外部存储设备,例如机器人100上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述第一存储器102还可以既包括机器人100的内部存储单元也包括外部存储设备。所述第一存储器102不仅可以用于存储安装于机器人100的应用软件及各类数据,例如机器人最优人机交互阻抗控制程序103的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述第一处理器101在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述第一处理器101是所述机器人的控制核心(ControlUnit),利用各种接口和线路连接整个机器人的各个部件,通过运行或执行存储在所述第一存储器102内的程序或者模块,以及调用存储在所述第一存储器102内的数据,以执行机器人100的各种功能和处理数据。
图3仅示出了具有部件的机器人,本领域技术人员可以理解的是,图3示出的结构并不构成对所述机器人100的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
所述机器人100中的所述第一存储器102存储的机器人最优人机交互阻抗控制程序103是多个指令的组合,在所述第一处理器101中运行时,可以实现:
S1、基于机器人特性构建任务空间参考回归轨迹、人机交互二阶阻抗模型与任务空间辅助轨迹:
所述人机交互二阶阻抗模型如下:
其中,t为时间,Md(t)为t时刻二阶阻抗模型惯性矩阵,Bd(t)为t时刻二阶阻抗模型阻尼矩阵,Kd(t)为t时刻二阶阻抗模型刚度矩阵,Kf(t)为t时刻人机交互力增益,为机器人末端加速度,为机器人末端速度,ξ为机器人末端位置,为机器人任务空间参考加速度,为机器人任务空间参考速度,ξd为机器人任务空间参考位置,f为机器人与人类操作员的交互力,
所述任务空间辅助轨迹如下:
其中,ξr1为机器人任务空间辅助位置,ξr2为机器人任务空间辅助速度;
S2、建立人机交互任务空间增广系统与对应的评价指标函数,并基于积分强化算法在线更新二阶阻抗模型参数,直至得到最优参数,具体如下:
设计人机交互任务空间增广系统与对应的评价指标函数:
U=KX,
其中,为人机交互任务空间增广系统状态,为任务空间辅助速度,为任务空间辅助加速度,kf1、kf2、kf3为未知人机交互力特性参数,U为增广系统控制输入,K为增广系统控制增益矩阵、V为性能评价指标函数,t为时间,Kq为对称正定矩阵,通过设计Kq矩阵元素可实现对人机交互任务侧重点的调整,Kr为对称正定矩阵,τ为辅助时间变量;
S3、针对二阶阻抗模型,构建自适应神经网络阻抗控制器,基于确定学习理论,将训练收敛后的神经网络权值保存为常值神经网络权值具体如下:
定义阻抗误差为:
设计自适应神经网络阻抗控制器:
其中,e为辅助阻抗误差变量,由e收敛可得阻抗误差ε收敛,τf为机器人关节空间控制力矩映射到任务空间下的控制输入,为神经网络权值估计值的转置,为高斯径向基函数,为布点中心点,ρk(k=i,2,…,N)为宽度,N为神经网络布点数,其中,q=[q1,q2,…,qn]T为机器人在关节空间的角位移,qi(i=1,2,…,n)为第i个关节的角位移,n对应着机器人的关节数,为机器人在关节空间的角速度,为第i个关节的角速度,Ke是自适应神经网络控制器增益矩阵;
构造神经网络权值估计值的权值更新律为:
其中,Γ为权值更新律的增益项,σ为权值更新律的设计常数;
S4、利用常值神经网络权值构建常值神经网络阻抗控制器:
其中,Kf是最优人机交互力增益,Md是二阶阻抗模型惯性矩阵,Bd是最优二阶阻抗模型阻尼矩阵,Kd是最优二阶阻抗模型刚度矩阵。
进一步地,所述机器人100集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (7)
1.基于联合学习的机器人最优人机交互阻抗控制方法,其特征在于,包括下述步骤:
S1、基于机器人特性构建任务空间参考回归轨迹、人机交互二阶阻抗模型与任务空间辅助轨迹:
所述人机交互二阶阻抗模型如下:
其中,t为时间,Md(t)为t时刻二阶阻抗模型惯性矩阵,Bd(t)为t时刻二阶阻抗模型阻尼矩阵,Kd(t)为t时刻二阶阻抗模型刚度矩阵,Kf(t)为t时刻人机交互力增益,为机器人末端加速度,为机器人末端速度,ξ为机器人末端位置,为机器人任务空间参考加速度,为机器人任务空间参考速度,ξd为机器人任务空间参考位置,f为机器人与人类操作员的交互力,
所述任务空间辅助轨迹如下:
其中,ξr1为机器人任务空间辅助位置,ξr2为机器人任务空间辅助速度;
S2、建立人机交互任务空间增广系统与对应的评价指标函数,并基于积分强化算法在线更新二阶阻抗模型参数,直至得到最优参数,具体如下:
设计人机交互任务空间增广系统与对应的评价指标函数:
U=KX,
其中,为人机交互任务空间增广系统状态,为任务空间辅助速度,为任务空间辅助加速度,kf1、kf2、kf3为未知人机交互力特性参数,U为增广系统控制输入,K为增广系统控制增益矩阵、V为性能评价指标函数,t为时间,Kq为对称正定矩阵,通过设计Kq矩阵元素可实现对人机交互任务侧重点的调整,Kr为对称正定矩阵,τ为辅助时间变量;
S3、针对二阶阻抗模型,构建自适应神经网络阻抗控制器,基于确定学习理论,将训练收敛后的神经网络权值保存为常值神经网络权值具体如下:
定义阻抗误差为:
设计自适应神经网络阻抗控制器:
其中,e为辅助阻抗误差变量,由e收敛可得阻抗误差ε收敛,τf为机器人关节空间控制力矩映射到任务空间下的控制输入,为神经网络权值估计值的转置,为高斯径向基函数,θk为布点中心点,k=i,2,…,N,ρk为宽度,N为神经网络布点数,其中,q=[q1,q2,…,qn]T为机器人在关节空间的角位移,qi为第i个关节的角位移,i=1,2,…,n,n对应着机器人的关节数,为机器人在关节空间的角速度,为第i个关节的角速度,Ke是自适应神经网络控制器增益矩阵;
构造神经网络权值估计值的权值更新律为:
其中,Γ为权值更新律的增益项,σ为权值更新律的设计常数;
S4、利用常值神经网络权值构建常值神经网络阻抗控制器:
其中,Kf是最优人机交互力增益,Md是二阶阻抗模型惯性矩阵,Bd是最优二阶阻抗模型阻尼矩阵,Kd是最优二阶阻抗模型刚度矩阵。
2.根据权利要求1所述基于联合学习的机器人最优人机交互阻抗控制方法,其特征在于,所述机器人特性是由机器人模型确定的,所述机器人模型设定为n连杆刚性机械臂模型,具体包括:
机器人运动学模型为:
ξ=g(q),
其中,g(·)为机器人从关节空间角位移到任务空间坐标的映射,J为机器人系统的雅可比矩阵;
机器人关节空间动力学模型为:
其中,为机器人在关节空间的角加速度,Mq(q)为关节空间下机器人的惯性矩阵、为关节空间下机器人的向心力矩阵、Gq(q)为关节空间下机器人的重力矩阵,τq为关节控制力矩,为第i关节的角加速度,i=1,2,…,n。
3.根据权利要求1所述基于联合学习的机器人最优人机交互阻抗控制方法,其特征在于,在步骤S1中,所述任务空间参考回归轨迹为:
其中,为给定的连续光滑函数,ξd1=ξd为机器人任务空间参考加速度,为机器人任务空间参考速度。
4.根据权利要求1所述基于联合学习的机器人最优人机交互阻抗控制方法,其特征在于,步骤S2中,所述基于积分强化算法在线更新二阶阻抗模型参数,直至得到最优参数,具体为:
选用积分强化算法如下:
策略评估:
策略更新:
Ki+1=Kr -1BTPi
其中,X(t)表示任务空间增广系统状态X在时间为t时的值,Pi表示第i步迭代时该算法的解,T为采样时间,τ为辅助时间变量,定义Ki为第i步迭代时任务空间增广系统的控制增益矩阵,Ki+1为第i+1步迭代时任务空间增广系统的控制增益矩阵,B=[0 In×n 0]T为任务空间增广系统矩阵;
通过最小二乘法对上述强化学习算法进行在线实时计算:
其中,为Pi元素向量的转置,表示X(t)的克罗内克积二次多项式基向量,为辅助变量,为辅助矩阵,为辅助矩阵,为辅助矩阵;
将使得增广系统稳定的初值K0代入算法,最小二乘法在线计算每一步解后得到Pi,将其代入策略更新公式得到控制增益Ki+1,当||Ki+1-Ki||<δ时,得到最优反馈增益K*,δ为设定的误差常数,通常取较小值;
在t时刻,任务空间增广系统控制增益K(t)为:
基于以上关系,通过选定合适的Md(t)矩阵,可得实时人机交互二阶阻抗模型参数Kd(t),Bd(t),Kf(t),当K(t)收敛至K*时,得到最优人机交互二阶阻抗模型参数Kd,Bd,Kf。
5.根据权利要求1所述基于联合学习的机器人最优人机交互阻抗控制方法,其特征在于,步骤S3中,所述常值神经网络权值具体为:
其中,t2>t1>T,T为收敛时间。
6.一种机器人,其特征在于,所述机器人包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-5中任意一项所述的基于联合学习的机器人最优人机交互阻抗控制方法。
7.一种计算机可读存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1-5任一项所述的基于联合学习的机器人最优人机交互阻抗控制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310459253.4A CN116512256A (zh) | 2023-04-26 | 2023-04-26 | 基于联合学习的机器人最优人机交互阻抗控制方法、存储介质及机器人 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310459253.4A CN116512256A (zh) | 2023-04-26 | 2023-04-26 | 基于联合学习的机器人最优人机交互阻抗控制方法、存储介质及机器人 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116512256A true CN116512256A (zh) | 2023-08-01 |
Family
ID=87398801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310459253.4A Pending CN116512256A (zh) | 2023-04-26 | 2023-04-26 | 基于联合学习的机器人最优人机交互阻抗控制方法、存储介质及机器人 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116512256A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117539153A (zh) * | 2023-11-21 | 2024-02-09 | 山东大学 | 基于确定学习的上肢康复机器人自适应控制方法及系统 |
-
2023
- 2023-04-26 CN CN202310459253.4A patent/CN116512256A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117539153A (zh) * | 2023-11-21 | 2024-02-09 | 山东大学 | 基于确定学习的上肢康复机器人自适应控制方法及系统 |
CN117539153B (zh) * | 2023-11-21 | 2024-05-28 | 山东大学 | 基于确定学习的上肢康复机器人自适应控制方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5330138B2 (ja) | 強化学習システム | |
CN111783250B (zh) | 柔性机器人末端抵达控制方法、电子设备和存储介质 | |
CN112338912B (zh) | 一种柔性单链机械臂的有限时间稳定控制方法及系统 | |
CN114800489B (zh) | 基于确定学习与复合学习联合的机械臂柔顺控制方法、存储介质及机器人 | |
CN112987577B (zh) | 一种无人车数据驱动自适应控制方法和装置 | |
CN114839880B (zh) | 一种基于柔性关节机械臂的自适应控制方法 | |
CN114367980B (zh) | 基于确定学习的封闭机器人速度补偿跟踪控制方法、存储介质及机器人 | |
CN112077839B (zh) | 一种机械臂的运动控制方法及装置 | |
CN108555914B (zh) | 一种基于腱驱动灵巧手的dnn神经网络自适应控制方法 | |
CN114260896B (zh) | 一种协作机器人的柔顺力控制方法及系统 | |
Zhang et al. | Robotic curved surface tracking with a neural network for angle identification and constant force control based on reinforcement learning | |
CN116512256A (zh) | 基于联合学习的机器人最优人机交互阻抗控制方法、存储介质及机器人 | |
CN113910218A (zh) | 基于运动学与深度神经网络融合的机器人标定方法和装置 | |
CN107065559A (zh) | 一种工业机器人增量自适应控制方法 | |
CN114347020B (zh) | 一种运动控制方法、运动控制装置及机器人 | |
CN114147710B (zh) | 机器人的控制方法、装置、机器人及存储介质 | |
CN113515044B (zh) | 一种轮式移动机器人的基于学习预测跟踪控制方法及装置 | |
CN116088498A (zh) | 一种基于mpc与fpga的自动驾驶车辆轨迹跟踪控制方法 | |
CN112659125B (zh) | 基于输入量化机制的柔性机械臂自适应边界振动控制方法 | |
CN110788859B (zh) | 一种控制器参数全域自适应调节系统 | |
CN113296515A (zh) | 一种双独立电驱动车辆显式模型预测路径跟踪方法 | |
CN113352320A (zh) | 一种基于Q学习的Baxter机械臂智能优化控制方法 | |
CN118163112B (zh) | 一种基于扩散模型的机械臂逆解控制方法及装置 | |
CN112989499B (zh) | 一种无人车数据驱动控制方法和装置 | |
CN115600875B (zh) | 一种环境参数的标定方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |