CN112638596A - 自主学习型机器人装置以及自主学习型机器人装置的动作生成方法 - Google Patents
自主学习型机器人装置以及自主学习型机器人装置的动作生成方法 Download PDFInfo
- Publication number
- CN112638596A CN112638596A CN201980055473.2A CN201980055473A CN112638596A CN 112638596 A CN112638596 A CN 112638596A CN 201980055473 A CN201980055473 A CN 201980055473A CN 112638596 A CN112638596 A CN 112638596A
- Authority
- CN
- China
- Prior art keywords
- operation pattern
- unit
- robot
- learning
- sensor information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 43
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 230000007613 environmental effect Effects 0.000 claims abstract description 10
- 239000000284 extract Substances 0.000 claims abstract description 8
- 238000010801 machine learning Methods 0.000 claims description 23
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 230000009471 action Effects 0.000 claims description 5
- 238000002360 preparation method Methods 0.000 claims 2
- 230000033001 locomotion Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 230000008859 change Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 206010049816 Muscle tightness Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000009012 visual motion Effects 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J13/00—Controls for manipulators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Mechanical Engineering (AREA)
- Medical Informatics (AREA)
- Robotics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Manipulator (AREA)
- Feedback Control In General (AREA)
Abstract
一种自主学习型机器人装置(1),其具备:具有控制部(11)的机器人装置(2);以及电连接或可通信地连接的机器学习装置(3),机器学习装置具备:经由点提取部(21),其从传感器部(12)测量的包含机器人装置的状态以及环境信息的传感器信息中提取机器人装置的动作经由点;动作模式选择部(22),其针对经由点按照每个预定的时间宽度学习动作模式,基于传感器信息选择动作模式;动作模式生成部(23),其针对经由点按照每个预定的时间宽度学习机器人的动作模式,基于传感器信息以及由动作模式选择部选择出的动作模式生成动作模式;以及状态判定部(24),其将动作模式生成部生成的动作模式与传感器信息进行比较,决定向机器人装置的控制部输出动作模式的定时。
Description
技术领域
本发明涉及一种机器人装置,其具有机器学习装置或与机器学习装置电(可通信地)连接,特别是涉及一种机器人根据来自外部的传感器信息生成动作的自主学习型机器人装置及其动作生成方法。
背景技术
以往的机器人系统需要庞大的编程和高度的专业知识,成为阻碍机器人引入的主要原因。因此,提出了一种基于安装在机器人装置的各种传感器信息,由机器人自身决定动作的自主学习型机器人装置。期待该自主学习型机器人装置是否可通过存储和学习机器人自身的动作经验,从而对于多样的环境变化能否灵活地生成动作。
作为机器人的动作经验,例如可举出操作员或用户直接向机器人教授并存储动作的方法、观察并模仿人或其他机器人的动作的方法等。
通常,在自主学习型机器人装置中具备被称为学习器的学习装置,进行了动作经验时的传感器信息的存储和用于生成动作的参数调整。将该存储的动作称为学习数据,并且将参数的调整称为学习,使用学习数据进行学习器的学习。学习器预先定义输入输出的关系,反复进行学习使得对学习器的输入值输出所期待的输出值。
例如,将某个动作经验时的机器人的关节角信息作为时间序列信息进行存储。使用得到的学习数据向学习器输入时刻(t)的关节角信息,进行时间序列学习从而预测下一时刻(t+1)的关节角信息。并且,通过向已完成学习的学习器依次输入机器人关节角信息,自主学习型机器人装置能够根据环境、自身的状态变化来自动地生成动作。
作为这样针对环境、自身的状态变化动态地生成动作的技术,例如已知有专利文献1、非专利文献1所记载的技术。
在专利文献1中,其目的在于提供一种机器人的作业学习装置,该机器人的作业学习装置在仅通过忠实地再现人等进行的作业的运动模式,目的作业不成功或者在实际时间的运动修正中处于无法应对的状况的机器人等的运动计划以及控制中自动地修正动作使得目的作业成功。因此,机器人的作业学习装置具备:输入装置,其用于实现对作业中的人等的运动进行测量的测量单元;经由点提取装置,其实现从输入的数据中提取经由点的单元;计划轨道生成装置,其计划使机器人装置实现的动作;运动指令生成装置,其向机器人发送指令值以实现计划的轨道;机器人装置,其实现作业;作业结果提取装置,其从由机器人装置实际实现的或者由模拟器实现的作业中提取作业结果;以及经由点修正装置,其根据得到的作业结果和作业目标来评价作业的完成度,修正经由点使得提高作业的完成度。
另外,在非专利文献1中公开了通过从机器人进行的多个物体操作行为中得到的视觉运动时间序列的存储学习来生成动作的内容。
现有技术文献
专利文献
日本特开平8-314522号公报
非专利文献
Kuniaki Noda,Hiroaki Arie,Yuki Suga,and Tetsuya Ogata:MultimodalIntegration Learning of Robot Behavior using Deep Neural Networks,Roboticsand Autonomous Systems,Vol.62,No.6,pp.721-736,2014
发明内容
发明要解决的课题
然而,在专利文献1所公开的结构中,仅对预先示教的1种动作进行动作修正,因此难以生成多个动作模式或在动作生成过程中向其他动作模式切换。换言之,在专利文献1中,对于不同种类的动作模式没有任何考虑。
另外,在非专利文献1所公开的结构中,使1个学习器学习多个动作模式,根据在动作刚开始后选择的动作模式来实现动作的生成,因此难以针对环境变化进行动态的轨道修正,难以进行动作模式的切换。
因此,本发明提供一种针对机器人的状态或环境变化具有鲁棒性的能够执行不同种类的动作模式的自主学习型机器人装置以及自主学习型机器人装置的动作生成方法。
用于解决课题的手段
为了解决上述课题,本发明的自主学习型机器人装置的特征为:具备机器人装置,其至少具有控制部;以及机器学习装置,其与所述机器人装置电连接或者可通信地连接,所述机器学习装置具备:经由点提取部,其从传感器部测量到的包含所述机器人装置的状态以及环境信息的传感器信息中提取机器人装置的动作经由点;动作模式选择部,其针对由所述经由点提取部提取出的经由点按照每个预定的时间宽度学习动作模式,并基于所述传感器信息选择动作模式;动作模式生成部,其针对由所述经由点提取部提取出的经由点按照每个预定的时间宽度学习机器人的动作模式,基于所述传感器信息以及由所述动作模式选择部选择出的动作模式来生成动作模式,并作为动作指令输出给所述机器人装置的控制部;以及状态判定部,其将所述动作模式生成部生成的动作模式与所述传感器信息进行比较,决定向所述机器人装置的控制部输出动作模式的定时。
另外,本发明的自主学习型机器人装置的动作生成方法的特征为:所述自主学习型机器人装置具备:机器人装置,其至少具有控制部;以及机器学习装置,其与所述机器人装置电连接或可通信地连接,通过经由点提取部从传感器部测量到的包含所述机器人装置的状态以及环境信息的传感器信息中提取机器人装置的动作经由点,针对提取出的所述经由点按照每个预定的时间宽度学习动作模式,由动作模式选择部基于所述传感器信息选择动作模式,通过动作模式生成部,针对提取出的所述经由点按照每个预定的时间宽度学习机器人的动作模式,基于所述传感器信息以及由所述动作模式选择部选择出的动作模式来生成动作模式,作为动作指令输出到所述机器人装置的控制部,通过状态判定部将所述动作模式生成部生成的动作模式与所述传感器信息进行比较,决定向所述机器人装置的控制部输出动作模式的定时。
发明效果
根据本发明,能够提供一种针对机器人的状态或环境变化具有鲁棒性的能够执行不同种类的动作模式的自主学习型机器人装置以及自主学习型机器人装置的动作生成方法。
通过以下的实施方式的说明,上述以外的课题、结构及效果变得明确。
附图说明
图1是本发明一实施例的自主学习型机器人装置的整体概略结构图。
图2表示使用了图1所示的自主学习型机器人装置的动作示教例。
图3表示提取示教动作的经由点的方法。
图4表示使用了图1所示的自主学习型机器人装置的动作生成例。
图5说明构成图1所示的机器学习装置的动作模式选择部和动作模式生成部的学习方法。
图6说明以预定的窗口宽度以及滑动尺寸分割学习数据来进行学习的方法。
图7是表示图1所示的自主学习型机器人装置的学习时的处理流程的流程图。
图8是表示图1所示的自主学习型机器人装置的动作时的处理流程的流程图。
图9表示图1所示的自主学习型机器人装置的动作时的数据流。
具体实施方式
在本说明书中,机器人装置例如包括人型机器人、起重机、机床、自动驾驶行驶车辆等。另外,在本说明书中,还包含通过云(服务器)实现机器学习装置,经由通信网络(不论是有线还是无线)与上述机器人装置连接的自主学习型机器人装置。另外,在该情况下,还包括将多个不同的所述机器人装置与1个机器学习装置电(可通信)连接的方式。
以下,为了使说明容易理解,作为一例,对由具有机械臂的机器人装置以及机器学习装置构成的自主学习型机器人装置进行说明,但自主学习型机器人装置的方式不限于此。
以下,使用附图对本发明的实施例进行说明。
实施例1
图1是本发明一实施例的自主学习型机器人装置的整体概略结构图。如图1所示,自主学习型机器人装置1由机器人装置2以及机器学习装置3构成。机器人装置2具有基于动作指令对机器人的各驱动部进行控制的控制部11以及对机器人的状态量即各种传感器信息进行测量的传感器部12。控制部11例如由未图示的CPU(Central Processing Unit:中央处理器)等处理器、存储各种程序的ROM、暂时存储运算过程的数据的RAM、外部存储装置等存储装置来实现,并且CPU等处理器读出并执行存储在ROM中的各种程序,将作为执行结果的运算结果存储在RAM或外部存储装置。
机器学习装置3具备:经由点提取部21,其基于由传感器部12测量出的传感器信息来提取机器人的动作经由点;以及动作模式选择部22,其基于由经由点提取部21提取出的经由点来对机器人的动作模式进行分类,基于由传感器部12测量出的传感器信息和状态判定部24的指令来选择动作模式。另外,机器学习装置3具有:动作模式生成部23,其基于由经由点提取部21提取出的经由点来学习机器人的动作模式,生成由动作模式选择部22选择出的动作模式;以及状态判定部24,其将动作模式生成部23生成的动作与传感器部12测量到的传感器信息进行比较,经由动作模式选择部22向动作模式生成部23发送动作指令,由此决定动作模式生成部23的动作定时。在此,经由点提取部21、动作模式选择部22、动作模式生成部23以及状态判定部24例如由未图示的CPU等处理器、存储各种程序的ROM、暂时存储运算过程的数据的RAM、外部存储装置等存储装置来实现,并且CPU等处理器读出并执行存储在ROM中的各种程序,将作为执行结果的运算结果存储在RAM或外部存储装置中。另外,为了使说明易于理解,分割为各功能块来表示,但也可以将经由点提取部21、动作模式选择部22、动作模式生成部23以及状态判定部24设为1个运算部,另外,也可以设为将所希望的功能块合并的结构。
接下来,表示使图1所示的自主学习型机器人装置1,具体来说使机器人装置2学习物体抓持动作的例子,其中,该机器人装置2由未图示的1个照相机和机械臂构成。
构成机器人装置2的控制部11基于来自机器学习装置3的动作指令,使用PID控制等对机械臂的各驱动部(未图示)进行驱动,传感器部12测量作为机器人的视觉信息的照相机图像和机械臂的各关节角度。在此,作为构成传感器部12的传感器,例如使用电位计、编码器、照相机或电流计等。在对机械臂的关节通过电动机进行驱动的情况下,根据电位计、编码器或者向电动机的电流值来测量各关节角度。另外,在不是通过电动机驱动机械臂的关节的情况下,例如,在利用致动器等进行驱动的情况下,优选构成为对照相机拍摄到的图像执行图像处理,由此通过运算求出关节角度。
在使用直接示教或主从方式等任意的动作示教方法示教了物体的抓持动作时,经由点提取部21Xtrj使用由传感器部12测量出的各种传感器信息来提取经由点。图2表示使用了图1所示的自主学习型机器人装置的动作示教例子。在本实施例中,如图2所示,多次示教初始位置不同的物体(物体A和物体B)的抓持动作,使用希望的插值方法(线性插值、拉格朗日插值、样条插值等)使测量出的各时间序列数据离散化。另外,如通过照相机拍摄到的图像那样存在难以通过上述插值方法离散化的时间序列数据,因此进行离散化使得在各传感器之间提取的经由点的数量和时刻相同。在图2所示的动作示教例中,作为安装在机械臂前端部的机械手针对放置在某个位置的物体A的动作A,示教(1)伸臂、(2)抓住物体A、(3)在抓持了物体A的状态下返回这一系列动作。另外,作为针对放置在与物体A不同位置的物体B的动作B,示教(1)伸臂、(2)抓住物体B、(3)在抓持了物体B的状态下返回这一系列动作。
图3表示提取示教动作的经由点的方法。例如,在给出了多个传感器时间序列数据Dtrj和经由点群{Dvia、j、i=1、……N},各传感器提取了7个经由点的情况下,如图3所示,如将横轴设为时间,将纵轴设为关节角度的图表所示那样提取各传感器信息。而且,以对应的方式成为将横轴设为时间,将纵轴设为图像的图表。另外,提取的经由点的数量不限于7个,能够适当地设定期望数量,假设在将提取点的数量设为时间序列数据长度时,同意使用全部时间序列数据。
动作模式选择部22和动作模式生成部23根据经由点提取部21提取出的经由点信息进行学习。在本实施例中,作为一例,动作模式选择部22以及经由点提取部21使用作为人工智能技术之一的神经网络,对于由经由点提取部21提取出的经由点,通过在期望的步骤中滑动所希望的时间宽度,能够学习多种多样的动作模式(伸臂、抓住等)。神经网络通过学习多种信息,能够基于过去的学习经验,针对未知的信息推定适当的信息。因此,在将神经网络用于物体的抓持动作学习时,通过学习上述图2所示的物体A以及物体B的抓持动作,如图4所示,能够进行未示教位置的物体C的抓持动作。
图5说明构成图1所示的机器学习装置3的动作模式选择部22和动作模式生成部23的学习方法,图6说明以预定的窗口宽度以及滑动尺寸分割学习数据来进行学习的方法。在图5中,示出了将窗口宽度设为“3”,将滑动尺寸设为“1”,学习物体的抓持动作时的动作模式选择部22和动作模式生成部23的学习步骤。在说明图5之前,在此使用图6对基于窗口宽度以及滑动尺寸的学习方法进行说明。
在图6中,作为一例示出了将窗口宽度设为“10”,将滑动尺寸设为“5”,学习物体的抓持动作的情况。图6中的上图的图表假设了将横轴设为时间,将纵轴设为传感器值,例如将机器人的关节角度的时间序列数据设为学习数据的情况。如图6的上图所示,窗口宽度表示预定时间的时间宽度,在此表示窗口宽度为W=10的情况,通过窗口宽度(W=10)提取学习数据中的部分数据X1。
同样地,通过窗口宽度(W=10)提取学习数据中的部分数据X2以及部分数据X3。在此,相互邻接的部分数据X1以及部分数据X2、部分数据X2以及部分数据X3延迟了预定的时间。即,相互邻接的2个部分数据滑动了预定的延迟时间,在图6的上图中表示了滑动尺寸S=5的情况。
以下,说明以预定的窗口宽度以及滑动尺寸分割学习数据来进行学习的方法的概要。
首先,如图6的上图所示,以预定的窗口宽度(W=10)以及滑动尺寸(S=5)分割作为学习数据的时间序列数据。
接着,针对各部分数据执行以下3个步骤。
在步骤1中,如图6所示,向动作模式生成部23输入从时刻t=0到时刻t=W的传感器信息(传感器值)。然后,计算各时刻的误差L*t。在此,*表示分割后的部分数据的编号。另外,关于误差计算将在后面叙述。
在步骤2中,基于各时刻的误差L*t计算学习数据的整体误差L*。在步骤3中,使用各分数据的整体误差L*,执行动作模式生成部23的权重参数的更新。
重复执行上述步骤1至步骤3直至达到指定次数或目标误差为止。
返回图5,对构成机器学习装置3的动作模式选择部22和动作模式生成部23的学习方法进行说明。图5的上图针对时刻t=0时的动作模式选择部22和动作模式生成部23的学习、以及窗口宽度(W=3)和滑动尺寸(S=1)的情况进行了图示,此外,图5的下图针对时刻t=1时的动作模式选择部22和动作模式生成部23的学习、以及窗口宽度(W=3)和滑动尺寸(S=1)的情况进行了图示。根据各窗口(上述各部分数据)中的最小时刻的图像学习动作模式选择部22,根据动作模式选择部22的选择结果(所选择的动作模式:Spt)和3个步骤的传感器信息,学习动作模式生成部23。具体而言,在图5的上图中,输入时刻t=0的机器人的视觉信息即照相机拍摄到的图像imgt=0以及机械臂的各关节角度xt=0~xt=2,通过以下的式(1)计算下一时刻的各关节角度的推定值x’t=1~x’t=3与真值xt=1~xt=3的误差值E。
基于计算出的误差值E,更新动作模式选择部22的神经网络的权重参数(Wc)以及动作模式生成部23的神经网络的权重参数(Wi、Wr、Wo)。由此,在动作模式选择部22中,提取符合传感器信息的动作模式来作为图像特征量,动作模式生成部23学习传感器信息中存在的动作模式。
在图5的下图所示的时刻t=1时的动作模式选择部22和动作模式生成部23的学习中,作为动作模式选择部22的神经网络的权重参数(Wc)以及动作模式生成部23的神经网络的权重参数(Wi、Wr、Wo),使用上述图5的上图所示的更新后的权重参数,执行与上述图5的上图同样的处理。
在此,对本实施例的自主学习型机器人装置1的学习详细地进行说明。图7是表示图1所示的自主学习型机器人装置的学习时的处理流程的流程图。如图7所示,在步骤S11中,构成机器学习装置3的经由点提取部21从传感器部12测量出的传感器时间序列数据Dtrj中提取经由点Dvia。
在步骤S12中,经由点提取部21执行构成机器学习装置3的动作模式选择部22以及动作模式生成部23内的神经网络的初始化。
在步骤S13中,动作模式生成部23从经由点提取部21输入经由点Dvia,t,计算输出值D’via,t+1。
在步骤S14中,经由点提取部21通过上述式(1)计算输出值D’via,t+1与真值Dvia,t+1的误差值E。
在步骤S15中,经由点提取部21在计算出的误差值E为预先设定的目标值以下的情况下进入步骤S16,结束学习。另一方面,在计算出的误差值E超过预先设定的目标值的情况下,进入步骤S17。
在步骤S17中,经由点提取部21判定学习次数t是否为预先设定的学习次数max以上。在判定结果是学习次数t为预先设定的学习次数max以上的情况下,进入步骤S16,结束学习。另一方面,在学习次数t小于预先设定的学习次数max的情况下,进入步骤S18。
在步骤S18中,经由点提取部21更新图5所示的神经网络的权重参数(Wc,Wi,Wr,Wo),进入步骤S19,将学习次数增加“1”(学习次数t+1=学习次数t+1),返回步骤S13,重复执行以后的步骤。
接着,对本实施例的自主学习型机器人装置1动作时的详细情况进行说明。图8是表示图1所示的自主学习型机器人装置动作时的处理流程的流程图。如图8所示,在步骤S21中,构成机器学习装置3的状态判定部24读入已学习的神经网络。
在步骤S22中,状态判定部24从传感器部12取得机器人装置2的传感器值Xt。
在步骤S23中,动作模式选择部22使用从状态判定部24输入的传感器值Xt来推定(选择)动作模式。
在步骤S24中,动作模式生成部23将作为数据的传感器值Xt输入到神经网络,计算输出值Xtarget。
在步骤S25中,动作模式生成部23向机器人装置2的输入部(控制部11)输出输出值Xtarget。
在步骤S26中,状态判定部24从传感器部12取得机器人装置2的传感器值Xnow。
在步骤27中,状态判定部24判定是否满足以下的式(2)所示的条件。
||Xtarget-Xnow||<∈...(2)
在判定结果为不满足条件的情况下,即,在相对于输出值Xtarget(动作模式生成部23在步骤S24中生成的目标值),传感器值Xnow不在预定的范围ε内时,返回步骤S26。另一方面,在相对于输出值Xtarget(动作模式生成部23在步骤S24中生成的目标值)传感器值Xnow在预定的范围ε内时,进入步骤S28。
在步骤S28中,状态判定部24判定循环计数是否达到预先设定的执行次数。作为判定的结果,在循环计数达到了预先设定的执行次数的情况下,进入步骤S29,结束动作。另一方面,在循环计数未达到预先设定的执行次数的情况下,在步骤S30中更新循环计数并返回步骤S22,重复执行以后的步骤。
图9表示图1所示的自主学习型机器人装置的动作时的数据流。
在图9中,上图表示输入时刻t的图像和关节角度信息,推定时刻t+1的关节角度的状态下的数据流。另外,在图9中,下图表示直至到达目标位置为止,依次推定关节角度信息的状态下的数据流。
如图9的上图所示,学习了示教动作的动作模式选择部22基于传感器信息即由照相机拍摄到的图像t来选择初始动作模式,并将所选择的动作模式向动作模式生成部23输出。动作模式生成部23根据从动作模式选择部22输入的所选择的动作模式以及关节角度xt来依次生成动作,并作为动作指令值向机器人装置2的控制部11输出,由此能够实现基于环境变化的动作生成。
如图9的下图所示,状态判定部24进行状态判定直到满足上述式(2)所示的条件为止,动作模式生成部23根据状态判定部24的判定结果依次生成动作,由此调整动作模式生成部23的动作定时。
如上所述,通过以预定的时间宽度对示教动作进行截取来进行分割学习,能够获得多种多样的动作模式。另外,通过基于传感器信息来依次选择动作模式以及生成动作模式,能够实现一种针对环境变化能够依次生成适当的动作的自主学习型机器人装置1。即,通过使用本结构使自主学习型机器人装置1学习静止物体的抓持动作,能够生成移动物体的抓持动作。
在本实施例中,作为一例说明了机器人装置2的机械臂的关节角度的提取以及动作模式的学习,但也可以取而代之,设为机器人装置2的机械臂的指尖位置或各关节转矩。
另外,在本实施例中,根据最小时刻的由照相机拍摄到的图像进行动作模式的选择,但也可以构成为使用窗口宽度的整个图像来进行动作模式选择部22的学习和选择。
在本实施例中,使用机器人装置2的机械臂的各关节角度进行了经由点的提取,但也可以构成为如机械臂的关节角度信息那样,在各传感器信息存在依赖关系的情况下,在将机械臂的传感器信息变换为机械臂的指尖位置之后,使用运动最小化模型(转矩变化最小模型、肌肉张力变化最小模型、运动指令最小模型等)进行经由点的提取。
在本实施例中,作为一例,说明了通过一并学习动作模式选择部22以及动作模式生成部23,由此作为图像特征量提取动作模式选择部22的选择结果的结构。即,说明了通过向动作模式选择部22以及动作模式生成部23反馈上述图5所示的误差计算的结果(误差值E)来更新全部的权重参数(Wc、Wi、Wr、Wo)的结构。也可以取而代之,构成为将动作模式选择部22以及动作模式生成部23分开学习,对于动作模式选择部22的选择结果输出物体的名称、位置等。在该情况下,基于误差计算的结果(误差值E),分别更新动作模式选择部22以及动作模式生成部23的权重参数。
而且,在本实施例中,对机器人装置2内具备传感器部12的结构进行了说明,但不限于此。例如,也可以将监视照相机、运动捕捉那样的外界传感器作为机器人装置2的传感器部12。
如上所述,根据本实施例,能够提供一种针对机器人的状态或环境变化具有鲁棒性的能够执行不同种类的动作模式的自主学习型机器人装置以及自主学习型机器人装置的动作生成方法。
另外,根据本实施例,通过经由点提取部21提取学习数据,抑制学习数据间的偏差,由此能够提高学习性能和学习效率。
此外,本发明并不限定于上述的实施例,包括各种变形例。
例如,上述的实施例是为了容易理解地说明本发明而详细说明的例子,并不限于必须具备所说明的全部结构。
附图标记说明
1…自主学习型机器人装置、2…机器人装置、3…机器学习装置、11…控制部、12…传感器部、21…经由点提取部、22…动作模式选择部、23…动作模式生成部、24…状态判定部。
Claims (10)
1.一种自主学习型机器人装置,其具备:机器人装置,其至少具有控制部;以及机器学习装置,其与所述机器人装置电连接或可通信地连接,
其特征在于,
所述机器学习装置具备:
经由点提取部,其从传感器部测量的包含所述机器人装置的状态以及环境信息的传感器信息中提取机器人装置的动作经由点;
动作模式选择部,其针对由所述经由点提取部提取出的经由点按照每个预定的时间宽度学习动作模式,基于所述传感器信息选择动作模式;
动作模式生成部,其针对由所述经由点提取部提取出的经由点按照每个预定的时间宽度学习机器人的动作模式,基于所述传感器信息以及由所述动作模式选择部选择出的动作模式来生成动作模式,并作为动作指令输出给所述机器人装置的控制部;以及
状态判定部,其将所述动作模式生成部生成的动作模式与所述传感器信息进行比较,决定向所述机器人装置的控制部输出动作模式的定时。
2.根据权利要求1所述的自主学习型机器人装置,其特征在于,
所述状态判定部将所述动作模式生成部生成的目标值与所述传感器信息进行比较,基于比较结果来决定所述定时。
3.根据权利要求2所述的自主学习型机器人装置,其特征在于,
所述机器学习装置至少求出学习时的由所述动作模式生成部生成的动作模式的误差值,在求出的误差值为预先设定的目标值以下的情况下结束学习。
4.根据权利要求2所述的自主学习型机器人装置,其特征在于,
在所述状态判定部的比较结果为所述动作模式生成部生成的目标值与所述传感器信息的差值在预定的范围内时,所述动作模式生成部将生成的动作模式作为动作指令输出到所述机器人装置的控制部。
5.根据权利要求3所述的自主学习型机器人装置,其特征在于,
在所述状态判定部的比较结果为所述动作模式生成部生成的目标值与所述传感器信息的差值在预定的范围内时,所述动作模式生成部将生成的动作模式作为动作指令输出到所述机器人装置的控制部。
6.根据权利要求5所述的自主学习型机器人装置,其特征在于,
所述动作模式选择部以及所述动作模式生成部分别具有神经网络,通过反馈求出的所述误差值,一并更新所述动作模式选择部以及所述动作模式生成部的神经网络的权重参数。
7.一种自主学习型机器人装置的动作生成方法,该自主学习型机器人装置具备:机器人装置,其至少具有控制部;以及机器学习装置,其与所述机器人装置电连接或可通信地连接,
其特征在于,
通过经由点提取部从传感器部测量的包含所述机器人装置的状态以及环境信息的传感器信息中提取机器人装置的动作经由点,
针对提取出的所述经由点按照每个预定的时间宽度学习动作模式,由动作模式选择部基于所述传感器信息选择动作模式,
通过动作模式生成部,针对提取出的所述经由点按照每个预定的时间宽度学习机器人的动作模式,基于所述传感器信息以及由所述动作模式选择部选择出的动作模式来生成动作模式,并作为动作指令输出到所述机器人装置的控制部,
由状态判定部将所述动作模式生成部生成的动作模式与所述传感器信息进行比较,决定向所述机器人装置的控制部输出动作模式的定时。
8.根据权利要求7所述的自主学习型机器人装置的动作生成方法,其特征在于,
所述状态判定部将所述动作模式生成部生成的目标值与所述传感器信息进行比较,基于比较结果来决定所述定时。
9.根据权利要求8所述的自主学习型机器人装置的动作生成方法,其特征在于,
至少求出学习时的由所述动作模式生成部生成的动作模式的误差值,在求出的误差值为预先设定的目标值以下时结束学习。
10.根据权利要求9所述的自主学习型机器人装置的动作生成方法,其特征在于,
在所述状态判定部的比较结果为所述动作模式生成部生成的目标值与所述传感器信息的差值在预定的范围内时,所述动作模式生成部将生成的动作模式作为动作指令输出到所述机器人装置的控制部。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018156175A JP7034035B2 (ja) | 2018-08-23 | 2018-08-23 | 自律学習型ロボット装置及び自律学習型ロボット装置の動作生成方法 |
JP2018-156175 | 2018-08-23 | ||
PCT/JP2019/006161 WO2020039616A1 (ja) | 2018-08-23 | 2019-02-19 | 自律学習型ロボット装置及び自律学習型ロボット装置の動作生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112638596A true CN112638596A (zh) | 2021-04-09 |
CN112638596B CN112638596B (zh) | 2024-02-20 |
Family
ID=69592069
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980055473.2A Active CN112638596B (zh) | 2018-08-23 | 2019-02-19 | 自主学习型机器人装置以及自主学习型机器人装置的动作生成方法 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP7034035B2 (zh) |
CN (1) | CN112638596B (zh) |
WO (1) | WO2020039616A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111538341B (zh) * | 2020-06-02 | 2023-04-14 | 大连海事大学 | 基于宽度学习自适应动态规划的船舶动力定位优化控制方法 |
CN112051780B (zh) * | 2020-09-16 | 2022-05-17 | 北京理工大学 | 一种基于脑机接口的移动机器人编队控制系统及方法 |
CN116917086A (zh) * | 2021-02-18 | 2023-10-20 | 三菱电机株式会社 | 控制装置、机器人系统、学习装置、控制方法和程序 |
CN113283530B (zh) * | 2021-06-08 | 2022-11-15 | 重庆大学 | 基于级联特征块的图像分类系统 |
JP2023146535A (ja) * | 2022-03-29 | 2023-10-12 | 株式会社日立製作所 | 動作指令生成装置および動作指令生成方法 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10111701A (ja) * | 1996-10-05 | 1998-04-28 | Ricoh Co Ltd | 学習型自動セル装置と学習方法 |
JP2005014166A (ja) * | 2003-06-26 | 2005-01-20 | Japan Science & Technology Agency | 多指ロボットハンドの制御方法及び装置 |
JP2006247769A (ja) * | 2005-03-09 | 2006-09-21 | Toyota Motor Corp | 脚式ロボットとその動作制御方法 |
JP2006293442A (ja) * | 2005-04-05 | 2006-10-26 | Sony Corp | 情報処理装置および方法、並びにプログラム |
JP2006320997A (ja) * | 2005-05-18 | 2006-11-30 | Nippon Telegr & Teleph Corp <Ntt> | ロボット行動選択装置及びロボット行動選択方法 |
CN102189548A (zh) * | 2010-03-05 | 2011-09-21 | 发那科株式会社 | 具有视觉传感器的机器人系统 |
US20150251312A1 (en) * | 2014-03-04 | 2015-09-10 | Fanuc Corporation | Robot controller having function to simplify teaching operation and improve motion performance of robot |
JP2016215357A (ja) * | 2015-05-26 | 2016-12-22 | 国立大学法人 名古屋工業大学 | パラメータ推定装置、パラメータ推定方法、プログラム及び制御装置 |
JP2016221660A (ja) * | 2015-06-03 | 2016-12-28 | 富士通株式会社 | 判定方法、判定プログラム及び判定装置 |
JP2017030135A (ja) * | 2015-07-31 | 2017-02-09 | ファナック株式会社 | ワークの取り出し動作を学習する機械学習装置、ロボットシステムおよび機械学習方法 |
CN106600000A (zh) * | 2016-12-05 | 2017-04-26 | 中国科学院计算技术研究所 | 人‑机器人运动数据映射的方法及系统 |
DE102016013731A1 (de) * | 2015-11-24 | 2017-05-24 | Fanuc Corporation | Robotersystem mit Funktionen zum Vereinfachen von Lehrvorgängen und Verbessern der Betriebsleistung durch Lernen |
CN107914270A (zh) * | 2016-10-11 | 2018-04-17 | 发那科株式会社 | 控制装置、机器人系统及生产系统 |
CN108000517A (zh) * | 2016-11-01 | 2018-05-08 | 发那科株式会社 | 具备学习控制功能的机器人控制装置 |
CN108115681A (zh) * | 2017-11-14 | 2018-06-05 | 深圳先进技术研究院 | 机器人的模仿学习方法、装置、机器人及存储介质 |
CN108422420A (zh) * | 2017-02-15 | 2018-08-21 | 发那科株式会社 | 具有学习控制功能的机器人系统以及学习控制方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002264057A (ja) * | 2001-03-12 | 2002-09-18 | Sony Corp | ロボット装置、ロボット装置の行動制御方法、プログラム及び記録媒体 |
JP2018008316A (ja) * | 2014-11-21 | 2018-01-18 | ヴイストン株式会社 | 学習型ロボット、学習型ロボットシステム、及び学習型ロボット用プログラム |
-
2018
- 2018-08-23 JP JP2018156175A patent/JP7034035B2/ja active Active
-
2019
- 2019-02-19 WO PCT/JP2019/006161 patent/WO2020039616A1/ja active Application Filing
- 2019-02-19 CN CN201980055473.2A patent/CN112638596B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10111701A (ja) * | 1996-10-05 | 1998-04-28 | Ricoh Co Ltd | 学習型自動セル装置と学習方法 |
JP2005014166A (ja) * | 2003-06-26 | 2005-01-20 | Japan Science & Technology Agency | 多指ロボットハンドの制御方法及び装置 |
JP2006247769A (ja) * | 2005-03-09 | 2006-09-21 | Toyota Motor Corp | 脚式ロボットとその動作制御方法 |
JP2006293442A (ja) * | 2005-04-05 | 2006-10-26 | Sony Corp | 情報処理装置および方法、並びにプログラム |
JP2006320997A (ja) * | 2005-05-18 | 2006-11-30 | Nippon Telegr & Teleph Corp <Ntt> | ロボット行動選択装置及びロボット行動選択方法 |
CN102189548A (zh) * | 2010-03-05 | 2011-09-21 | 发那科株式会社 | 具有视觉传感器的机器人系统 |
US20150251312A1 (en) * | 2014-03-04 | 2015-09-10 | Fanuc Corporation | Robot controller having function to simplify teaching operation and improve motion performance of robot |
JP2016215357A (ja) * | 2015-05-26 | 2016-12-22 | 国立大学法人 名古屋工業大学 | パラメータ推定装置、パラメータ推定方法、プログラム及び制御装置 |
JP2016221660A (ja) * | 2015-06-03 | 2016-12-28 | 富士通株式会社 | 判定方法、判定プログラム及び判定装置 |
JP2017030135A (ja) * | 2015-07-31 | 2017-02-09 | ファナック株式会社 | ワークの取り出し動作を学習する機械学習装置、ロボットシステムおよび機械学習方法 |
DE102016013731A1 (de) * | 2015-11-24 | 2017-05-24 | Fanuc Corporation | Robotersystem mit Funktionen zum Vereinfachen von Lehrvorgängen und Verbessern der Betriebsleistung durch Lernen |
CN107914270A (zh) * | 2016-10-11 | 2018-04-17 | 发那科株式会社 | 控制装置、机器人系统及生产系统 |
CN108000517A (zh) * | 2016-11-01 | 2018-05-08 | 发那科株式会社 | 具备学习控制功能的机器人控制装置 |
CN106600000A (zh) * | 2016-12-05 | 2017-04-26 | 中国科学院计算技术研究所 | 人‑机器人运动数据映射的方法及系统 |
CN108422420A (zh) * | 2017-02-15 | 2018-08-21 | 发那科株式会社 | 具有学习控制功能的机器人系统以及学习控制方法 |
CN108115681A (zh) * | 2017-11-14 | 2018-06-05 | 深圳先进技术研究院 | 机器人的模仿学习方法、装置、机器人及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP7034035B2 (ja) | 2022-03-11 |
CN112638596B (zh) | 2024-02-20 |
WO2020039616A1 (ja) | 2020-02-27 |
JP2020028950A (ja) | 2020-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112638596B (zh) | 自主学习型机器人装置以及自主学习型机器人装置的动作生成方法 | |
Pervez et al. | Learning deep movement primitives using convolutional neural networks | |
Sheng et al. | An integrated framework for human–robot collaborative manipulation | |
Breyer et al. | Comparing task simplifications to learn closed-loop object picking using deep reinforcement learning | |
US11305427B2 (en) | Robot system and robot control method | |
CN109397285B (zh) | 一种装配方法、装配装置及装配设备 | |
JP7117237B2 (ja) | ロボット制御装置、ロボットシステム及びロボット制御方法 | |
JP7295421B2 (ja) | 制御装置及び制御方法 | |
KR102239186B1 (ko) | 인공지능 기반 로봇 매니퓰레이터의 자동 제어 시스템 및 방법 | |
JP6811465B2 (ja) | 学習装置、学習方法、学習プログラム、自動制御装置、自動制御方法および自動制御プログラム | |
JP6811688B2 (ja) | 複数動作ユニット統合装置、およびその制御方法、並びに自律学習型ロボット装置 | |
Nemec et al. | Speed adaptation for self-improvement of skills learned from user demonstrations | |
US20210142207A1 (en) | A method and apparatus for providing an adaptive self-learning control program for deployment on a target field device | |
JP7452657B2 (ja) | 制御装置、制御方法及びプログラム | |
EP4175795B1 (en) | Transfer between tasks in different domains | |
WO2021100267A1 (ja) | 情報処理装置、および、情報処理方法 | |
WO2023067972A1 (ja) | 動作指令生成装置および動作指令生成方法 | |
WO2024158056A1 (ja) | ロボット制御システム、ロボット制御方法、およびロボット制御プログラム | |
Akbulut et al. | Bimanual rope manipulation skill synthesis through context dependent correction policy learning from human demonstration | |
Zhong et al. | Regressor-Based Model Adaptation for Shaping Deformable Linear Objects with Force Control | |
Hashemi | Trajectory planning and subject-specific control of a stroke rehabilitation robot using deep reinforcement learning | |
Wang et al. | Reinforcement Learning based End-to-End Control of Bimanual Robotic Coordination | |
US20230364791A1 (en) | Temporal logic formula generation device, temporal logic formula generation method, and storage medium | |
Aghajanzadeh | Control of Linear Deformable Objects for Robotized Crops Manipulation | |
Beigomi et al. | Towards Real-World Efficiency: Domain Randomization in Reinforcement Learning for Pre-Capture of Free-Floating Moving Targets by Autonomous Robots |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |