CN112638596A

CN112638596A - 自主学习型机器人装置以及自主学习型机器人装置的动作生成方法

Info

Publication number: CN112638596A
Application number: CN201980055473.2A
Authority: CN
Inventors: 伊藤洋; 山本健次郎
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2018-08-23
Filing date: 2019-02-19
Publication date: 2021-04-09
Anticipated expiration: 2039-02-19
Also published as: JP7034035B2; CN112638596B; WO2020039616A1; JP2020028950A

Abstract

一种自主学习型机器人装置(1)，其具备：具有控制部(11)的机器人装置(2)；以及电连接或可通信地连接的机器学习装置(3)，机器学习装置具备：经由点提取部(21)，其从传感器部(12)测量的包含机器人装置的状态以及环境信息的传感器信息中提取机器人装置的动作经由点；动作模式选择部(22)，其针对经由点按照每个预定的时间宽度学习动作模式，基于传感器信息选择动作模式；动作模式生成部(23)，其针对经由点按照每个预定的时间宽度学习机器人的动作模式，基于传感器信息以及由动作模式选择部选择出的动作模式生成动作模式；以及状态判定部(24)，其将动作模式生成部生成的动作模式与传感器信息进行比较，决定向机器人装置的控制部输出动作模式的定时。

Description

自主学习型机器人装置以及自主学习型机器人装置的动作生成方法

技术领域

本发明涉及一种机器人装置，其具有机器学习装置或与机器学习装置电(可通信地)连接，特别是涉及一种机器人根据来自外部的传感器信息生成动作的自主学习型机器人装置及其动作生成方法。

背景技术

以往的机器人系统需要庞大的编程和高度的专业知识，成为阻碍机器人引入的主要原因。因此，提出了一种基于安装在机器人装置的各种传感器信息，由机器人自身决定动作的自主学习型机器人装置。期待该自主学习型机器人装置是否可通过存储和学习机器人自身的动作经验，从而对于多样的环境变化能否灵活地生成动作。

作为机器人的动作经验，例如可举出操作员或用户直接向机器人教授并存储动作的方法、观察并模仿人或其他机器人的动作的方法等。

通常，在自主学习型机器人装置中具备被称为学习器的学习装置，进行了动作经验时的传感器信息的存储和用于生成动作的参数调整。将该存储的动作称为学习数据，并且将参数的调整称为学习，使用学习数据进行学习器的学习。学习器预先定义输入输出的关系，反复进行学习使得对学习器的输入值输出所期待的输出值。

例如，将某个动作经验时的机器人的关节角信息作为时间序列信息进行存储。使用得到的学习数据向学习器输入时刻(t)的关节角信息，进行时间序列学习从而预测下一时刻(t+1)的关节角信息。并且，通过向已完成学习的学习器依次输入机器人关节角信息，自主学习型机器人装置能够根据环境、自身的状态变化来自动地生成动作。

作为这样针对环境、自身的状态变化动态地生成动作的技术，例如已知有专利文献1、非专利文献1所记载的技术。

在专利文献1中，其目的在于提供一种机器人的作业学习装置，该机器人的作业学习装置在仅通过忠实地再现人等进行的作业的运动模式，目的作业不成功或者在实际时间的运动修正中处于无法应对的状况的机器人等的运动计划以及控制中自动地修正动作使得目的作业成功。因此，机器人的作业学习装置具备：输入装置，其用于实现对作业中的人等的运动进行测量的测量单元；经由点提取装置，其实现从输入的数据中提取经由点的单元；计划轨道生成装置，其计划使机器人装置实现的动作；运动指令生成装置，其向机器人发送指令值以实现计划的轨道；机器人装置，其实现作业；作业结果提取装置，其从由机器人装置实际实现的或者由模拟器实现的作业中提取作业结果；以及经由点修正装置，其根据得到的作业结果和作业目标来评价作业的完成度，修正经由点使得提高作业的完成度。

另外，在非专利文献1中公开了通过从机器人进行的多个物体操作行为中得到的视觉运动时间序列的存储学习来生成动作的内容。

现有技术文献

专利文献

日本特开平8-314522号公报

非专利文献

Kuniaki Noda，Hiroaki Arie，Yuki Suga，and Tetsuya Ogata：MultimodalIntegration Learning of Robot Behavior using Deep Neural Networks，Roboticsand Autonomous Systems，Vol.62，No.6，pp.721-736，2014

发明内容

发明要解决的课题

然而，在专利文献1所公开的结构中，仅对预先示教的1种动作进行动作修正，因此难以生成多个动作模式或在动作生成过程中向其他动作模式切换。换言之，在专利文献1中，对于不同种类的动作模式没有任何考虑。

另外，在非专利文献1所公开的结构中，使1个学习器学习多个动作模式，根据在动作刚开始后选择的动作模式来实现动作的生成，因此难以针对环境变化进行动态的轨道修正，难以进行动作模式的切换。

因此，本发明提供一种针对机器人的状态或环境变化具有鲁棒性的能够执行不同种类的动作模式的自主学习型机器人装置以及自主学习型机器人装置的动作生成方法。

用于解决课题的手段

为了解决上述课题，本发明的自主学习型机器人装置的特征为：具备机器人装置，其至少具有控制部；以及机器学习装置，其与所述机器人装置电连接或者可通信地连接，所述机器学习装置具备：经由点提取部，其从传感器部测量到的包含所述机器人装置的状态以及环境信息的传感器信息中提取机器人装置的动作经由点；动作模式选择部，其针对由所述经由点提取部提取出的经由点按照每个预定的时间宽度学习动作模式，并基于所述传感器信息选择动作模式；动作模式生成部，其针对由所述经由点提取部提取出的经由点按照每个预定的时间宽度学习机器人的动作模式，基于所述传感器信息以及由所述动作模式选择部选择出的动作模式来生成动作模式，并作为动作指令输出给所述机器人装置的控制部；以及状态判定部，其将所述动作模式生成部生成的动作模式与所述传感器信息进行比较，决定向所述机器人装置的控制部输出动作模式的定时。

另外，本发明的自主学习型机器人装置的动作生成方法的特征为：所述自主学习型机器人装置具备：机器人装置，其至少具有控制部；以及机器学习装置，其与所述机器人装置电连接或可通信地连接，通过经由点提取部从传感器部测量到的包含所述机器人装置的状态以及环境信息的传感器信息中提取机器人装置的动作经由点，针对提取出的所述经由点按照每个预定的时间宽度学习动作模式，由动作模式选择部基于所述传感器信息选择动作模式，通过动作模式生成部，针对提取出的所述经由点按照每个预定的时间宽度学习机器人的动作模式，基于所述传感器信息以及由所述动作模式选择部选择出的动作模式来生成动作模式，作为动作指令输出到所述机器人装置的控制部，通过状态判定部将所述动作模式生成部生成的动作模式与所述传感器信息进行比较，决定向所述机器人装置的控制部输出动作模式的定时。

发明效果

根据本发明，能够提供一种针对机器人的状态或环境变化具有鲁棒性的能够执行不同种类的动作模式的自主学习型机器人装置以及自主学习型机器人装置的动作生成方法。

通过以下的实施方式的说明，上述以外的课题、结构及效果变得明确。

附图说明

图1是本发明一实施例的自主学习型机器人装置的整体概略结构图。

图2表示使用了图1所示的自主学习型机器人装置的动作示教例。

图3表示提取示教动作的经由点的方法。

图4表示使用了图1所示的自主学习型机器人装置的动作生成例。

图5说明构成图1所示的机器学习装置的动作模式选择部和动作模式生成部的学习方法。

图6说明以预定的窗口宽度以及滑动尺寸分割学习数据来进行学习的方法。

图7是表示图1所示的自主学习型机器人装置的学习时的处理流程的流程图。

图8是表示图1所示的自主学习型机器人装置的动作时的处理流程的流程图。

图9表示图1所示的自主学习型机器人装置的动作时的数据流。

具体实施方式

在本说明书中，机器人装置例如包括人型机器人、起重机、机床、自动驾驶行驶车辆等。另外，在本说明书中，还包含通过云(服务器)实现机器学习装置，经由通信网络(不论是有线还是无线)与上述机器人装置连接的自主学习型机器人装置。另外，在该情况下，还包括将多个不同的所述机器人装置与1个机器学习装置电(可通信)连接的方式。

以下，为了使说明容易理解，作为一例，对由具有机械臂的机器人装置以及机器学习装置构成的自主学习型机器人装置进行说明，但自主学习型机器人装置的方式不限于此。

以下，使用附图对本发明的实施例进行说明。

实施例1

图1是本发明一实施例的自主学习型机器人装置的整体概略结构图。如图1所示，自主学习型机器人装置1由机器人装置2以及机器学习装置3构成。机器人装置2具有基于动作指令对机器人的各驱动部进行控制的控制部11以及对机器人的状态量即各种传感器信息进行测量的传感器部12。控制部11例如由未图示的CPU(Central Processing Unit：中央处理器)等处理器、存储各种程序的ROM、暂时存储运算过程的数据的RAM、外部存储装置等存储装置来实现，并且CPU等处理器读出并执行存储在ROM中的各种程序，将作为执行结果的运算结果存储在RAM或外部存储装置。

机器学习装置3具备：经由点提取部21，其基于由传感器部12测量出的传感器信息来提取机器人的动作经由点；以及动作模式选择部22，其基于由经由点提取部21提取出的经由点来对机器人的动作模式进行分类，基于由传感器部12测量出的传感器信息和状态判定部24的指令来选择动作模式。另外，机器学习装置3具有：动作模式生成部23，其基于由经由点提取部21提取出的经由点来学习机器人的动作模式，生成由动作模式选择部22选择出的动作模式；以及状态判定部24，其将动作模式生成部23生成的动作与传感器部12测量到的传感器信息进行比较，经由动作模式选择部22向动作模式生成部23发送动作指令，由此决定动作模式生成部23的动作定时。在此，经由点提取部21、动作模式选择部22、动作模式生成部23以及状态判定部24例如由未图示的CPU等处理器、存储各种程序的ROM、暂时存储运算过程的数据的RAM、外部存储装置等存储装置来实现，并且CPU等处理器读出并执行存储在ROM中的各种程序，将作为执行结果的运算结果存储在RAM或外部存储装置中。另外，为了使说明易于理解，分割为各功能块来表示，但也可以将经由点提取部21、动作模式选择部22、动作模式生成部23以及状态判定部24设为1个运算部，另外，也可以设为将所希望的功能块合并的结构。

接下来，表示使图1所示的自主学习型机器人装置1，具体来说使机器人装置2学习物体抓持动作的例子，其中，该机器人装置2由未图示的1个照相机和机械臂构成。

构成机器人装置2的控制部11基于来自机器学习装置3的动作指令，使用PID控制等对机械臂的各驱动部(未图示)进行驱动，传感器部12测量作为机器人的视觉信息的照相机图像和机械臂的各关节角度。在此，作为构成传感器部12的传感器，例如使用电位计、编码器、照相机或电流计等。在对机械臂的关节通过电动机进行驱动的情况下，根据电位计、编码器或者向电动机的电流值来测量各关节角度。另外，在不是通过电动机驱动机械臂的关节的情况下，例如，在利用致动器等进行驱动的情况下，优选构成为对照相机拍摄到的图像执行图像处理，由此通过运算求出关节角度。

在使用直接示教或主从方式等任意的动作示教方法示教了物体的抓持动作时，经由点提取部21X_trj使用由传感器部12测量出的各种传感器信息来提取经由点。图2表示使用了图1所示的自主学习型机器人装置的动作示教例子。在本实施例中，如图2所示，多次示教初始位置不同的物体(物体A和物体B)的抓持动作，使用希望的插值方法(线性插值、拉格朗日插值、样条插值等)使测量出的各时间序列数据离散化。另外，如通过照相机拍摄到的图像那样存在难以通过上述插值方法离散化的时间序列数据，因此进行离散化使得在各传感器之间提取的经由点的数量和时刻相同。在图2所示的动作示教例中，作为安装在机械臂前端部的机械手针对放置在某个位置的物体A的动作A，示教(1)伸臂、(2)抓住物体A、(3)在抓持了物体A的状态下返回这一系列动作。另外，作为针对放置在与物体A不同位置的物体B的动作B，示教(1)伸臂、(2)抓住物体B、(3)在抓持了物体B的状态下返回这一系列动作。

图3表示提取示教动作的经由点的方法。例如，在给出了多个传感器时间序列数据D_trj和经由点群{D_via、_j、i＝1、……N}，各传感器提取了7个经由点的情况下，如图3所示，如将横轴设为时间，将纵轴设为关节角度的图表所示那样提取各传感器信息。而且，以对应的方式成为将横轴设为时间，将纵轴设为图像的图表。另外，提取的经由点的数量不限于7个，能够适当地设定期望数量，假设在将提取点的数量设为时间序列数据长度时，同意使用全部时间序列数据。

动作模式选择部22和动作模式生成部23根据经由点提取部21提取出的经由点信息进行学习。在本实施例中，作为一例，动作模式选择部22以及经由点提取部21使用作为人工智能技术之一的神经网络，对于由经由点提取部21提取出的经由点，通过在期望的步骤中滑动所希望的时间宽度，能够学习多种多样的动作模式(伸臂、抓住等)。神经网络通过学习多种信息，能够基于过去的学习经验，针对未知的信息推定适当的信息。因此，在将神经网络用于物体的抓持动作学习时，通过学习上述图2所示的物体A以及物体B的抓持动作，如图4所示，能够进行未示教位置的物体C的抓持动作。

图5说明构成图1所示的机器学习装置3的动作模式选择部22和动作模式生成部23的学习方法，图6说明以预定的窗口宽度以及滑动尺寸分割学习数据来进行学习的方法。在图5中，示出了将窗口宽度设为“3”，将滑动尺寸设为“1”，学习物体的抓持动作时的动作模式选择部22和动作模式生成部23的学习步骤。在说明图5之前，在此使用图6对基于窗口宽度以及滑动尺寸的学习方法进行说明。

在图6中，作为一例示出了将窗口宽度设为“10”，将滑动尺寸设为“5”，学习物体的抓持动作的情况。图6中的上图的图表假设了将横轴设为时间，将纵轴设为传感器值，例如将机器人的关节角度的时间序列数据设为学习数据的情况。如图6的上图所示，窗口宽度表示预定时间的时间宽度，在此表示窗口宽度为W＝10的情况，通过窗口宽度(W＝10)提取学习数据中的部分数据X¹。

同样地，通过窗口宽度(W＝10)提取学习数据中的部分数据X²以及部分数据X³。在此，相互邻接的部分数据X¹以及部分数据X²、部分数据X²以及部分数据X³延迟了预定的时间。即，相互邻接的2个部分数据滑动了预定的延迟时间，在图6的上图中表示了滑动尺寸S＝5的情况。

以下，说明以预定的窗口宽度以及滑动尺寸分割学习数据来进行学习的方法的概要。

首先，如图6的上图所示，以预定的窗口宽度(W＝10)以及滑动尺寸(S＝5)分割作为学习数据的时间序列数据。

接着，针对各部分数据执行以下3个步骤。

在步骤1中，如图6所示，向动作模式生成部23输入从时刻t＝0到时刻t＝W的传感器信息(传感器值)。然后，计算各时刻的误差L*t。在此，*表示分割后的部分数据的编号。另外，关于误差计算将在后面叙述。

在步骤2中，基于各时刻的误差L*t计算学习数据的整体误差L*。在步骤3中，使用各分数据的整体误差L*，执行动作模式生成部23的权重参数的更新。

重复执行上述步骤1至步骤3直至达到指定次数或目标误差为止。

返回图5，对构成机器学习装置3的动作模式选择部22和动作模式生成部23的学习方法进行说明。图5的上图针对时刻t＝0时的动作模式选择部22和动作模式生成部23的学习、以及窗口宽度(W＝3)和滑动尺寸(S＝1)的情况进行了图示，此外，图5的下图针对时刻t＝1时的动作模式选择部22和动作模式生成部23的学习、以及窗口宽度(W＝3)和滑动尺寸(S＝1)的情况进行了图示。根据各窗口(上述各部分数据)中的最小时刻的图像学习动作模式选择部22，根据动作模式选择部22的选择结果(所选择的动作模式：S_pt)和3个步骤的传感器信息，学习动作模式生成部23。具体而言，在图5的上图中，输入时刻t＝0的机器人的视觉信息即照相机拍摄到的图像img_t＝0以及机械臂的各关节角度x_t＝0～x_t＝2，通过以下的式(1)计算下一时刻的各关节角度的推定值x’_t＝1～x’_t＝3与真值x_t＝1～x_t＝3的误差值E。

基于计算出的误差值E，更新动作模式选择部22的神经网络的权重参数(W_c)以及动作模式生成部23的神经网络的权重参数(W_i、W_r、W_o)。由此，在动作模式选择部22中，提取符合传感器信息的动作模式来作为图像特征量，动作模式生成部23学习传感器信息中存在的动作模式。

在图5的下图所示的时刻t＝1时的动作模式选择部22和动作模式生成部23的学习中，作为动作模式选择部22的神经网络的权重参数(W_c)以及动作模式生成部23的神经网络的权重参数(W_i、W_r、W_o)，使用上述图5的上图所示的更新后的权重参数，执行与上述图5的上图同样的处理。

在此，对本实施例的自主学习型机器人装置1的学习详细地进行说明。图7是表示图1所示的自主学习型机器人装置的学习时的处理流程的流程图。如图7所示，在步骤S11中，构成机器学习装置3的经由点提取部21从传感器部12测量出的传感器时间序列数据D_trj中提取经由点D_via。

在步骤S12中，经由点提取部21执行构成机器学习装置3的动作模式选择部22以及动作模式生成部23内的神经网络的初始化。

在步骤S13中，动作模式生成部23从经由点提取部21输入经由点D_via，t，计算输出值D’_via，t+1。

在步骤S14中，经由点提取部21通过上述式(1)计算输出值D’_via，t+1与真值D_via，t+1的误差值E。

在步骤S15中，经由点提取部21在计算出的误差值E为预先设定的目标值以下的情况下进入步骤S16，结束学习。另一方面，在计算出的误差值E超过预先设定的目标值的情况下，进入步骤S17。

在步骤S17中，经由点提取部21判定学习次数t是否为预先设定的学习次数_max以上。在判定结果是学习次数_t为预先设定的学习次数_max以上的情况下，进入步骤S16，结束学习。另一方面，在学习次数t小于预先设定的学习次数max的情况下，进入步骤S18。

在步骤S18中，经由点提取部21更新图5所示的神经网络的权重参数(W_c，W_i，W_r，W_o)，进入步骤S19，将学习次数增加“1”(学习次数t+1＝学习次数t+1)，返回步骤S13，重复执行以后的步骤。

接着，对本实施例的自主学习型机器人装置1动作时的详细情况进行说明。图8是表示图1所示的自主学习型机器人装置动作时的处理流程的流程图。如图8所示，在步骤S21中，构成机器学习装置3的状态判定部24读入已学习的神经网络。

在步骤S22中，状态判定部24从传感器部12取得机器人装置2的传感器值X_t。

在步骤S23中，动作模式选择部22使用从状态判定部24输入的传感器值X_t来推定(选择)动作模式。

在步骤S24中，动作模式生成部23将作为数据的传感器值X_t输入到神经网络，计算输出值X_target。

在步骤S25中，动作模式生成部23向机器人装置2的输入部(控制部11)输出输出值X_target。

在步骤S26中，状态判定部24从传感器部12取得机器人装置2的传感器值X_now。

在步骤27中，状态判定部24判定是否满足以下的式(2)所示的条件。

||X_target-X_now||＜∈...(2)

在判定结果为不满足条件的情况下，即，在相对于输出值X_target(动作模式生成部23在步骤S24中生成的目标值)，传感器值X_now不在预定的范围ε内时，返回步骤S26。另一方面，在相对于输出值X_target(动作模式生成部23在步骤S24中生成的目标值)传感器值X_now在预定的范围ε内时，进入步骤S28。

在步骤S28中，状态判定部24判定循环计数是否达到预先设定的执行次数。作为判定的结果，在循环计数达到了预先设定的执行次数的情况下，进入步骤S29，结束动作。另一方面，在循环计数未达到预先设定的执行次数的情况下，在步骤S30中更新循环计数并返回步骤S22，重复执行以后的步骤。

在图9中，上图表示输入时刻t的图像和关节角度信息，推定时刻t+1的关节角度的状态下的数据流。另外，在图9中，下图表示直至到达目标位置为止，依次推定关节角度信息的状态下的数据流。

如图9的上图所示，学习了示教动作的动作模式选择部22基于传感器信息即由照相机拍摄到的图像t来选择初始动作模式，并将所选择的动作模式向动作模式生成部23输出。动作模式生成部23根据从动作模式选择部22输入的所选择的动作模式以及关节角度x_t来依次生成动作，并作为动作指令值向机器人装置2的控制部11输出，由此能够实现基于环境变化的动作生成。

如图9的下图所示，状态判定部24进行状态判定直到满足上述式(2)所示的条件为止，动作模式生成部23根据状态判定部24的判定结果依次生成动作，由此调整动作模式生成部23的动作定时。

如上所述，通过以预定的时间宽度对示教动作进行截取来进行分割学习，能够获得多种多样的动作模式。另外，通过基于传感器信息来依次选择动作模式以及生成动作模式，能够实现一种针对环境变化能够依次生成适当的动作的自主学习型机器人装置1。即，通过使用本结构使自主学习型机器人装置1学习静止物体的抓持动作，能够生成移动物体的抓持动作。

在本实施例中，作为一例说明了机器人装置2的机械臂的关节角度的提取以及动作模式的学习，但也可以取而代之，设为机器人装置2的机械臂的指尖位置或各关节转矩。

另外，在本实施例中，根据最小时刻的由照相机拍摄到的图像进行动作模式的选择，但也可以构成为使用窗口宽度的整个图像来进行动作模式选择部22的学习和选择。

在本实施例中，使用机器人装置2的机械臂的各关节角度进行了经由点的提取，但也可以构成为如机械臂的关节角度信息那样，在各传感器信息存在依赖关系的情况下，在将机械臂的传感器信息变换为机械臂的指尖位置之后，使用运动最小化模型(转矩变化最小模型、肌肉张力变化最小模型、运动指令最小模型等)进行经由点的提取。

在本实施例中，作为一例，说明了通过一并学习动作模式选择部22以及动作模式生成部23，由此作为图像特征量提取动作模式选择部22的选择结果的结构。即，说明了通过向动作模式选择部22以及动作模式生成部23反馈上述图5所示的误差计算的结果(误差值E)来更新全部的权重参数(W_c、W_i、W_r、W_o)的结构。也可以取而代之，构成为将动作模式选择部22以及动作模式生成部23分开学习，对于动作模式选择部22的选择结果输出物体的名称、位置等。在该情况下，基于误差计算的结果(误差值E)，分别更新动作模式选择部22以及动作模式生成部23的权重参数。

而且，在本实施例中，对机器人装置2内具备传感器部12的结构进行了说明，但不限于此。例如，也可以将监视照相机、运动捕捉那样的外界传感器作为机器人装置2的传感器部12。

如上所述，根据本实施例，能够提供一种针对机器人的状态或环境变化具有鲁棒性的能够执行不同种类的动作模式的自主学习型机器人装置以及自主学习型机器人装置的动作生成方法。

另外，根据本实施例，通过经由点提取部21提取学习数据，抑制学习数据间的偏差，由此能够提高学习性能和学习效率。

此外，本发明并不限定于上述的实施例，包括各种变形例。

例如，上述的实施例是为了容易理解地说明本发明而详细说明的例子，并不限于必须具备所说明的全部结构。

附图标记说明

1…自主学习型机器人装置、2…机器人装置、3…机器学习装置、11…控制部、12…传感器部、21…经由点提取部、22…动作模式选择部、23…动作模式生成部、24…状态判定部。

Claims

1.一种自主学习型机器人装置，其具备：机器人装置，其至少具有控制部；以及机器学习装置，其与所述机器人装置电连接或可通信地连接，

其特征在于，

所述机器学习装置具备：

经由点提取部，其从传感器部测量的包含所述机器人装置的状态以及环境信息的传感器信息中提取机器人装置的动作经由点；

动作模式选择部，其针对由所述经由点提取部提取出的经由点按照每个预定的时间宽度学习动作模式，基于所述传感器信息选择动作模式；

动作模式生成部，其针对由所述经由点提取部提取出的经由点按照每个预定的时间宽度学习机器人的动作模式，基于所述传感器信息以及由所述动作模式选择部选择出的动作模式来生成动作模式，并作为动作指令输出给所述机器人装置的控制部；以及

状态判定部，其将所述动作模式生成部生成的动作模式与所述传感器信息进行比较，决定向所述机器人装置的控制部输出动作模式的定时。

2.根据权利要求1所述的自主学习型机器人装置，其特征在于，

所述状态判定部将所述动作模式生成部生成的目标值与所述传感器信息进行比较，基于比较结果来决定所述定时。

3.根据权利要求2所述的自主学习型机器人装置，其特征在于，

所述机器学习装置至少求出学习时的由所述动作模式生成部生成的动作模式的误差值，在求出的误差值为预先设定的目标值以下的情况下结束学习。

4.根据权利要求2所述的自主学习型机器人装置，其特征在于，

在所述状态判定部的比较结果为所述动作模式生成部生成的目标值与所述传感器信息的差值在预定的范围内时，所述动作模式生成部将生成的动作模式作为动作指令输出到所述机器人装置的控制部。

5.根据权利要求3所述的自主学习型机器人装置，其特征在于，

6.根据权利要求5所述的自主学习型机器人装置，其特征在于，

所述动作模式选择部以及所述动作模式生成部分别具有神经网络，通过反馈求出的所述误差值，一并更新所述动作模式选择部以及所述动作模式生成部的神经网络的权重参数。

7.一种自主学习型机器人装置的动作生成方法，该自主学习型机器人装置具备：机器人装置，其至少具有控制部；以及机器学习装置，其与所述机器人装置电连接或可通信地连接，

其特征在于，

通过经由点提取部从传感器部测量的包含所述机器人装置的状态以及环境信息的传感器信息中提取机器人装置的动作经由点，

针对提取出的所述经由点按照每个预定的时间宽度学习动作模式，由动作模式选择部基于所述传感器信息选择动作模式，

通过动作模式生成部，针对提取出的所述经由点按照每个预定的时间宽度学习机器人的动作模式，基于所述传感器信息以及由所述动作模式选择部选择出的动作模式来生成动作模式，并作为动作指令输出到所述机器人装置的控制部，

由状态判定部将所述动作模式生成部生成的动作模式与所述传感器信息进行比较，决定向所述机器人装置的控制部输出动作模式的定时。

8.根据权利要求7所述的自主学习型机器人装置的动作生成方法，其特征在于，

9.根据权利要求8所述的自主学习型机器人装置的动作生成方法，其特征在于，

至少求出学习时的由所述动作模式生成部生成的动作模式的误差值，在求出的误差值为预先设定的目标值以下时结束学习。

10.根据权利要求9所述的自主学习型机器人装置的动作生成方法，其特征在于，