JP7034035B2 - Motion generation method for autonomous learning robot device and autonomous learning robot device - Google Patents
Motion generation method for autonomous learning robot device and autonomous learning robot device Download PDFInfo
- Publication number
- JP7034035B2 JP7034035B2 JP2018156175A JP2018156175A JP7034035B2 JP 7034035 B2 JP7034035 B2 JP 7034035B2 JP 2018156175 A JP2018156175 A JP 2018156175A JP 2018156175 A JP2018156175 A JP 2018156175A JP 7034035 B2 JP7034035 B2 JP 7034035B2
- Authority
- JP
- Japan
- Prior art keywords
- operation pattern
- robot device
- unit
- autonomous learning
- generation unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J13/00—Controls for manipulators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Mechanical Engineering (AREA)
- Medical Informatics (AREA)
- Robotics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Manipulator (AREA)
- Feedback Control In General (AREA)
Description
本発明は、機械学習装置を備える又は機械学習装置と電気的に(通信可能に)接続されるロボット装置に係り、特に、外部からのセンサ情報をもとにロボットが動作を生成する自律学習型ロボット装置及びその動作生成方法に関する。 The present invention relates to a robot device provided with a machine learning device or electrically (communicable) connected to the machine learning device, and in particular, an autonomous learning type in which a robot generates an motion based on sensor information from the outside. The present invention relates to a robot device and a method for generating its motion.
従来のロボットシステムは、膨大なプログラミングや高い専門知識が必要であり、ロボット導入の阻害要因になっている。そこで、ロボット装置に取り付けられた各種センサ情報に基づいて、ロボット自身が動作を決定する自律学習型ロボット装置が提案されている。この自律学習型ロボット装置は、ロボット自らの動作経験を記憶及び学習することで多様な環境変化に対し柔軟な動作生成が可能ではないかと期待されている。 Conventional robot systems require a huge amount of programming and a high degree of specialized knowledge, which is an obstacle to the introduction of robots. Therefore, an autonomous learning type robot device in which the robot itself determines the operation based on various sensor information attached to the robot device has been proposed. It is expected that this autonomous learning type robot device can flexibly generate motions in response to various environmental changes by memorizing and learning the motion experiences of the robot itself.
ロボットの動作経験とは、例えば、オペレータ又はユーザがロボットに動作を直接教え記憶させる方法や、人や他のロボットの動作を見て真似る方法などが挙げられる。
一般的に、自律学習型ロボット装置には、学習器と呼ばれる学習装置が備えられており、動作経験時のセンサ情報の記憶と、動作を生成するためのパラメータ調整が行われている。この記憶された動作を学習データと称すると共にパラメータの調整を学習と称し、学習データを用いて学習器の学習を行う。学習器は、あらかじめ入出力の関係を定義し、学習器への入力値に対し期待した出力値が出力されるように学習を繰り返し行う。
例えば、ある動作経験時のロボットの関節角情報を時系列情報として記憶する。得られた学習データを用いて、学習器に、時刻(t)の関節角情報を入力し、次時刻(t+1)の関節角情報を予測するように時系列学習させたとする。そして、学習が完了した学習器にロボット関節角情報を逐次入力することで、自律学習型ロボット装置は、環境や自身の状態変化に応じて自動的に動作を生成することが可能になる。
Examples of the robot operation experience include a method in which an operator or a user directly teaches and memorizes an operation to a robot, a method in which an operator or a user sees and imitates the operation of a person or another robot, and the like.
Generally, the autonomous learning type robot device is provided with a learning device called a learning device, and stores sensor information at the time of operation experience and adjusts parameters for generating an operation. This memorized operation is called learning data, and parameter adjustment is called learning, and the learning device is learned using the learning data. The learner defines the input / output relationship in advance, and repeats learning so that the expected output value is output with respect to the input value to the learner.
For example, the joint angle information of the robot at the time of a certain motion experience is stored as time series information. It is assumed that the joint angle information at the time (t) is input to the learner using the obtained learning data, and the time-series learning is performed so as to predict the joint angle information at the next time (t + 1). Then, by sequentially inputting the robot joint angle information into the learning device for which learning has been completed, the autonomous learning type robot device can automatically generate an motion according to the environment or its own state change.
このように環境や自身の状態変化に対し動的に動作を生成するための技術として、例えば、特許文献1、非特許文献1に記載される技術が知られている。
特許文献1では、人間などが行った作業の運動パターンの忠実な再現だけでは目的とする作業が成功しない或いは実時間の運動修正では対応できないような状況にあるロボットなどの運動計画及び制御において目的とする作業を成功するように動作を自動的に修正するロボットの作業学習装置を提供することを目的としている。そのため、ロボットの作業学習装置は、作業中の人間などの運動を計測する計測手段を実現する入力装置、入力されたデータから経由点を抽出する手段を実現する経由点抽出装置、ロボット装置に実現させる動きを計画する計画軌道生成装置、計画された軌道を実現するようにロボットに指令値を送る運動指令生成装置、作業を実現するロボット装置、実際にロボット装置で実現された或いはシミュレータで実現された作業から作業結果を抽出する作業結果抽出装置、及び、得られた作業結果と作業目標から作業の達成度を評価し、作業の達成度を向上させるように経由点を修正する経由点修正装置を備えている。
また、非特許文献1には、ロボットによる複数の物体操作行動から得られた視覚運動時系列の記憶学習により動作を生成する旨開示されている。
As a technique for dynamically generating an operation in response to a change in the environment or one's own state, for example, the techniques described in
In
Further, Non-Patent
しかしながら、特許文献1に開示される構成では、予め教示した動作1種のみに対し動作修正を行うため、複数の動作パターンの生成や、動作生成途中において他の動作パターンへの切り替えが困難となる。換言すれば、特許文献1では、異なる種別の動作パターンについては何ら考慮されていない。
また、非特許文献1に開示される構成では、複数の動作パターンを1つの学習器に学習させ、動作開始直後に選択した動作パターンに基づいて動作の生成を実現しているため、環境変化に対し動的な軌道修正や動作パターンの切り替えが困難である。
However, in the configuration disclosed in
Further, in the configuration disclosed in Non-Patent
そこで、本発明は、ロボットの状態や環境変化に対しロバストであって、異なる種別の動作パターンの実行が可能な自律学習型ロボット装置及び自律学習型ロボット装置の動作生成方法を提供する。 Therefore, the present invention provides a motion generation method for an autonomous learning robot device and an autonomous learning robot device that are robust to changes in the robot state and environment and can execute different types of motion patterns.
上記課題を解決するため、本発明に係る自律学習型ロボット装置は、少なくとも制御部を有するロボット装置と、前記ロボット装置と電気的又は通信可能に接続される機械学習装置と、を備える自律学習型ロボット装置であって、前記機械学習装置は、センサ部により計測される前記ロボット装置の状態及び環境情報を含むセンサ情報からロボット装置の動作経由点を抽出する経由点抽出部と、前記経由点抽出部により抽出された経由点に対し所定の時間幅毎に動作パターンを学習し、前記センサ情報に基づき動作パターンを選択する動作パターン選択部と、前記経由点抽出部により抽出された経由点に対し所定の時間幅毎にロボットの動作パターンを学習し、前記センサ情報及びに前記動作パターン選択部により選択された動作パターンに基づき動作パターンを生成し、前記ロボット装置の制御部へ動作指令として出力する動作パターン生成部と、前記動作パターン生成部により生成された動作パターンと前記センサ情報とを比較し、前記ロボット装置の制御部へ動作パターンを出力するタイミングを決定する状態判定部と、を備えることを特徴とする。 In order to solve the above problems, the autonomous learning type robot device according to the present invention includes at least a robot device having a control unit and a machine learning device electrically or communicably connected to the robot device. The machine learning device is a robot device, and the machine learning device includes a waypoint extraction unit that extracts an operation waypoint of the robot device from sensor information including the state and environment information of the robot device measured by the sensor part, and the waypoint extraction unit. For the operation pattern selection unit that learns the operation pattern for the waypoints extracted by the unit at predetermined time widths and selects the operation pattern based on the sensor information, and for the waypoints extracted by the waypoint extraction unit. The robot operation pattern is learned for each predetermined time width, an operation pattern is generated based on the sensor information and the operation pattern selected by the operation pattern selection unit, and is output as an operation command to the control unit of the robot device. It is provided with an operation pattern generation unit, a state determination unit that compares the operation pattern generated by the operation pattern generation unit with the sensor information, and determines the timing of outputting the operation pattern to the control unit of the robot device. It is characterized by.
また、本発明に係る自律学習型ロボット装置の動作生成方法は、少なくとも制御部を有するロボット装置と、前記ロボット装置と電気的又は通信可能に接続される機械学習装置と、を備える自律学習型ロボット装置の動作生成方法であって、センサ部により計測される前記ロボット装置の状態及び環境情報を含むセンサ情報からロボット装置の動作経由点を経由点抽出部により抽出し、前記抽出された経由点に対し所定の時間幅毎に動作パターンを学習し、前記センサ情報に基づき動作パターンを動作パターン選択部により選択し、動作パターン生成部により、前記抽出された経由点に対し所定の時間幅毎にロボットの動作パターンを学習し、前記センサ情報及びに前記動作パターン選択部により選択された動作パターンに基づき動作パターンを生成し、前記ロボット装置の制御部へ動作指令として出力し、状態判定部により、前記動作パターン生成部により生成された動作パターンと前記センサ情報とを比較し、前記ロボット装置の制御部へ動作パターンを出力するタイミングを決定することを特徴とする。 Further, the motion generation method of the autonomous learning type robot device according to the present invention is an autonomous learning type robot including at least a robot device having a control unit and a machine learning device electrically or communicably connected to the robot device. It is a method of generating the operation of the device, and the operation waypoint of the robot device is extracted by the waypoint extraction unit from the sensor information including the state and environment information of the robot device measured by the sensor part, and the extracted waypoint is used as the waypoint. On the other hand, the operation pattern is learned for each predetermined time width, the operation pattern is selected by the operation pattern selection unit based on the sensor information, and the operation pattern generation unit selects the robot for each predetermined time width with respect to the extracted waypoints. The operation pattern is learned, an operation pattern is generated based on the sensor information and the operation pattern selected by the operation pattern selection unit, and is output as an operation command to the control unit of the robot device. It is characterized in that the operation pattern generated by the operation pattern generation unit is compared with the sensor information, and the timing of outputting the operation pattern to the control unit of the robot device is determined.
本発明によれば、ロボットの状態や環境変化に対しロバストであって、異なる種別の動作パターンの実行が可能な自律学習型ロボット装置及び自律学習型ロボット装置の動作生成方法を提供することが可能となる。
上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
INDUSTRIAL APPLICABILITY According to the present invention, it is possible to provide an autonomous learning type robot device and a motion generation method of an autonomous learning type robot device that are robust to changes in the robot state and environment and can execute different types of motion patterns. Will be.
Issues, configurations and effects other than those described above will be clarified by the following description of the embodiments.
本明細書においてロボット装置とは、例えば、人型ロボット、クレーン、工作機械、自動運転走行車両等、が含まれる。また、本明細書において、機械学習装置をクラウド(サーバ)にて実現し、上記ロボット装置と通信ネットワーク(有線であるか無線であるかを問わない)を介して接続される自律学習型ロボット装置も含まれる。なお、この場合、1つの機械学習装置に複数の異なる上記ロボット装置が電気的(通信可能)に接続される形態も含まれる。
以下では、説明を解り易くするため一例として、ロボットアームを有するロボット装置及び機械学習装置より構成される自律学習型ロボット装置について説明するが、自律学習型ロボット装置の形態はこれに限られるものではない。
以下、図面を用いて本発明の実施例について説明する。
In the present specification, the robot device includes, for example, a humanoid robot, a crane, a machine tool, an autonomous driving vehicle, and the like. Further, in the present specification, the machine learning device is realized in the cloud (server), and the robot device is connected to the robot device via a communication network (whether wired or wireless). Is also included. In this case, a form in which a plurality of different robot devices are electrically (communicable) connected to one machine learning device is also included.
In the following, an autonomous learning type robot device composed of a robot device having a robot arm and a machine learning device will be described as an example to make the explanation easier to understand, but the form of the autonomous learning type robot device is not limited to this. do not have.
Hereinafter, examples of the present invention will be described with reference to the drawings.
図1は、本発明の一実施例に係る自律学習型ロボット装置の全体概略構成図である。図1に示すように、自律学習型ロボット装置1は、ロボット装置2及び機械学習装置3より構成されている。ロボット装置2は、動作指令に基づいてロボットの各駆動部を制御する制御部11及びロボットの状態量である各種センサ情報を計測するセンサ部12を有する。制御部11は、例えば、図示しないCPU(Central Processing Unit)などのプロセッサ、各種プログラムを格納するROM、演算過程のデータを一時的に格納するRAM、外部記憶装置などの記憶装置にて実現されると共に、CPUなどのプロセッサがROMに格納された各種プログラムを読み出し実行し、実行結果である演算結果をRAM又は外部記憶装置に格納する。
FIG. 1 is an overall schematic configuration diagram of an autonomous learning type robot device according to an embodiment of the present invention. As shown in FIG. 1, the autonomous learning
機械学習装置3は、センサ部12にて計測されたセンサ情報に基づきロボットの動作経由点を抽出する経由点抽出部21、及び、経由点抽出部21により抽出された経由点に基づいてロボットの動作パターンを分類し、センサ部12にて計測されたセンサ情報と、状態判定部24の指令に基づいて動作パターンを選択する動作パターン選択部22を備える。また、機械学習装置3は、経由点抽出部21により抽出された経由点に基づいてロボットの動作パターンを学習し、動作パターン選択部22で選択された動作パターンを生成する動作パターン生成部23、及び、動作パターン生成部23にて生成された動作とセンサ部12にて計測されたセンサ情報を比較し、動作パターン生成部23へ動作パターン選択部22を介して動作指令を送ることで、動作パターン生成部23の動作タイミングを決定する状態判定部24を有する。ここで、経由点抽出部21、動作パターン選択部22、動作パターン生成部23、及び、状態判定部24は、例えば、図示しないCPUなどのプロセッサ、各種プログラムを格納するROM、演算過程のデータを一時的に格納するRAM、外部記憶装置などの記憶装置にて実現されると共に、CPUなどのプロセッサがROMに格納された各種プログラムを読み出し実行し、実行結果である演算結果をRAM又は外部記憶装置に格納する。なお、説明を解り易くするため、各機能ブロックに分割して示しているが、経由点抽出部21、動作パターン選択部22、動作パターン生成部23、及び、状態判定部24を、1つの演算部としても良く、また、所望の機能ブロックを統合する構成としても良い。
The
次に、図1示す自律学習型ロボット装置1を具体的に、図示しない1つのカメラとロボットアームから構成されるロボット装置2に対し、物体把持動作を学習させた例について示す。
ロボット装置2を構成する制御部11は、機械学習装置3からの動作指令に基づいて、ロボットアームの各駆動部(図示せず)に対しPID制御などを用いて駆動させ、センサ部12は、ロボットの視覚情報であるカメラ画像とロボットアームの各関節角度を計測する。ここで、センサ部12を構成するセンサとして、例えば、ポテンショメータ、エンコーダ、カメラ、或は、電流計等が用いられる。ロボットアームの関節をモータ駆動する場合は、ポテンショメータ、エンコーダ、或いはモータへの電流値により各関節角度が計測される。また、ロボットアームの関節をモータ以外で駆動する場合、例えば、アクチュエータ等により駆動する場合は、カメラによる撮像された画像に対し画像処理を実行することにより関節角度を演算により求める構成とすることが好ましい。
Next, an example will be shown in which the autonomous learning
The
経由点抽出部21Xtrjは、ダイレクトティーチング或いはマスタ・スレーブなどの任意の動作教示方法を用いて物体の把持動作を教示したときに、センサ部12にて計測された各種センサ情報を用いて、経由点を抽出する。図2は図1に示す自律学習型ロボット装置を用いた動作教示例を示す図である。本実施例では、図2に示すように、初期位置が異なる物体(物体A及び物体B)の把持動作を複数回教示し、計測された各時系列データを所望の補間手法(線形補間、ラグランジュ補間、スプライン補間など)を用いて離散化する。なお、カメラにより撮像された画像のように上記補間手法では離散化が困難な時系列データが存在するため、各センサ間で抽出される経由点の数と時刻は、同一となるように離散化を行う。図2に示す動作教示例では、ロボットアームの先端部に取り付けられたロボットハンドが、ある位置に置かれた物体Aに対する動作Aとして、(1)腕を伸ばす、(2)物体Aを掴む、(3)物体Aを把持した状態で戻るという一連の動作が教示される。また、物体Aとは異なる位置に置かれた物体Bに対する動作Bとして、(1)腕を伸ばす、(2)物体Bを掴む、(3)物体Bを把持した状態で戻るという一連の動作が教示される。
The waypoint extraction unit 21Xtrj uses various sensor information measured by the
図3は、教示動作の経由点を抽出する方法を示す図である。例えば、複数のセンサ時系列データDtrj、経由点セット{Dvia,j,i=1,・・・N}が与えられ、各センサにつき7つの経由点を抽出した場合、各センサ情報は図3に示すように、横軸を時間、縦軸を関節角度とするグラフに示されるように抽出される。そして対応するように横軸を時間、縦軸を画像とするグラフとなる。なお、抽出する経由点の数は7つに限らず、適宜所望数設定可能であり、仮に抽出点の数を時系列データ長にした場合、全時系列データを用いることと同意となる。 FIG. 3 is a diagram showing a method of extracting a waypoint of a teaching operation. For example, when a plurality of sensor time series data D trj , a waypoint set {D via, j , i = 1, ... N} are given and seven waypoints are extracted for each sensor, each sensor information is shown in the figure. As shown in 3, the data is extracted as shown in the graph in which the horizontal axis is time and the vertical axis is the joint angle. Then, the graph has a horizontal axis as time and a vertical axis as an image so as to correspond to each other. The number of waypoints to be extracted is not limited to seven, and a desired number can be set as appropriate. If the number of extraction points is set to the time-series data length, it is agreed to use all time-series data.
動作パターン選択部22及び動作パターン生成部23は、経由点抽出部21にて抽出された経由点情報に基づき学習を行う。本実施例では、一例として、動作パターン選択部22及び経由点抽出部21は、人工知能技術の1つであるニューラルネットワークを用いており、経由点抽出部21にて抽出された経由点に対し、所望の時間幅を所望のステップでスライドすることで、多様な動作パターン(腕を伸ばす、掴むなど)を学習させることができる。ニューラルネットワークは、多様な情報を学習させることで、過去の学習経験に基づき、未知の情報に対し適切な情報を推定することが可能である。そのため、ニューラルネットワークを物体の把持動作学習に用いた場合、上述の図2に示した物体A及び物体Bの把持動作を学習させることで、図4に示すように、未教示位置である物体Cの把持動作が可能となる。
The operation
図5は図1に示す機械学習装置3を構成する動作パターン選択部22と動作パターン生成部23の学習方法を説明する図であり、図6は学習データを所定の窓幅及びスライドサイズにて分割し学習する方法を説明する図である。図5では、窓幅を“3”、スライドサイズを“1”とし、物体の把持動作を学習させた場合の動作パターン選択部22と動作パターン生成部23の学習手順を示している。図5の説明をする前に、ここで、図6を用いて窓幅及びスライドサイズによる学習方法について説明する。
FIG. 5 is a diagram illustrating a learning method of an operation
図6では、窓幅を“10”、スライドサイズを“5”とし、物体の把持動作を学習させた場合を一例として示している。図6の上図のグラフは、横軸を時間、縦軸をセンサ値とする、例えば、ロボットの関節角度の時系列データを学習データとした場合を想定している。図6の上図に示すように、窓幅とは所定時の時間幅、ここでは窓幅がW=10の場合を示しており、窓幅(W=10)により学習データのうち部分データX1が抽出される。同様に、窓幅(W=10)により学習データのうち部分データX2及び部分データX3が抽出される。ここで、相互に隣接する部分データX1及び部分データX2、部分データX2及び部分データX3とは所定の時間分遅延している。すなわち、相互に隣接する2つの部分データは、所定の遅延時間分スライドしており、図6の上図ではスライドサイズがS=5の場合を示している。 In FIG. 6, a case where the window width is “10” and the slide size is “5” and the gripping motion of the object is learned is shown as an example. The graph in the upper figure of FIG. 6 assumes a case where the horizontal axis is the time and the vertical axis is the sensor value, for example, the time-series data of the joint angle of the robot is used as the learning data. As shown in the upper figure of FIG. 6, the window width indicates a time width at a predetermined time, here, a case where the window width is W = 10, and the partial data X of the training data is obtained by the window width (W = 10). 1 is extracted. Similarly, the partial data X 2 and the partial data X 3 are extracted from the training data by the window width (W = 10). Here, the partial data X 1 and the partial data X 2 , the partial data X 2 , and the partial data X 3 that are adjacent to each other are delayed by a predetermined time. That is, the two partial data adjacent to each other are slid by a predetermined delay time, and the upper figure of FIG. 6 shows the case where the slide size is S = 5.
以下に学習データを所定の窓幅及びスライドサイズにて分割し学習する方法の概略を説明する。
まず図6の上図に示すように、学習データである時系列データを所定の窓幅(W=10)及びスライドサイズ(S=5)で分割する。
続いて、各部分データについて以下の3つのステップを実行する。
ステップ1では、時刻t=0から時刻t=Wまでのセンサ情報(センサ値)を、図6に示すように、動作パターン生成部23へ入力する。そして各時刻における誤差L*tを計算する。ここで*は分割された部分データの番号を示している。なお、誤差計算については後述する。
ステップ2では、各時刻の誤差L*tに基づき学習データの全体誤差L*を算出する。
ステップ3では、各分データの全体誤差L*を用いて、動作パターン生成部23の重みパラメータの更新を実行する。
上記ステップ1~ステップ3を指定回数若しくは目標誤差に達するまで繰り返し実行する。
The outline of the method of learning by dividing the learning data into predetermined window widths and slide sizes will be described below.
First, as shown in the upper figure of FIG. 6, the time-series data which is the learning data is divided into a predetermined window width (W = 10) and a slide size (S = 5).
Subsequently, the following three steps are executed for each partial data.
In
In
In
The
図5に戻り、機械学習装置3を構成する動作パターン選択部22と動作パターン生成部23の学習方法について説明する。図5の上図は時刻t=0における動作パターン選択部22と動作パターン生成部23の学習について、また、図5の下図は時刻t=1における動作パターン選択部22と動作パターン生成部23の学習について、窓幅(W=3)及びスライドサイズ(S=1)の場合について示している。各窓(上述の各部分データ)における最小時刻の画像から動作パターン選択部22を、動作パターン選択部22の選択結果(選択された動作パターン:Spt)と3ステップ分のセンサ情報から動作パターン生成部23を学習する。具体的には、図5の上図では、時刻t=0におけるロボットの視覚情報であるカメラにて撮像された画像imgt=0とロボットアームの各関節角度xt=0~xt=2を入力し、次時刻の各関節角度の推定値x’t=1~x’t=3と真値xt=1~xt=3との誤差値Eを以下の式(1)により算出する。
Returning to FIG. 5, the learning method of the operation
算出された誤差値Eに基づき、動作パターン選択部22のニューラルネットワークの重みパラメータ(Wc)、及び、動作パターン生成部23のニューラルネットワークの重みパラメータ(Wi,Wr,Wo)を更新する。これにより、動作パターン選択部22には、センサ情報に合った動作パターンを画像特徴量として抽出し、動作パターン生成部23はセンサ情報にあった動作パターンが学習される。
Based on the calculated error value E, the neural network weight parameter (W c ) of the motion
図5の下図に示す時刻t=1における動作パターン選択部22と動作パターン生成部23の学習では、動作パターン選択部22のニューラルネットワークの重みパラメータ(Wc)、及び、動作パターン生成部23のニューラルネットワークの重みパラメータ(Wi,Wr,Wo)として、上述の図5の上図に示した更新後の重みパラメータが用いられ、上述の図5の上図と同様の処理を実行する。
In the learning of the operation
ここで、本実施例の自律学習型ロボット装置1による学習について詳細に説明する。図7は、図1に示す自律学習型ロボット装置の学習時の処理フローを示すフローチャートである。図7に示すように、ステップS11では、機械学習装置3を構成する経由点抽出部21は、センサ部12にて計測されたセンサ時系列データDtrjから経由点Dviaを抽出する。
Here, learning by the autonomous learning
ステップS12では、経由点抽出部21は、機械学習装置3を構成する動作パターン選択部22及び動作パターン生成部23内のニューラルネットワークの初期化を実行する。
ステップS13では、動作パターン生成部23は、経由点抽出部21より経由点Dvia,tを入力し、出力値D’via,t+1を計算する。
In step S12, the
In step S13, the operation
ステップS14では、経由点抽出部21は、出力値D’via,t+1と真値Dvia,t+1との誤差値Eを上記式(1)にて計算する。
ステップS15では、経由点抽出部21は、計算された誤差値Eがあらかじめ設定された目標値以下である場合はステップS16へ進み、学習を終了する。一方、計算された誤差値Eがあらかじめ設定された目標値を超える場合はステップS17へ進む。
In step S14, the
In step S15, if the calculated error value E is equal to or less than the preset target value, the
ステップS17では、経由点抽出部21は、学習回数tがあらかじめ設定された学習回数max以上か否かを判定する。判定の結果、学習回数tがあらかじめ設定された学習回数max以上の場合はステップS16へ進み、学習を終了する。一方、学習回数tがあらかじめ設定された学習回数max未満の場合にはステップS18へ進む。
In step S17, the
ステップS18では、経由点抽出部21は、図5に示したニューラルネットワークの重みパラメータ(Wc,Wi,Wr,Wo)を更新し、ステップS19へ進み学習回数を“1”インクリメントし(学習回数t+1=学習回数t+1)、ステップS13へ戻り以降のステップを繰り返し実行する。
In step S18, the
次に、本実施例の自律学習型ロボット装置1による動作時の詳細について説明する。図8は、図1に示す自律学習型ロボット装置の動作時の処理フローを示すフローチャートである。図8に示すようにステップS21では、機械学習装置3を構成する状態判定部24は、学習済みニューラルネットワークを読み込む。
Next, the details of the operation by the autonomous learning
ステップS22では、状態判定部24は、センサ部12よりロボット装置2のセンサ値Xtを取得する。
ステップS23では、動作パターン選択部22は、状態判定部24から入力されるセンサ値Xtを用いて動作パターンを推定(選択)する。
In step S22, the
In step S23, the operation
ステップS24では、動作パターン生成部23は、データであるセンサ値Xtをニューラルネットワーク入力し、出力値Xtargetを計算する。
ステップS25では、動作パターン生成部23は、出力値Xtargetをロボット装置2の入力部(制御部11)へ出力する。
In step S24, the operation
In step S25, the operation
ステップS26では、状態判定部24は、センサ部12よりロボット装置2のセンサ値Xnowを取得する。
ステップ27では、状態判定部24は、以下の式(2)に示す条件を満たすか否かを判定する。
In step S26, the
In step 27, the
判定の結果、条件を満たさない場合、すなわち、出力値Xtarget(動作パターン生成部23がステップS24にて生成した目標値)に、センサ値Xnowが所定の範囲ε内に存在しない場合は、ステップS26へ戻る。一方、出力値Xtarget(動作パターン生成部23がステップS24にて生成した目標値)に、センサ値Xnowが所定の範囲ε内である場合にはステップS28へ進む。
As a result of the determination, when the condition is not satisfied, that is, when the sensor value X now does not exist within the predetermined range ε in the output value X target (target value generated by the operation
ステップS28では、状態判定部24は、ループカウントがあらかじめ設定した実行回数に達したか否かを判定する。判定の結果、ループカウントがあらかじめ設定した実行回数に達した場合はステップS29へ進み動作を終了する。一方、ループカウントがあらかじめ設定した実行回数に達していない場合には、ステップS30にてループカウントを更新しステップS22へ戻り、以降のステップを繰り返し実行する。
In step S28, the
図9は、図1に示す自律学習型ロボット装置の動作時のデータの流れを示す図である。図9において、上図は時刻tの画像と関節角度情報を入力し、時刻t+1の関節角度を推定する状態でのデータの流れを示している。また、図9において、下図は目標位置に到達するまで、関節角度情報を逐次推定する状態でのデータの流れを示している。 FIG. 9 is a diagram showing a data flow during operation of the autonomous learning type robot device shown in FIG. 1. In FIG. 9, the above figure shows the flow of data in a state where an image at time t and joint angle information are input and the joint angle at time t + 1 is estimated. Further, in FIG. 9, the figure below shows the flow of data in a state where joint angle information is sequentially estimated until the target position is reached.
図9の上図に示すように、教示動作を学習した動作パターン選択部22は、センサ情報であるカメラにて撮像された画像tに基づき初期動作パターンを選択し、選択された動作パターンを動作パターン生成部23へ出力する。動作パターン生成部23は、動作パターン選択部22から入力される選択された動作パターン及び関節角度xtに基づき逐次動作を生成し、動作指令値としてロボット装置2の制御部11へ出力することで、環境変化に基づいた動作生成が実現できる。
図9の下図に示すように、状態判定部24が、上述の式(2)に示す条件を満たすまで状態の判定を行い、動作パターン生成部23が状態判定部24による判定結果に基づいて逐次動作生成を行うことで、動作パターン生成部23の動作タイミングを調整する。
As shown in the upper figure of FIG. 9, the motion
As shown in the lower figure of FIG. 9, the
以上、教示動作を所定の時間幅で切り出し分割学習させることで、多様な動作パターンの獲得が可能である。またセンサ情報に基づいて逐次動作パターンの選択と動作パターンを生成することで、環境変化に対し逐次適切な動作生成が可能な自律学習型ロボット装置1を実現し得る。すなわち、本構成を用いて自律学習型ロボット装置1に静止物体の把持動作を学習させることで、移動物体の把持動作生成が可能となる。
As described above, it is possible to acquire various motion patterns by cutting out the teaching motion in a predetermined time width and performing split learning. Further, by selecting a sequential operation pattern and generating an operation pattern based on the sensor information, it is possible to realize an autonomous learning
本実施例では、ロボット装置2のロボットアームの関節角度の抽出及び動作パターンの学習を一例として説明したが、これに代えて、ロボット装置2のロボットアームの手先位置や各関節トルクとしても良い。
In this embodiment, extraction of the joint angle of the robot arm of the
また、本実施例では、最小時刻のカメラにて撮像された画像から動作パターンの選択を行っていたが、窓幅分の画像全てを用いて動作パターン選択部22の学習と選択を行う構成としても良い。
Further, in this embodiment, the operation pattern is selected from the images captured by the camera at the minimum time, but the operation
本実施例では、ロボット装置2のロボットアームの各関節角度を用いて経由点の抽出を行っていたが、ロボットアームの関節角度情報のように、各センサ情報に依存関係がある場合、ロボットアームのセンサ情報をロボットアームの手先位置に変換した後に、運動最小化モデル(トルク変化最小モデル、筋張力変化最小モデル、運動指令最小モデルなど)を用いて経由点の抽出を行う構成としても良い。
In this embodiment, the waypoints are extracted using each joint angle of the robot arm of the
本実施例では、動作パターン選択部22及び動作パターン生成部23を一括で学習することにより、画像特徴量として動作パターン選択部22の選択結果を抽出する構成を一例として説明した。すなわち、上述の図5に示した誤差計算の結果(誤差値E)を動作パターン選択部22及び動作パターン生成部23へフィードバックすることにより、全ての重みパラメータ(Wc,Wi,Wr,Wo)を更新する構成について説明した。これに代えて、動作パターン選択部22及び動作パターン生成部23を分割で学習させ、動作パターン選択部22の選択結果には、物体の名称や位置などを出力するよう構成しても良い。この場合、誤差計算の結果(誤差値E)に基づき、それぞれ、動作パターン選択部22及び動作パターン生成部23の重みパラメータを更新する構成となる。
In this embodiment, a configuration in which the selection result of the operation
更に、本実施例では、ロボット装置2内にセンサ部12を備える構成について説明したがこれに限られるものではない。例えば、監視カメラやモーションキャプチャのような外界センサをロボット装置2のセンサ部12としても良い。
Further, in the present embodiment, the configuration in which the
以上の通り本実施例によれば、ロボットの状態や環境変化に対しロバストであって、異なる種別の動作パターンの実行が可能な自律学習型ロボット装置及び自律学習型ロボット装置の動作生成方法を提供することが可能となる。
また、本実施例によれば、経由点抽出部21にて学習データを抽出し、学習データ間のバラつきを抑えることで、学習性能と学習効率の向上が可能になる。
As described above, according to the present embodiment, there is provided a motion generation method of an autonomous learning type robot device and an autonomous learning type robot device that are robust to changes in the robot state and environment and can execute different types of motion patterns. It becomes possible to do.
Further, according to the present embodiment, the learning performance and the learning efficiency can be improved by extracting the learning data by the
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。 The present invention is not limited to the above-described embodiment, and includes various modifications. For example, the above-described embodiment has been described in detail in order to explain the present invention in an easy-to-understand manner, and is not necessarily limited to the one including all the described configurations.
1…自律学習型ロボット装置
2…ロボット装置
3…機械学習装置
11…制御部
12…センサ部
21…経由点抽出部
22…動作パターン選択部
23…動作パターン生成部
24…状態判定部
1 ... Autonomous learning
Claims (10)
前記機械学習装置は、
センサ部により計測される前記ロボット装置の状態及び環境情報を含むセンサ情報からロボット装置の動作経由点を抽出する経由点抽出部と、
前記経由点抽出部により抽出された経由点に対し所定の時間幅毎に動作パターンを学習し、前記センサ情報に基づき動作パターンを選択する動作パターン選択部と、
前記経由点抽出部により抽出された経由点に対し所定の時間幅毎にロボットの動作パターンを学習し、前記センサ情報及びに前記動作パターン選択部により選択された動作パターンに基づき動作パターンを生成し、前記ロボット装置の制御部へ動作指令として出力する動作パターン生成部と、
前記動作パターン生成部により生成された動作パターンと前記センサ情報とを比較し、前記ロボット装置の制御部へ動作パターンを出力するタイミングを決定する状態判定部と、
を備えることを特徴とする自律学習型ロボット装置。 An autonomous learning type robot device including at least a robot device having a control unit and a machine learning device electrically or communicably connected to the robot device.
The machine learning device is
A waypoint extraction unit that extracts the operation waypoints of the robot device from the sensor information including the state and environment information of the robot device measured by the sensor unit.
An operation pattern selection unit that learns an operation pattern for each waypoint extracted by the waypoint extraction unit at predetermined time widths and selects an operation pattern based on the sensor information.
The robot operation pattern is learned for each waypoint extracted by the waypoint extraction unit at predetermined time widths, and an operation pattern is generated based on the sensor information and the operation pattern selected by the operation pattern selection unit. , An operation pattern generation unit that outputs an operation command to the control unit of the robot device,
A state determination unit that compares the operation pattern generated by the operation pattern generation unit with the sensor information and determines the timing of outputting the operation pattern to the control unit of the robot device.
An autonomous learning type robot device characterized by being equipped with.
前記状態判定部は、前記動作パターン生成部が生成する目標値と前記センサ情報とを比較し、比較結果に基づき前記タイミングを決定することを特徴とする自律学習型ロボット装置。 In the autonomous learning type robot device according to claim 1,
The state determination unit is an autonomous learning type robot device characterized in that the target value generated by the operation pattern generation unit is compared with the sensor information and the timing is determined based on the comparison result.
前記機械学習装置は、少なくとも学習時における前記動作パターン生成部により生成された動作パターンの誤差値を求め、求めた誤差値があらかじめ設定された目標値以下である場合に学習を終了することを特徴とする自律学習型ロボット装置。 In the autonomous learning type robot device according to claim 2.
The machine learning device is characterized in that at least an error value of an operation pattern generated by the operation pattern generation unit at the time of learning is obtained, and learning is terminated when the obtained error value is equal to or less than a preset target value. Autonomous learning type robot device.
前記状態判定部による比較結果が、前記動作パターン生成部が生成する目標値と前記センサ情報との差分が所定の範囲内であるとき、前記動作パターン生成部は生成した動作パターンを前記ロボット装置の制御部へ動作指令として出力することを特徴とする自律学習型ロボット装置。 In the autonomous learning type robot device according to claim 2.
When the comparison result by the state determination unit shows that the difference between the target value generated by the operation pattern generation unit and the sensor information is within a predetermined range, the operation pattern generation unit uses the generated operation pattern of the robot device. An autonomous learning type robot device characterized by outputting as an operation command to a control unit.
前記状態判定部による比較結果が、前記動作パターン生成部が生成する目標値と前記センサ情報との差分が所定の範囲内であるとき、前記動作パターン生成部は生成した動作パターンを前記ロボット装置の制御部へ動作指令として出力することを特徴とする自律学習型ロボット装置。 In the autonomous learning type robot device according to claim 3.
When the comparison result by the state determination unit shows that the difference between the target value generated by the operation pattern generation unit and the sensor information is within a predetermined range, the operation pattern generation unit uses the generated operation pattern of the robot device. An autonomous learning type robot device characterized by outputting as an operation command to a control unit.
前記動作パターン選択部及び前記動作パターン生成部は、それぞれニューラルネットワークを有し、前記求めた誤差値をフィードバックすることにより前記動作パターン選択部及び前記動作パターン生成部のニューラルネットワークの重みパラメータを一括更新することを特徴とする自律学習型ロボット装置。 In the autonomous learning type robot device according to claim 5.
The operation pattern selection unit and the operation pattern generation unit each have a neural network, and by feeding back the obtained error value, the weight parameters of the neural networks of the operation pattern selection unit and the operation pattern generation unit are collectively updated. An autonomous learning type robot device characterized by doing.
センサ部により計測される前記ロボット装置の状態及び環境情報を含むセンサ情報からロボット装置の動作経由点を経由点抽出部により抽出し、
前記抽出された経由点に対し所定の時間幅毎に動作パターンを学習し、前記センサ情報に基づき動作パターンを動作パターン選択部により選択し、
動作パターン生成部により、前記抽出された経由点に対し所定の時間幅毎にロボットの動作パターンを学習し、前記センサ情報及びに前記動作パターン選択部により選択された動作パターンに基づき動作パターンを生成し、前記ロボット装置の制御部へ動作指令として出力し、
状態判定部により、前記動作パターン生成部により生成された動作パターンと前記センサ情報とを比較し、前記ロボット装置の制御部へ動作パターンを出力するタイミングを決定することを特徴とする自律学習型ロボット装置の動作生成方法。 It is a motion generation method of an autonomous learning type robot device including at least a robot device having a control unit and a machine learning device electrically or communicably connected to the robot device.
From the sensor information including the state and environment information of the robot device measured by the sensor unit, the operation waypoints of the robot device are extracted by the waypoint extraction unit.
An operation pattern is learned for each of the extracted transit points at predetermined time widths, and an operation pattern is selected by the operation pattern selection unit based on the sensor information.
The motion pattern generation unit learns the motion pattern of the robot for each of the extracted transit points at predetermined time widths, and generates an motion pattern based on the sensor information and the motion pattern selected by the motion pattern selection unit. Then, it is output as an operation command to the control unit of the robot device.
The autonomous learning robot is characterized in that the state determination unit compares the operation pattern generated by the operation pattern generation unit with the sensor information and determines the timing of outputting the operation pattern to the control unit of the robot device. How to generate the operation of the device.
前記状態判定部は、前記動作パターン生成部が生成する目標値と前記センサ情報とを比較し、比較結果に基づき前記タイミングを決定することを特徴とする自律学習型ロボット装置の動作生成方法。 In the motion generation method of the autonomous learning type robot device according to claim 7.
The state determination unit is an operation generation method of an autonomous learning type robot device, characterized in that a target value generated by the operation pattern generation unit is compared with the sensor information, and the timing is determined based on the comparison result.
少なくとも学習時における前記動作パターン生成部により生成された動作パターンの誤差値を求め、求めた誤差値があらかじめ設定された目標値以下である場合に学習を終了することを特徴とする自律学習型ロボット装置の動作生成方法。 In the motion generation method of the autonomous learning type robot device according to claim 8.
An autonomous learning robot characterized in that at least an error value of an operation pattern generated by the operation pattern generation unit at the time of learning is obtained, and learning is terminated when the obtained error value is equal to or less than a preset target value. How to generate the operation of the device.
前記状態判定部による比較結果が、前記動作パターン生成部が生成する目標値と前記センサ情報との差分が所定の範囲内であるとき、前記動作パターン生成部は生成した動作パターンを前記ロボット装置の制御部へ動作指令として出力することを特徴とする自律学習型ロボット装置の動作生成方法。 In the motion generation method of the autonomous learning type robot device according to claim 9.
When the comparison result by the state determination unit shows that the difference between the target value generated by the operation pattern generation unit and the sensor information is within a predetermined range, the operation pattern generation unit uses the generated operation pattern of the robot device. An operation generation method for an autonomous learning robot device, which is characterized by outputting an operation command to a control unit.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018156175A JP7034035B2 (en) | 2018-08-23 | 2018-08-23 | Motion generation method for autonomous learning robot device and autonomous learning robot device |
CN201980055473.2A CN112638596B (en) | 2018-08-23 | 2019-02-19 | Autonomous learning robot device and method for generating operation of autonomous learning robot device |
PCT/JP2019/006161 WO2020039616A1 (en) | 2018-08-23 | 2019-02-19 | Autonomous learning robot device and operation generation method for autonomous learning robot device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018156175A JP7034035B2 (en) | 2018-08-23 | 2018-08-23 | Motion generation method for autonomous learning robot device and autonomous learning robot device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020028950A JP2020028950A (en) | 2020-02-27 |
JP7034035B2 true JP7034035B2 (en) | 2022-03-11 |
Family
ID=69592069
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018156175A Active JP7034035B2 (en) | 2018-08-23 | 2018-08-23 | Motion generation method for autonomous learning robot device and autonomous learning robot device |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP7034035B2 (en) |
CN (1) | CN112638596B (en) |
WO (1) | WO2020039616A1 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111538341B (en) * | 2020-06-02 | 2023-04-14 | 大连海事大学 | Ship dynamic positioning optimization control method based on width learning self-adaptive dynamic planning |
CN112051780B (en) * | 2020-09-16 | 2022-05-17 | 北京理工大学 | Brain-computer interface-based mobile robot formation control system and method |
CN116917086A (en) * | 2021-02-18 | 2023-10-20 | 三菱电机株式会社 | Control device, robot system, learning device, control method, and program |
CN113283530B (en) * | 2021-06-08 | 2022-11-15 | 重庆大学 | Image classification system based on cascade characteristic blocks |
JP2023146535A (en) * | 2022-03-29 | 2023-10-12 | 株式会社日立製作所 | Operation command generation device and operation command generation method |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006293442A (en) | 2005-04-05 | 2006-10-26 | Sony Corp | Information processor, information processing method, and program |
JP2015168053A (en) | 2014-03-04 | 2015-09-28 | ファナック株式会社 | Robot controller having function to simplify teaching operation and improve motion performance of robot |
JP2016221660A (en) | 2015-06-03 | 2016-12-28 | 富士通株式会社 | Determination method, determination program and determination device |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10111701A (en) * | 1996-10-05 | 1998-04-28 | Ricoh Co Ltd | Learning-type automatic cell device and learning method |
JP2002264057A (en) * | 2001-03-12 | 2002-09-18 | Sony Corp | Robot device, action control method for robot device, program and recording medium |
JP4206305B2 (en) * | 2003-06-26 | 2009-01-07 | 独立行政法人科学技術振興機構 | Control method and apparatus for multi-fingered robot hand |
JP4492395B2 (en) * | 2005-03-09 | 2010-06-30 | トヨタ自動車株式会社 | Legged robot and its motion control method |
JP4746349B2 (en) * | 2005-05-18 | 2011-08-10 | 日本電信電話株式会社 | Robot action selection device and robot action selection method |
JP4837116B2 (en) * | 2010-03-05 | 2011-12-14 | ファナック株式会社 | Robot system with visual sensor |
JP2018008316A (en) * | 2014-11-21 | 2018-01-18 | ヴイストン株式会社 | Learning type robot, learning type robot system, and program for learning type robot |
JP2016215357A (en) * | 2015-05-26 | 2016-12-22 | 国立大学法人 名古屋工業大学 | Parameter estimation apparatus, parameter estimation method, program, and control apparatus |
JP6522488B2 (en) * | 2015-07-31 | 2019-05-29 | ファナック株式会社 | Machine learning apparatus, robot system and machine learning method for learning work taking-out operation |
JP6333795B2 (en) * | 2015-11-24 | 2018-05-30 | ファナック株式会社 | Robot system with simplified teaching and learning performance improvement function by learning |
JP6549545B2 (en) * | 2016-10-11 | 2019-07-24 | ファナック株式会社 | Control device and robot system for learning a human action and controlling a robot |
JP6392825B2 (en) * | 2016-11-01 | 2018-09-19 | ファナック株式会社 | Robot controller with learning control function |
CN106600000A (en) * | 2016-12-05 | 2017-04-26 | 中国科学院计算技术研究所 | Method and system for human-robot motion data mapping |
JP6484265B2 (en) * | 2017-02-15 | 2019-03-13 | ファナック株式会社 | Robot system having learning control function and learning control method |
CN108115681B (en) * | 2017-11-14 | 2020-04-07 | 深圳先进技术研究院 | Simulation learning method and device for robot, robot and storage medium |
-
2018
- 2018-08-23 JP JP2018156175A patent/JP7034035B2/en active Active
-
2019
- 2019-02-19 WO PCT/JP2019/006161 patent/WO2020039616A1/en active Application Filing
- 2019-02-19 CN CN201980055473.2A patent/CN112638596B/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006293442A (en) | 2005-04-05 | 2006-10-26 | Sony Corp | Information processor, information processing method, and program |
JP2015168053A (en) | 2014-03-04 | 2015-09-28 | ファナック株式会社 | Robot controller having function to simplify teaching operation and improve motion performance of robot |
JP2016221660A (en) | 2015-06-03 | 2016-12-28 | 富士通株式会社 | Determination method, determination program and determination device |
Also Published As
Publication number | Publication date |
---|---|
CN112638596A (en) | 2021-04-09 |
CN112638596B (en) | 2024-02-20 |
WO2020039616A1 (en) | 2020-02-27 |
JP2020028950A (en) | 2020-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7034035B2 (en) | Motion generation method for autonomous learning robot device and autonomous learning robot device | |
Kumar et al. | Optimal control with learned local models: Application to dexterous manipulation | |
Pervez et al. | Learning deep movement primitives using convolutional neural networks | |
Mitrovic et al. | Adaptive optimal feedback control with learned internal dynamics models | |
Jordan et al. | Forward models: Supervised learning with a distal teacher | |
US11305427B2 (en) | Robot system and robot control method | |
KR102239186B1 (en) | System and method for automatic control of robot manipulator based on artificial intelligence | |
CN109397285B (en) | Assembly method, assembly device and assembly equipment | |
JP6811688B2 (en) | Multi-operation unit integrated device, its control method, and autonomous learning robot device | |
WO2020138446A1 (en) | Robot control device, robot system, and robot control method | |
Rozo et al. | Robot learning from demonstration of force-based tasks with multiple solution trajectories | |
JP2020011328A (en) | Automatic route generating device | |
Celemin et al. | Coach: Learning continuous actions from corrective advice communicated by humans | |
Lober et al. | Multiple task optimization using dynamical movement primitives for whole-body reactive control | |
De La Cruz et al. | Online learning of inverse dynamics via gaussian process regression | |
Nemec et al. | Speed adaptation for self-improvement of skills learned from user demonstrations | |
JP6567998B2 (en) | Control method | |
Deng et al. | Learning human compliant behavior from demonstration for force-based robot manipulation | |
EP3428746B1 (en) | A method and apparatus for providing an adaptive self-learning control program for deployment on a target field device | |
James et al. | Prophetic goal-space planning for human-in-the-loop mobile manipulation | |
Jimenez-Fabian et al. | Online reconfiguration of a variable-stiffness actuator | |
EP2898996A1 (en) | Method of controlling a robotic system and a robotic system controller for implementing this method | |
Zhang et al. | Auto-conditioned recurrent mixture density networks for learning generalizable robot skills | |
EP4175795B1 (en) | Transfer between tasks in different domains | |
Wu et al. | Infer and adapt: Bipedal locomotion reward learning from demonstrations via inverse reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210120 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220208 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220301 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7034035 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |