JP2020123338A - ディープラーニング基盤装置の学習に使用されるバーチャル世界シミュレータの物理エンジンをキャリブレーションする方法及び装置、そしてそのためのリアル状態ネットワークを学習する方法及びそれを利用した学習装置 - Google Patents
ディープラーニング基盤装置の学習に使用されるバーチャル世界シミュレータの物理エンジンをキャリブレーションする方法及び装置、そしてそのためのリアル状態ネットワークを学習する方法及びそれを利用した学習装置 Download PDFInfo
- Publication number
- JP2020123338A JP2020123338A JP2020007174A JP2020007174A JP2020123338A JP 2020123338 A JP2020123338 A JP 2020123338A JP 2020007174 A JP2020007174 A JP 2020007174A JP 2020007174 A JP2020007174 A JP 2020007174A JP 2020123338 A JP2020123338 A JP 2020123338A
- Authority
- JP
- Japan
- Prior art keywords
- virtual
- information
- real
- learning
- frame information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 75
- 238000000034 method Methods 0.000 title claims description 133
- 230000009471 action Effects 0.000 claims abstract description 150
- 230000004044 response Effects 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims description 103
- 239000013598 vector Substances 0.000 claims description 78
- 238000013527 convolutional neural network Methods 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 8
- 230000002787 reinforcement Effects 0.000 claims description 6
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 238000002945 steepest descent method Methods 0.000 claims description 3
- 230000007423 decrease Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/588—Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/10—Interfaces, programming languages or software development kits, e.g. for simulating neural networks
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/08—Active safety systems predicting or avoiding probable or impending collision or attempting to minimise its consequences
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
- B60W40/02—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to ambient conditions
- B60W40/04—Traffic conditions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
- G06V20/584—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of vehicle lights or traffic lights
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/10—Numerical modelling
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Automation & Control Theory (AREA)
- Mechanical Engineering (AREA)
- Transportation (AREA)
- Multimedia (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Geometry (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- Neurology (AREA)
- Human Computer Interaction (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
- Feedback Control In General (AREA)
Abstract
Description
1100:メモリ
1200:プロセッサ
2000:学習装置
2100:メモリ
2200:プロセッサ
100: バーチャル世界、シミュレータ
110: 物理エンジン
200: リアル状態ネットワーク
300: ディープラーニング基盤装置
Claims (22)
- ディープラーニング(Deep Learning)基盤装置の学習に使用されるバーチャル世界シミュレータ(Virtual World Simulator)の物理エンジン(Physics Engine)をキャリブレーション(Calibration)する方法において、
(a)バーチャル環境(Virtual Environment)上のバーチャル現在状態(Virtual Current State)に対応するバーチャル現在フレーム(Virtual Current Frame)情報が前記バーチャル世界シミュレータから取得されると、キャリブレーション装置が、(i)前記バーチャル現在フレーム情報を前記ディープラーニング基盤装置に伝送することによって、前記ディープラーニング基盤装置をもって、以前の学習パラメータを利用して前記バーチャル現在フレーム情報に対して演算を適用させて、前記バーチャル現在フレーム情報に対応するバーチャルアクション(Virtual Action)情報を出力させるプロセス、(ii)前記バーチャル現在フレーム情報と前記バーチャルアクション情報とを前記バーチャル世界シミュレータの前記物理エンジンに伝送することによって、前記物理エンジンをもって、以前のキャリブレーション済みパラメータ(Previous Calibrated Parameter)を利用して前記バーチャル現在フレーム情報と前記バーチャルアクション情報とに対して演算を適用させて、前記バーチャル現在フレーム情報と前記バーチャルアクション情報とに対応するバーチャルネクストフレーム(Virtual Next Frame)情報を出力させるプロセス、及び(iii)前記バーチャル現在フレーム情報と前記バーチャルアクション情報とをリアル状態ネットワーク(Real State Network)(前記リアル状態ネットワークはリアル環境(Real Environment)上の多数のリアル最近のフレーム(Real Recent Frame)情報において前記ディープラーニング基盤装置により遂行されたリアルアクション(Real Action)に関するリアルアクション情報に応答して多数の予測ネクストフレーム(Predicted Next Frame)情報を出力するように学習された状態である)に伝送することによって、前記リアル状態ネットワークをもって学習された予測パラメータを利用して、前記バーチャル現在フレーム情報に対応する多数のバーチャル最近のフレーム(Virtual Recent Frame)情報と前記バーチャルアクション情報とに対してアクションを適用させて予測リアルネクストフレーム(Predicted Real Next Frame)情報を出力させるプロセスを遂行する段階;及び
(b)前記キャリブレーション装置が、前記バーチャルネクストフレーム情報と前記予測リアルネクストフレーム情報とを参照して生成された少なくとも一つのロスが最小化されるように、前記物理エンジンの前記以前のキャリブレーション済みパラメータをキャリブレーションし、最適化して、現在のキャリブレーション済みパラメータ(Current Calibrated Parameter)を最適化されたパラメータとして生成するプロセスを遂行することを特徴とする段階;
を含むことを特徴とする方法。 - (c)前記キャリブレーション装置が、前記バーチャルアクション情報に対応するリワード(Reward)情報と前記バーチャルネクストフレーム情報とを前記ディープラーニング基盤装置に伝送することによって、前記ディープラーニング基盤装置をもって、前記バーチャルネクストフレーム情報と前記リワード情報とを利用したオンポリシー強化学習(On−Policy Reinforcement Learning)を通じて前記以前の学習パラメータをアップデートさせる段階;
をさらに含むことを特徴とする請求項1に記載の方法。 - 前記(a)段階の前記(iii)プロセスで、
前記キャリブレーション装置は、前記バーチャル現在フレーム情報と前記バーチャルアクション情報とを前記リアル状態ネットワークに伝送するプロセスを遂行することによって、前記リアル状態ネットワークをもって、前記バーチャル現在フレーム情報と以前に伝送されたk個のバーチャル以前フレーム情報とを参照して前記多数のバーチャル最近フレーム情報を生成させることを特徴とする請求項1に記載の方法。 - 前記(iii)プロセスで、
前記キャリブレーション装置は、前記バーチャル現在フレーム情報と前記バーチャルアクション情報とを前記リアル状態ネットワークに伝送するプロセスを遂行することによって、前記リアル状態ネットワークをもって、(iii−1)(iii−1−1)前記バーチャル現在フレーム情報と前記k個のバーチャル以前フレーム情報とをコンカチネート(Concatenating)して生成されたバーチャル現在フレーム状態の和(Virtual Current Frame State Sum)に対してコンボリューション演算(Convolution Operation)を適用して第1次元ベクトル(Dimension Vector)を生成させ、(iii−1−2)前記バーチャルアクション情報に対してFC(Fully Connected)演算を適用して第2次元ベクトルを生成させ、(iii−2)前記第1次元ベクトルと前記第2次元ベクトルとのコンカチネーション結果に対してデコンボリューション演算を適用して前記予測リアルネクストフレーム情報を生成させることを特徴とする請求項3に記載の方法。 - 前記バーチャル現在フレーム状態の和は、(i)HxWxCテンソル(Tensor)である前記バーチャル現在フレーム情報と(ii)k個の前記バーチャル以前フレーム情報とをコンカチネートして生成されたHxWx(K+1)テンソルであり、
前記第1次元ベクトルはHWC次元ベクトルであり、
前記第2次元ベクトルをL次元ベクトルとする場合、前記予測リアルネクストフレーム情報は、前記第1次元ベクトルと前記第2次元ベクトルとをコンカチネートして生成された1x1x(HWC+L)テンソルに対してデコンボリューション演算を適用して生成されたHxWxCテンソルであることを特徴とする請求項4に記載の方法。 - 前記(b)段階で、
前記キャリブレーション装置は、(i)前記以前のキャリブレーション済みパラメータのうち一つの以前のキャリブレーション済みパラメータを選択するプロセス、(ii)前記選択された一つの以前のキャリブレーション済みパラメータを、前記ロスを利用してキャリブレーションし、予め設定された学習率に応じてキャリブレーションして、一つの現在のキャリブレーション済みパラメータを最適化されたパラメータ(Optimized Parameter)として生成するプロセス、及び(iii)(iii−1)前記物理エンジンをもって、前記一つの現在のキャリブレーション済みパラメータと、前記一つの以前のキャリブレーション済みパラメータを除いた残りの以前のキャリブレーション済みパラメータを利用して、前記バーチャル現在フレーム情報と前記バーチャルアクション情報とに対して演算を適用させて、新たなバーチャルネクストフレーム情報を生成させるプロセス、及び(iii−2)前記新たなバーチャルネクストフレーム情報と前記予測リアルネクストフレーム情報とを参照して生成された少なくとも一つの新たなロスを利用して前記ロスが減少したのかを確認するプロセスを、前記ロスが減少するまで繰り返すことを特徴とする請求項1に記載の方法。 - 前記以前のキャリブレーション済みパラメータ全てに対して前記ロスが減少しなかった場合、前記キャリブレーション装置は、前記予め設定された学習率を減少させ、前記(i)プロセスと、前記(ii)プロセスと、前記(iii)プロセスとを遂行することを特徴とする請求項6に記載の方法。
- リアル環境(Real Environment)においてディープラーニング(Deep Learning)基盤装置により多数のリアル最近のフレーム(Real Recent Frame)情報で遂行されたリアルアクション(Real Action)に関するリアルアクション情報に対応する予測ネクストフレーム(Predicted Next Frame)情報を生成するリアル状態ネットワーク(Real State Network)を学習する方法において、
(a)前記リアル環境において前記ディープラーニング基盤装置により遂行された前記リアルアクションに対する前記多数のリアルアクション情報に対応する多数の軌跡(Trajectory)情報がトレーニングデータとして取得されると、学習装置が、特定の軌跡情報の特定時点におけるリアル現在フレーム(Real Current Frame)情報とk個の以前のリアルフレーム(Previous Real Frame)情報とを参照して多数の学習用最近フレーム情報を生成するプロセスを遂行する段階;
(b)前記学習装置が、前記特定時点における前記特定の軌跡情報のリアル現在のアクション情報を参照して取得された学習用アクション情報と前記多数の学習用最近フレーム情報とを前記リアル状態ネットワークに入力することによって、前記リアル状態ネットワークをもって予測パラメータを利用して前記多数の学習用最近フレーム情報と前記学習用アクション情報とに対して演算を適用させて前記予測ネクストフレーム情報を出力させるプロセスを遂行する段階;及び
(c)前記学習装置が、前記特定の軌跡情報における前記リアル現在フレーム情報の次のリアルネクストフレーム情報と前記予測ネクストフレーム情報とを参照して生成された少なくとも一つのロスを利用して、前記ロスが最小化されるように前記予測パラメータをアップデートするプロセスを遂行する段階;
を含むことを特徴とする方法。 - 前記(b)段階で、
前記学習装置は、(i)(i−1)前記多数の学習用最近フレーム情報をコンカチネート(Concatenating)して生成された学習用現在フレーム状態の和(Current Frame State Sum)を前記リアル状態ネットワークのCNN(Convolutional Neural Network)に入力して、前記CNNをもって、前記学習用現在フレーム状態の和に対してコンボリューション演算を適用して第1の特徴(Feature)を出力させるプロセス、及び(i−2)前記学習用アクション情報を前記リアル状態ネットワークの少なくとも一つのFCレイヤ(Fully Connected Layer)に入力して、前記少なくとも一つのFCレイヤをもって、前記学習用アクション情報に対してFC演算を適用して第2の特徴を出力させるプロセス、及び(ii)前記第1の特徴と前記第2の特徴とをコンカチネートして生成されたコンカチネート済み特徴をデコンボリューションレイヤ(Deconvolution Layer)に入力して、前記デコンボリューションレイヤをもって、前記コンカチネート済み特徴に対してデコンボリューション演算を適用して前記予測ネクストフレーム情報を出力させるプロセスを遂行することを特徴とする請求項8に記載の方法。 - 前記学習装置は、(i)前記CNNをもって、HxWxCテンソル(Tensor)である前記多数の学習用最近フレーム情報をコンカチネートして生成されたHxWx(K+1)テンソルである前記学習用現在フレーム状態の和を、HWC次元ベクトル(Dimension Vector)である前記第1の特徴として出力させるプロセス、(ii)前記少なくとも一つのFCレイヤをもって、3次元ベクトルである前記学習用アクション情報を、L次元ベクトルである前記第2の特徴として出力させるプロセス、及び(iii)前記デコンボリューションレイヤをもって、前記第1の特徴と前記第2の特徴とをコンカチネートして生成された1x1x(HWC+L)テンソルを、HxWxCテンソルである前記予測ネクストフレーム情報として出力させるプロセスを遂行することを特徴とする請求項9に記載の方法。
- 前記学習装置は、前記ロスを利用した最急降下法(Gradient Descent)によって前記少なくとも一つのCNNと、前記少なくとも一つのFCレイヤと、前記デコンボリューションレイヤとのうち少なくとも一つのパラメータをアップデートすることを特徴とする請求項9に記載の方法。
- ディープラーニング(Deep Learning)基盤装置の学習に使用されるバーチャル世界シミュレータ(Virtual World Simulator)の物理エンジン(Physics Engine)をキャリブレーション(Calibration)するキャリブレーション装置において、
インストラクションを格納する少なくとも一つのメモリと、
(I)バーチャル環境(Virtual Environment)上のバーチャル現在状態(Virtual Current State)に対応するバーチャル現在フレーム(Virtual Current Frame)情報が前記バーチャル世界シミュレータから取得されると、(i)前記バーチャル現在フレーム情報を前記ディープラーニング基盤装置に伝送することによって、前記ディープラーニング基盤装置をもって、以前の学習パラメータを利用して前記バーチャル現在フレーム情報に対して演算を適用させて、前記バーチャル現在フレーム情報に対応するバーチャルアクション(Virtual Action)情報を出力させるプロセス、(ii)前記バーチャル現在フレーム情報と前記バーチャルアクション情報とを前記バーチャル世界シミュレータの前記物理エンジンに伝送することによって、前記物理エンジンをもって、以前のキャリブレーション済みパラメータ(Previous Calibrated Parameter)を利用して前記バーチャル現在フレーム情報と前記バーチャルアクション情報とに対して演算を適用させて、前記バーチャル現在フレーム情報と前記バーチャルアクション情報とに対応するバーチャルネクストフレーム(Virtual Next Frame)情報を出力させるプロセス、及び(iii)前記バーチャル現在フレーム情報と前記バーチャルアクション情報とをリアル状態ネットワーク(Real State Network)(前記リアル状態ネットワークはリアル環境(Real Environment)上の多数のリアル最近のフレーム(Real Recent Frame)情報において前記ディープラーニング基盤装置により遂行されたリアルアクション(Real Action)に関するリアルアクション情報に応答して多数の予測ネクストフレーム(Predicted Next Frame)情報を出力するように学習された状態である)に伝送することによって、前記リアル状態ネットワークをもって学習された予測パラメータを利用して、前記バーチャル現在フレーム情報に対応する多数のバーチャル最近のフレーム(Virtual Recent Frame)情報と前記バーチャルアクション情報とに対してアクションを適用させて予測リアルネクストフレーム(Predicted Real Next Frame)情報を出力させるプロセス;及び(II)前記バーチャルネクストフレーム情報と前記予測リアルネクストフレーム情報とを参照して生成された少なくとも一つのロスが最小化されるように、前記物理エンジンの前記以前のキャリブレーション済みパラメータをキャリブレーションし、最適化して現在のキャリブレーション済みパラメータ(Current Calibrated Parameter)を最適化されたパラメータとして生成するプロセスを遂行するための前記インストラクションを実行するか、他の装置をもって実行するように構成された少なくとも一つのプロセッサと、
を含むことを特徴とするキャリブレーション装置。 - (III)前記プロセッサが、前記バーチャルアクション情報に対応するリワード(Reward)情報と前記バーチャルネクストフレーム情報とを前記ディープラーニング基盤装置に伝送することによって、前記ディープラーニング基盤装置をもって、前記バーチャルネクストフレーム情報と前記リワード情報とを利用したオンポリシー強化学習(On−Policy Reinforcement Learning)を通じて前記以前の学習パラメータをアップデートさせるプロセス;
をさらに遂行することを特徴とする請求項12に記載のキャリブレーション装置。 - 前記(iii)プロセスで、
前記プロセッサは、前記バーチャル現在フレーム情報と前記バーチャルアクション情報とを前記リアル状態ネットワークに伝送するプロセスを遂行することによって、前記リアル状態ネットワークをもって、前記バーチャル現在フレーム情報と以前に伝送されたk個のバーチャル以前フレーム情報とを参照して前記多数のバーチャル最近フレーム情報を生成させることを特徴とする請求項12に記載のキャリブレーション装置。 - 前記(iii)プロセスで、
前記プロセッサは、前記バーチャル現在フレーム情報と前記バーチャルアクション情報とを前記リアル状態ネットワークに伝送するプロセスを遂行することによって、前記リアル状態ネットワークをもって、(iii−1)(iii−1−1)前記バーチャル現在フレーム情報と前記k個のバーチャル以前フレーム情報とをコンカチネート(Concatenating)して生成されたバーチャル現在フレーム状態の和(Virtual Current Frame State Sum)に対してコンボリューション演算(Convolution Operation)を適用して第1次元ベクトル(Dimension Vector)を生成させ、(iii−1−2)前記バーチャルアクション情報に対してFC(Fully Connected)演算を適用して第2次元ベクトルを生成させ、(iii−2)前記第1次元ベクトルと前記第2次元ベクトルとのコンカチネーション結果に対してデコンボリューション演算を適用して前記予測リアルネクストフレーム情報を生成させることを特徴とする請求項14に記載のキャリブレーション装置。 - 前記バーチャル現在フレーム状態の和は、(i)HxWxCテンソル(Tensor)である前記バーチャル現在フレーム情報と(ii)k個の前記バーチャル以前フレーム情報とをコンカチネートして生成されたHxWx(K+1)テンソルであり、
前記第1次元ベクトルはHWC次元ベクトルであり、
前記第2次元ベクトルをL次元ベクトルとする場合、前記予測リアルネクストフレーム情報は、前記第1次元ベクトルと前記第2次元ベクトルとをコンカチネートして生成された1x1x(HWC+L)テンソルに対してデコンボリューション演算を適用して生成されたHxWxCテンソルであることを特徴とする請求項15に記載のキャリブレーション装置。 - 前記(II)プロセスで、
前記プロセッサは、(II−1)前記以前のキャリブレーション済みパラメータのうち一つの以前のキャリブレーション済みパラメータを選択するプロセス、(II−2)前記選択された一つの以前のキャリブレーション済みパラメータを、前記ロスを利用してキャリブレーションし、予め設定された学習率に応じてキャリブレーションして、一つの現在のキャリブレーション済みパラメータを最適化されたパラメータ(Optimized Parameter)として生成するプロセス、及び(II−3)(II−3a)前記物理エンジンをもって、前記一つの現在のキャリブレーション済みパラメータと、前記一つの以前のキャリブレーション済みパラメータを除いた残りの以前のキャリブレーション済みパラメータとを利用して、前記バーチャル現在フレーム情報と前記バーチャルアクション情報とに対して演算を適用させて、新たなバーチャルネクストフレーム情報を生成させるプロセス、及び(II−3b)前記新たなバーチャルネクストフレーム情報と前記予測リアルネクストフレーム情報とを参照して生成された少なくとも一つの新たなロスを利用して前記ロスが減少したのかを確認するプロセスを、前記ロスが減少するまで繰り返すことを特徴とする請求項12に記載のキャリブレーション装置。 - 前記以前のキャリブレーション済みパラメータ全てに対して前記ロスが減少しなかった場合、前記プロセッサは、前記予め設定された学習率を減少させ、前記(i)プロセスと、前記(ii)プロセスと、前記(ii)プロセスとを遂行することを特徴とする請求項17に記載のキャリブレーション装置。
- リアル環境(Real Environment)においてディープラーニング(Deep Learning)基盤装置により多数のリアル最近のフレーム(Real Recent Frame)情報で遂行されたリアルアクション(Real Action)に関するリアルアクション情報に対応する予測ネクストフレーム(Predicted Next Frame)情報を生成するリアル状態ネットワーク(Real State Network)を学習する学習装置において、
インストラクションを格納する少なくとも一つのメモリと、
(I)前記リアル環境において前記ディープラーニング基盤装置により遂行された前記リアルアクションに対する前記多数のリアルアクション情報に対応する多数の軌跡(Trajectory)情報がトレーニングデータとして取得されると、特定の軌跡情報の特定時点におけるリアル現在フレーム(Real Current Frame)情報とk個の以前のリアルフレーム(Previous Real Frame)情報とを参照して多数の学習用最近フレーム情報を生成するプロセス;(II)前記特定時点における前記特定の軌跡情報のリアル現在のアクション情報を参照して取得された学習用アクション情報と前記多数の学習用最近フレーム情報とを前記リアル状態ネットワークに入力することによって、前記リアル状態ネットワークをもって予測パラメータを利用して前記多数の学習用最近フレーム情報と前記学習用アクション情報とに対して演算を適用させて前記予測ネクストフレーム情報を出力させるプロセス;及び(III)前記特定の軌跡情報における前記リアル現在フレーム情報の次のリアルネクストフレーム情報と前記予測の次のフレーム情報とを参照して生成された少なくとも一つのロスを利用して、前記ロスが最小化されるように前記予測パラメータをアップデートするプロセスを遂行するための前記インストラクションを実行するか、他の装置をもって実行するように構成された少なくとも一つのプロセッサと、
を含むことを特徴とする学習装置。 - 前記(II)プロセスで、
前記プロセッサは、(i)(i−1)前記多数の学習用最近フレーム情報をコンカチネート(Concatenating)して生成された学習用現在フレーム状態の和(Current Frame State Sum)を前記リアル状態ネットワークのCNN(Convolutional Neural Network)に入力して、前記CNNをもって、前記学習用現在フレーム状態の和に対してコンボリューション演算を適用して第1の特徴(Feature)を出力させるプロセス、及び(i−2)前記学習用アクション情報を前記リアル状態ネットワークの少なくとも一つのFCレイヤ(Fully Connected Layer)に入力して、前記少なくとも一つのFCレイヤをもって、前記学習用アクション情報に対してFC演算を適用して第2の特徴を出力させるプロセス、及び(ii)前記第1の特徴と前記第2の特徴とをコンカチネートして生成されたコンカチネート済み特徴をデコンボリューションレイヤ(Deconvolution Layer)に入力して、前記デコンボリューションレイヤをもって、前記コンカチネート済み特徴に対してデコンボリューション演算を適用して前記予測ネクストフレーム情報を出力させるプロセスを遂行することを特徴とする請求項19に記載の学習装置。 - 前記プロセッサは、(i)前記CNNをもって、HxWxCテンソル(Tensor)である前記多数の学習用最近フレーム情報をコンカチネートして生成されたHxWx(K+1)テンソルである前記学習用現在フレーム状態の和を、HWC次元ベクトル(Dimension Vector)である前記第1の特徴として出力させるプロセス、(ii)前記少なくとも一つのFCレイヤをもって、3次元ベクトルである前記学習用アクション情報を、L次元ベクトルである前記第2の特徴として出力させるプロセス、及び(iii)前記デコンボリューションレイヤをもって、前記第1の特徴と前記第2の特徴とをコンカチネートして生成された1x1x(HWC+L)テンソルを、HxWxCテンソルである前記予測ネクストフレーム情報として出力させるプロセスを遂行することを特徴とする請求項20に記載の学習装置。
- 前記プロセッサは、前記ロスを利用した最急降下法(Gradient Descent)によって前記少なくとも一つのCNNと、前記少なくとも一つのFCレイヤと、前記デコンボリューションレイヤとのうち少なくとも一つのパラメータをアップデートすることを特徴とする請求項20に記載の学習装置。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962798691P | 2019-01-30 | 2019-01-30 | |
US62/798,691 | 2019-01-30 | ||
US16/723,450 US10776542B2 (en) | 2019-01-30 | 2019-12-20 | Method and device for calibrating physics engine of virtual world simulator to be used for learning of deep learning-based device, and a learning method and learning device for real state network used therefor |
US16/723,450 | 2019-12-20 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020123338A true JP2020123338A (ja) | 2020-08-13 |
JP6865365B2 JP6865365B2 (ja) | 2021-04-28 |
Family
ID=69177075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020007174A Active JP6865365B2 (ja) | 2019-01-30 | 2020-01-20 | ディープラーニング基盤装置の学習に使用されるバーチャル世界シミュレータの物理エンジンをキャリブレーションする方法及び装置、そしてそのためのリアル状態ネットワークを学習する方法及びそれを利用した学習装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10776542B2 (ja) |
EP (1) | EP3690750B1 (ja) |
JP (1) | JP6865365B2 (ja) |
KR (1) | KR102300910B1 (ja) |
CN (1) | CN111738046B (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102264571B1 (ko) * | 2020-10-30 | 2021-06-15 | 주식회사 애자일소다 | 계층 구조를 갖는 의사결정 에이전트 |
DE102020215302A1 (de) * | 2020-12-03 | 2022-06-09 | Robert Bosch Gesellschaft mit beschränkter Haftung | Dynamikabhängige Verhaltensplanung für zumindest teilweise automatisiert fahrende Fahrzeuge |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017151973A (ja) * | 2016-02-23 | 2017-08-31 | ゼロックス コーポレイションXerox Corporation | 現実世界の映像分析性能を評価するための仮想世界の生成 |
JP2017536613A (ja) * | 2014-12-04 | 2017-12-07 | コノート、エレクトロニクス、リミテッドConnaught Electronics Ltd. | 自動車両カメラシステムのオンライン較正 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017004803A1 (en) * | 2015-07-08 | 2017-01-12 | Xiaoou Tang | An apparatus and a method for semantic image labeling |
US20190019087A1 (en) * | 2016-03-25 | 2019-01-17 | Sony Corporation | Information processing apparatus |
US10902343B2 (en) * | 2016-09-30 | 2021-01-26 | Disney Enterprises, Inc. | Deep-learning motion priors for full-body performance capture in real-time |
KR20180094725A (ko) * | 2017-02-16 | 2018-08-24 | 삼성전자주식회사 | 자율 주행을 위한 차량 제어 방법, 차량 제어 장치 및 자율 주행을 위한 학습 방법 |
US10678846B2 (en) * | 2017-03-10 | 2020-06-09 | Xerox Corporation | Instance-level image retrieval with a region proposal network |
US10475165B2 (en) * | 2017-04-06 | 2019-11-12 | Disney Enterprises, Inc. | Kernel-predicting convolutional neural networks for denoising |
DE112019001605T5 (de) * | 2018-03-27 | 2020-12-17 | Nvidia Corporation | Trainieren, testen und verifizieren von autonomen maschinen unter verwendung simulierter umgebungen |
-
2019
- 2019-12-20 US US16/723,450 patent/US10776542B2/en active Active
-
2020
- 2020-01-06 KR KR1020200001711A patent/KR102300910B1/ko active IP Right Grant
- 2020-01-17 EP EP20152427.9A patent/EP3690750B1/en active Active
- 2020-01-19 CN CN202010061002.7A patent/CN111738046B/zh active Active
- 2020-01-20 JP JP2020007174A patent/JP6865365B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017536613A (ja) * | 2014-12-04 | 2017-12-07 | コノート、エレクトロニクス、リミテッドConnaught Electronics Ltd. | 自動車両カメラシステムのオンライン較正 |
JP2017151973A (ja) * | 2016-02-23 | 2017-08-31 | ゼロックス コーポレイションXerox Corporation | 現実世界の映像分析性能を評価するための仮想世界の生成 |
Also Published As
Publication number | Publication date |
---|---|
US10776542B2 (en) | 2020-09-15 |
KR20200094639A (ko) | 2020-08-07 |
JP6865365B2 (ja) | 2021-04-28 |
US20200242289A1 (en) | 2020-07-30 |
EP3690750B1 (en) | 2024-08-14 |
CN111738046A (zh) | 2020-10-02 |
KR102300910B1 (ko) | 2021-09-13 |
EP3690750A1 (en) | 2020-08-05 |
CN111738046B (zh) | 2024-08-02 |
EP3690750C0 (en) | 2024-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6857371B2 (ja) | 安全な自律走行を支援する学習方法、そしてこれを利用した学習装置、テスト方法、及びテスト装置 | |
CN110197027B (zh) | 一种自动驾驶测试方法、装置、智能设备和服务器 | |
JP6913969B2 (ja) | 強化学習に基づいて協同走行で多重エージェントセンサフュージョンを遂行する方法及び装置 | |
JP6964354B2 (ja) | 最近の走行経路に対する軌跡基盤行動分析を遂行して、車両のモードを手動走行モードから自律走行モードに変更するか否かを判断する学習方法及び学習装置 | |
CN109649402B (zh) | 自主车辆策略的生成 | |
JP2022516383A (ja) | 自律型車両の計画 | |
CN112805198A (zh) | 用于自主驾驶的个人驾驶风格学习 | |
JP2020126646A (ja) | 人の走行データをトレーニングデータとして利用して、強化学習を支援することによりカスタマイズ型経路プランニングを遂行する学習方法及び学習装置 | |
CN112382165B (zh) | 驾驶策略生成方法、装置、介质、设备及仿真系统 | |
Ghodsi et al. | Generating and characterizing scenarios for safety testing of autonomous vehicles | |
JP2022547611A (ja) | 道路シーンにおける多様な長期将来軌道のシミュレーション | |
KR102176483B1 (ko) | 차선 정보를 래스터화하여 활용하는 딥러닝 기반 차량 경로 예측 방법 및 장치 | |
CN111507459B (zh) | 降低神经网络的注解费用的方法和装置 | |
JP2020123338A (ja) | ディープラーニング基盤装置の学習に使用されるバーチャル世界シミュレータの物理エンジンをキャリブレーションする方法及び装置、そしてそのためのリアル状態ネットワークを学習する方法及びそれを利用した学習装置 | |
CN112784867A (zh) | 利用合成图像训练深度神经网络 | |
Stević et al. | Development of ADAS perception applications in ROS and" Software-In-the-Loop" validation with CARLA simulator | |
WO2022137696A1 (ja) | 情報処理装置、情報処理方法 | |
KR20210022891A (ko) | 차선 유지 제어 방법 및 그 장치 | |
CN113767393A (zh) | 使用具有显示生命周期的矢量图数据可视化自主交通工具过程 | |
CN115298671A (zh) | 一种使用子内核搜索模块优化设备上神经网络模型的方法和装置 | |
CN113485300B (zh) | 一种基于强化学习的自动驾驶车辆碰撞测试方法 | |
KR20230102996A (ko) | 도로 그래프 뉴럴 네트워크 기반 자율 주행 제어 방법 및 장치 | |
CN111832797B (zh) | 数据处理方法、数据处理装置、存储介质和电子设备 | |
US20240378351A1 (en) | System and method for shape optimization | |
KR102594458B1 (ko) | 인공지능 모델을 활용하여 물류 기사의 동선 조정 및스케쥴링 방법, 장치 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200120 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210202 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210209 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210310 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6865365 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |