JP7396062B2

JP7396062B2 - 制御値決定装置

Info

Publication number: JP7396062B2
Application number: JP2020004696A
Authority: JP
Inventors: 歩後藤
Original assignee: Murata Machinery Ltd
Current assignee: Murata Machinery Ltd
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2023-12-12
Anticipated expiration: 2040-01-15
Also published as: JP2021111282A

Description

本発明は、移動体の移動状態が目標状態となるように移動体の移動を制御する制御パラメータの値である制御値を強化学習により決定する制御値決定装置に関する。

従来、モータを用いて動作する装置の最適な動作状態を得るために、機械学習などの人工知能を用いてモータの制御値を決定する技術が提案されている。例えば特許文献１では、人工知能の１つである強化学習を用いることによりモータの制御値を決定する技術が提案されている。

特許第６１０６２２６号公報

モータにより移動する移動体の最適な移動状態となる制御値を強化学習を用いて決定する場合、シミュレーションにより仮想的に、または実機、モデルなどにより現実的に移動体を移動させる試行を行い、試行により得られる結果を用いる必要がある。ところが、制御値をランダムに選んで強化学習を実行すると、多数の試行を行う必要が生じる。

本発明は、上記課題に鑑みなされたものであり、強化学習による制御値の決定に必要な試行回数を削減できる制御値決定装置の提供を目的とする。

上記目的を達成するために、本発明の１つである制御値決定装置は、移動体の移動状態が目標状態となるように移動体の移動を制御する制御パラメータの値である制御値を強化学習により決定する制御値決定装置であって、前記移動体を移動させるための制御値を出力し、前記制御値に基づき仮想的、または現実的に前記移動体の移動を試行した結果値を取得する試行処理部と、前記試行処理部が取得した結果値に基づき報酬を導出する報酬導出部と、前記制御値と、前記報酬導出部により導出される前記報酬と、に基づき前記制御値を更新するための基本価値を導出する基本更新式に前記移動体の試行回数に従い増加する基本係数を乗算した第一式と、影響感度による近似予測により前記制御値を更新するための予測価値を導出する予測更新式に前記移動体の試行回数に従い減少する予測係数を乗算した第二式とを足し合わせた統合更新式に基づき状態値を導出する状態値導出部と、前記制御値に基づき制御値を決定する決定部と、を備える。

本発明によれば、移動体の移動状態が目標状態となる制御値の決定に必要な試行回数を削減することが可能となる。

図１は、制御値決定装置の機能構成を試行実施手段と共に示すブロック図である。図２は、制御値の決定の流れを示すフローチャートである。

以下に、本発明に係る制御値決定装置の実施の形態について、図面を参照しつつ説明する。なお、以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の位置関係、および接続状態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下では複数の発明を一つの実施の形態として説明する場合があるが、請求項に記載されていない構成要素については、その請求項に係る発明に関しては任意の構成要素であるとして説明している。また、図面は、本発明を説明するために適宜強調や省略、比率の調整を行った模式的な図となっており、実際の形状や位置関係、比率とは異なる場合がある。

図１は、制御値決定装置１００の機能構成を試行実施手段２００と共に示すブロック図である。制御値決定装置１００は、移動体２１０の移動状態が目標状態となるように移動体２１０の移動を制御する制御パラメータの値である制御値を強化学習により決定する装置であって、プログラムを実行することによりコンピュータに機能させる試行処理部１１０と、報酬導出部１２０と、状態値導出部１３０と、試行制御値決定部１４０と、を備えている。本実施の形態の場合、制御値決定装置１００は、感度更新部１５０と、感度代入部１６０と、決定部１７０と、を備えている。

試行処理部１１０は、前記移動体を移動させるための制御値を出力し、試行実施手段２００において制御値に基づき仮想的、または現実的に移動体２１０の移動を試行した結果値を取得する。

制御値は、各制御パラメータに対し相互に異なる値の制御値を予め準備し、記憶部１８０に記憶させておく。制御値は、例えば経験則などに基づき準備されてもよく、エキスパートシステムなどを用いてコンピュータが準備してもかまわない。

試行実施手段２００は、特に限定されるものではなく、既に稼働している実機、試運転時の実機、実機を模したモデル、数理モデルにより実機を再現したシミュレーションなどを例示することができる。また実機、またはモデルなどには結果値を取得するための各種センサーが取り付けられる。取り付けられるセンサーの種類は、特に限定されるものではなく、決定する制御値の制御パラメータの種類に応じて適宜選定される。また、実機による試行、モデルによる試行、およびシミュレーションを組み合わせてもかまわない。具体的に例えば、何回かに１回は実機を動かして結果値を確認し、それ以外のときはシミュレーションでの試行結果を用いてもかまわない。

移動体２１０は、原動機、電動機などにより移動する装置であれば特に限定されるものではない。例えば移動体２１０としては、搭載した物品を搬送する搬送車や、人を搭載して移動する車両、物品、人を搭載することなく作業のために移動する作業車などを例示することができる。また、クレーン、ロボットなどのように固定された一部に対して他の部分が移動する装置も移動体２１０に含まれる。また、移動体２１０の移動方向も水平面内ばかりで無く、鉛直方向を含む水平面に交差する方向でもかまわない。また、直線移動ばかりで無く、曲線移動でもかまわない。

報酬導出部１２０は、試行処理部１１０が試行実施手段２００から取得した結果値に基づき報酬を導出する。報酬を導出する方法、導出するための結果値の種類は、特に限定されるものではない。例えば報酬導出部１２０は、結果値の１つである移動体２１０に関係する物体の最大振幅を試行処理部１１０から取得し、予め記憶部１８０に記憶されている許容最大振幅の差分、および他の結果値の１つである移動体２１０の移動に関連する関連時間を試行処理部１１０から取得し、予め記憶部１８０に記憶されている許容時間の差分に基づき報酬を導出してもよい。つまり本実施の形態の場合、報酬導出部１２０は、複数の結果値に基づき報酬を演算により導出している。

移動体２１０に関係する物体の揺れ（振幅）とは、例えば搬送中の搬送対象である荷物の揺れ、荷物を昇降させるための昇降装置の停止時の揺れ、無人搬送車が加速することにより、前輪が浮くことによる揺れを例示できる。関連時間とは、移動体２１０の移動に関連する時間であれば特に限定されるものではなない。例えば関連時間は、移動体２１０の走行開始から走行停止までの時間、走行停止後において振幅が所定値以下となる時間（整定時間）、走行開始から走行停止後において振幅が所定値以下となる時間などを例示できる。

結果値である最大振幅をＡＭ、許容最大振幅をＡＭ０、結果値である関連時間をＳＴ、許容時間をＳＴ０、第一の重みをＷ１、第二の重みをＷ２とした場合、本実施の形態では、報酬導出部１２０は、報酬Ｒを下記式１を用いて算出している。

Ｒ＝Ｗ１＊（ＡＭ０－ＡＭ）／ＡＭ０＋Ｗ２＊（ＳＴ０－ＳＴ）／ＳＴ０・・・式１

なお、関連時間ＳＴは、停止状態の移動体２１０の移動開始から再停止までの時間（サイクルタイム）としている。Ｒは、制御値に従って移動体を制御した際に得られる結果を評価する値である。また、Ｗ１、およびＷ２は振動の抑制、および関連時間のどちらを重視するかに応じ予め設定し、記憶部１８０に記憶する。＊（アスタリスク）は乗算を示している。

なお、本実施の形態の場合、振動、および時間の２つの価値観にそれぞれ重みであるＷ１、Ｗ２を乗算したが、必ずしも個別に重みを乗算しなくてもかまわない。例えば、どちらかを一定値（例えば振動の重みをＷ１＝１）として固定しておき、もう一方をそれに対する比で乗算してもかまわない。つまり、振動より時間を２倍重視するならＷ２＝２と入力することになる。重み係数を導入することにより、ユーザや設計者のその時々の価値観を、制御パラメータの調整に柔軟に反映させることが可能になる。具体例としては、繁忙期は（振動による負荷で）機体寿命が多少犠牲になってもいいからリードタイム重視したいと考える場合は、時間に対する重み係数を振動に対する重み係数よりも重くする。閑散期は機体寿命を重視するため、振動の重み係数を時間の重み係数よりも重くするなどである。

状態値導出部１３０は、試行実施手段２００において移動体２１０に実施させた制御値である制御値と、報酬導出部１２０により導出される報酬Ｒとに基づき制御値を更新するための基本価値を導出する基本更新式に試行実施手段２００における移動体２１０の試行回数に従い増加する基本係数を乗算した第一式と、影響感度による近似予測により制御値を更新するための予測価値を導出する予測更新式に試行実施手段２００における移動体２１０の試行回数に従い減少する予測係数を乗算した第二式と、を足し合わせた統合更新式に基づき状態値を導出する。

本実施の形態の場合、基本係数と予測係数を加算すれば一定値となる関係の基本係数と予測係数を採用している。また、影響感度を考慮しパラメータ学習をするための無次元の値である状態値をＱＰ、基本公式をＱＢ、試行実施手段２００における移動体２１０の試行回数をｎ、一定値を１、基本係数をＫＢ（ｎ）、なお、ＫＢ（ｎ）はｎが増加するに従い増加し０＜ＫＢ（ｎ）＜１である、予測更新式をＱＥ、予測係数を１－ＫＢ（ｎ）、統合更新式をＱＰとした場合、状態値導出部１３０は、下記式２により状態値を導出する。

ＱＰ＝ＫＢ（ｎ）＊ＱＢ＋（１－ＫＢ（ｎ））＊ＱＥ・・・式２

基本更新式ＱＢは、例えばＱ学習、Ｓａｒｓａ、またはモンテカルロ法など採用する強化学習のアルゴリズムによって異なるが、本実施の形態の場合、Ｑ学習を採用しており下記式３が用いられている。

ＱＢ＝（１－α）＊ＱＰ＋α＊（ＲＮ＋γ＊ｍａｘＱＮ）・・・式３

なお、αは学習率と称されるパラメータであり０＜α＜１である。ＲＮは次の報酬である。γは割引率であり０＜γ≦１である。α、およびγは予め定められ記憶部１８０に記憶される。ｍａｘＱＮは、次の状態値の最大値である。

基本係数ＫＢ（ｎ）は、ｎの増加に従い増加するものであれば特に限定されるものではないが、本実施の形態の場合、１－（１／ｎ）＾ｎが採用されている。なお「＾」はべき乗を意味する。また本実施の形態の場合、基本係数に加算することにより一定値（本実施の形態の場合、１）となるように予測係数は（１／ｎ）＾ｎが採用される。このように、加算により一定値となる基本係数と予測係数とを採用することにより、試行回数ｎに従って状態値の基準量が単純に増大し、試行初期の結果値が軽く見られることによる弊害、つまり、試行を積み重ねても、初期の結果値が考慮されず、初期の試行回数が無駄になることによる弊害を抑制することができる。なお、基本係数を１－（１／ｎ）、予測係数を１／ｎなどとしてもよい。また、基本係数をｎ／２、予測係数を１／ｎとした場合のように、基本係数と予測係数とを和算して一定値とならなくてもかまわない。なお、基本係数、および予測係数の両方がＫＢ（ｎ）となるなど両方が同じ関数になることは回避する。

予測更新式ＱＥは、一般的には報酬Ｒと、制御値に影響感度を乗算した積とを加算するものであり、下記式４で表現される。

ＱＥ＝Ｒ＋Ｓ１＊Ｐ１＋Ｓ２＊Ｐ２＋・・・・・＋Ｓｍ＊Ｐｍ・・・式４

なお、Ｐ１、Ｐ２、・・・・・Ｐｍは、制御値、Ｓ１、Ｓ２、・・・・・Ｓｍは、各制御パラメータに対する影響感度、ｍは、採用する制御パラメータの数である。

本実施の形態の場合、予測更新式ＱＥとしては、報酬Ｒと、次候補の制御値から制御値を減算した差に影響感度、および所定の重みを乗算した積とを加算する式、具体的には下記式５が用いられている。

ＱＥ＝Ｒ＋Ｗ１｛Ｓ１＊（Ｐ１Ｎ－Ｐ１）＋Ｓ２＊（Ｐ２Ｎ－Ｐ２）｝＋Ｗ２｛Ｓ３＊（Ｐ３Ｎ－Ｐ３）＋Ｓ４＊（Ｐ１Ｎ－Ｐ１）＋Ｓ５＊（Ｐ２Ｎ－Ｐ２）｝・・・式５

上記式５のＳ４＊（Ｐ１Ｎ－Ｐ１）＋Ｓ５＊（Ｐ２Ｎ－Ｐ２）が整定時間に影響を与える項である。また、例えばＰ１は移動体２１０の加減速度、Ｐ１Ｎは次の加減速度である。Ｐ２はジャーク（躍度：加速度の１階微分）、Ｐ２Ｎは次のジャーク、Ｐ３は移動体の移動に関連する関連時間関連時間、Ｐ３Ｎは次の移動体の移動に関連する関連時間関連時間である。

式５において、Ｗ１で括っているカッコ内の項は「振動量」に影響を与える因子であり、Ｗ２で括っているカッコ内の項は「移動時間」に影響を与える因子である。また振動、時間のどちらを優先させるかは同じであることを想定し、式５のＷ１とＷ２を、式１のＷ１とＷ２と同じにしている。これは、振動、サイクルタイムのどちらを優先させるかは同じであるはずであり、また同じく重みが乗算されているＲの値の大きさと合わせるためである。なお、Ｗ１、Ｗ２などの重みはそれぞれの因子に異なる値として乗算してもかまわない。また、式上の重みを無くす（影響感度に含ませる）ことも可能である。また、制御値が机上計算（シミュレーション）で非常に精度よく算出できる（実測値とほとんど誤差がない）評価値である場合、影響感度を乗算しなくてもよい場合がある。例えば上記式５のＳ３＊（Ｐ３Ｎ－Ｐ３）を（Ｐ３Ｎ－Ｐ３）としてもかまわない。

なお、影響感度とは、制御値のベクトルに対するＱＥ応答曲面の勾配と考えることができる。また、制御値のベクトルに対するＱＥ応答曲面とは、制御値のベクトルとＱＥ値の対応関係を表現する概念的な高次空間上の曲面であり、例えば制御値が２つ（Ｐ１とＰ２）であれば、ＱＥ値を含めて３次空間上の曲面になる。

試行制御値決定部１４０は、状態値導出部１３０により導出された状態値に基づき試行用の制御値を決定する。試行用の制御値を決定する方法は特に限定されるものではないが、例えば最大のＱＰ値に対応する制御値を試行用の制御値として決定する。また、最大のＱＰ値に対応する制御値ベクトルと現在の制御値ベクトルの「距離」（この値は距離関数から求めることができる）が、予め決めた閾値を超えなければ、最大のＱＰ値に対応する制御値を採用し、閾値を超えるならば、２番目に大きいＱＰ値に対応する制御値と現在の制御値の距離が、閾値を超えるかを確認し、閾値を超えるようなら、３番目に大きいＱＰ値に対応する制御値と現在の制御値の距離が、閾値を超えるかを確認することを制御値が決まるまで繰り返す、という決定方法を採用してもかまわない。

感度更新部１５０は、影響感度を更新するための感度更新関係に基づき影響感度を更新する。感度更新部１５０により影響感度を更新することにより予測精度を高めることが可能となる。本実施の形態の場合、影響感度の更新も強化学習が用いられる。なお、感度更新関係は、例えば次の制御値が仮決定した際に、その次の制御値に対応する感度をテーブル形式で対応付けておいてもよい。また、あらかじめシミュレーションで影響感度を求めておいてもよい。また、類似の移動体（実機）で収集した情報を基に影響感度を決めておき、その感度（固定値）を代入した予測更新式で、学習アルゴリズムを実行してもよい。

影響感度を更新する感度更新式ＱＳは、例えばＱ学習、Ｓａｒｓａ、またはモンテカルロ法など採用する強化学習のアルゴリズムによって異なるが、本実施の形態の場合、Ｑ学習を採用しており下記式６が用いられている。

ＱＳ＝（１－αＳ）ＱＳ＋αＳ＊（ＲＳＮ＋γＳ＊ｍａｘＱＳＮ）・・・式６

なお、αＳは学習率と称されるパラメータであり０＜α＜１である。ＲＳＮは次の報酬である。報酬ＲＳは、－ａｂｓ（ＱＥ－Ｒ）、ａｂｓ（）は括弧内の絶対値を意味し、－｜ＱＥ－Ｒ｜とも記載できる。γＳは割引率であり０＜γＳ≦１である。αＳ、およびγＳは感度更新のために予め定められ記憶部１８０に記憶される。ｍａｘＱＳＮは、次のＱＳ値の最大値である。

感度代入部１６０は、状態値導出部１３０が次の状態値を導出する前に、感度更新部１５０により更新された影響感度を予測更新式ＱＥに代入する。本実施の形態の場合、感度更新部１５０は、最大のＱＳに対応する影響感度を採用し予測更新式ＱＥに代入する。なお、最大のＱＳ値に対応する感度ベクトルと現在の感度ベクトルの「距離」（この値は距離関数から求めることができる）が、予め決めた閾値を超えなければ、最大のＱＳ値に対応する感度を採用し、閾値を超えるならば、２番目に大きいＱＳ値に対応する感度と現在の感度の距離が、閾値を超えるかを確認し、閾値を超えるようなら、３番目に大きいＱＳ値に対応する感度と現在の感度の距離が、閾値を超えるかを確認することを影響感度が決まるまで、上記の条件判断を繰り返す、という決定方法を採用してもかまわない。

決定部１７０は、仮に決定された制御値に基づき移動体２１０を制御する制御値を決定する。決定部１７０の制御値の決定方法は、特に限定されるものではなく、試行実施手段２００から得られる結果値が目標状態である目標結果値を満たしているかを判断し、満たしている場合、試行実施手段２００に与えた制御値を決定制御値としてもかまわない。結果値が複数存在する場合、複数の結果値が全て目標結果値を満たしているかを判断し、全て満たしている場合、試行実施手段２００に与えた制御値を決定制御値としてもかまわない。また、試行実施手段２００における試行と状態値導出とを所定回数実施し、得られる結果値から最も適した結果値となる制御値を決定制御値としてもかまわない。

次に、制御値決定装置１００における制御値決定の流れについて説明する。図２は、制御値の決定の流れを示すフローチャートである。同図に示すように、移動体２１０を移動させるための初期の制御値を入力する（Ｓ１０１）。本実施の形態の場合、作業者が制御値を試行処理部１１０に入力し、試行処理部１１０が入力された制御値を試行実施手段２００に出力する。なお、入力される初期の制御値は、特に限定されるものではないが、例えば、作業者が経験則として保有している制御値、エキスパートシステム等により得られた制御値など試行する移動体２１０にある程度対応した制御値である。

次に、試行処理部１１０は、初期の制御値を試行実施手段２００に与え、移動体２１０の移動を試行させる（Ｓ１０２）。施行された結果を示す結果値は、試行処理部１１０によって取得される。この段階で試行実施手段２００における移動体２１０の試行回数ｎは１である。

次に、状態値導出部１３０がＱＰ値を導出する（Ｓ１０３）。ＱＰ値の導出は、試行により得られた結果値に基づく報酬、影響感度、重みなどにより導出される。試行制御値決定部１４０は、得られたＱＰ値に基づき次の試行に用いられる制御値を決定する（Ｓ１０４）。

次に、試行処理部１１０は、試行制御値決定部１４０により決定された制御値を試行実施手段２００に与え、移動体２１０の移動を試行させる（Ｓ１０５）。試行された結果を示す結果値は、試行処理部１１０によって取得される。この段階で試行実施手段２００における移動体２１０の試行回数ｎは１加算される。

本実施の形態の場合、移動体２１０の試行により得られる結果値が目標を達成した場合（Ｓ１０６：Ｙｅｓ）、決定部１７０は、目標を達成した結果値に対応する制御値を移動体２１０に適した制御値として決定する（Ｓ１０９）。目標を達成していない場合（Ｓ１０６：Ｎｏ）は、ＱＳ値導出ステップに移行する。

ＱＳ値導出ステップは、感度更新部１５０がＱＳ値を導出する（Ｓ１０７）。ＱＳ値の導出は、試行により得られた結果値に基づく報酬、影響感度、重み、記憶部に記憶されている制御値の候補などにより導出される。感度代入部１６０は、得られたＱＳ値に基づき次に用いる影響感度を決定し、決定した影響感度を各式に代入する（Ｓ１０８）。

以上説明したように、実施の形態に係る制御値決定装置１００、制御値決定方法によれば、異なるパラメータ調整戦略を表現する２つの学習アルゴリズムである基本更新式と予測更新式とを、パラメータ調整の前段階（試行回数が少ない段階）、後段階（威嚇的試行回数が多い段階）で、各戦略特性が活かされるように比重を変えることができる。また、調整の前段階において比重の高い学習アルゴリズム（状態値の推定方法）に、影響感度が導入されている。これにより、調整の前段階において、いち早く目標状態に近づく大胆な制御値の更新と、調整の後段階において、最適値の見逃しを回避するためのきめ細かな制御値の更新とを実現することができ、従来よりも効率的、かつ合理的に調整することができ、制御値の決定に必要な試行回数を削減することができる。具体的な一例としては、移動体２１０として高さが１０ｍ以上のスタッカクレーンを選定し、スタッカクレーンの水平方向の走行において頂上部の最大振幅と、走行開始から走行を停止して頂上部の振動が停止するまでの時間であるサイクルタイムを結果とした場合、従来の強化学習により目標状態を達成する制御値を得るまでに要した試行回数は、２９０回程度であった。一方、本実施の形態の場合、２０回程度で目標状態となる制御値を得ることができた。

また、従来のε－ｇｒｅｅｄｙ法、ルーレット選択、ボルツマン選択等のように制御値をランダムに選択する方法により移動体２１０の移動を試行した場合、移動体２１０が大きく振動するなど移動体２１０に過負荷が発生する場合があった。しかし、本実施の形態の場合、パラメータ感度に基づく探索戦略と、従来のＱ学習の探索戦略とを、ハイブリッドさせたアルゴリズムを採用することにより、制御値をランダムに選択するのではなく、感度の情報から探索方向を意味する調整のアタリをつけて制御値を選択している。従って、速く最適解付近の制御値を選択することができ、移動体２１０に発生する過負荷の大きさ、および回数を抑制することができた。また、制御値決定装置１００によれば、挙動を数理モデル化することが困難な移動体２１０の場合、実機を用いて安全に試行を実施することができる。これにより実機の組立誤差、据付誤差などによる機体ごとの個体差も含めて最適な制御値を探索することができる。また、長期間の使用による実機の経年変化に対応した新しい制御値を、短時間で探索することが可能となる。

また、試行回数の増加に伴い徐々に、従来のＱ学習の探索戦略の比重を上げ、感度自体も学習の対象として、制御値と並行して更新することにより、制御値の更新による感度の精度の低下を抑制している。

また、制御値決定装置１００が強化学習としてＱ学習を採用することにより、計算量も比較的抑制でき、また、コンピュータへの実装が容易で、制御値の収束性が向上する。

なお、本発明は、上記実施の形態に限定されるものではない。例えば、本明細書において記載した構成要素を任意に組み合わせて、また、構成要素のいくつかを除外して実現される別の実施の形態を本発明の実施の形態としてもよい。また、上記実施の形態に対して本発明の主旨、すなわち、請求の範囲に記載される文言が示す意味を逸脱しない範囲で当業者が思いつく各種変形を施して得られる変形例も本発明に含まれる。

例えば、本実施の形態の場合、制御パラメータは、加減速度、およびジャークを例示したが、制御パラメータは、限定されるものではない。例えば、制御パラメータとして、加減速度やジャークの他、速度などを例示できる。また、移動体２１０を移動させる駆動源が電動機の場合、電動機をＰＩＤ制御するための比例ゲイン、微分ゲイン、積分ゲインなどを、加減速度やジャークの他、速度などと共に、または加減速度やジャークの他、速度などの代わりとして採用してもかまわない。

また、報酬以外の項に、距離関数を乗算した予測更新式ＱＥを用いてもかまわない。距離関数をＬ（ｘ）とした場合、ＱＥは下記式７で表せる。

ＱＥ＝Ｒ＋（１／Ｌ（ｘ））＊｛Ｗ１｛Ｓ１＊（Ｐ１Ｎ－Ｐ１）＋Ｓ２＊（Ｐ２Ｎ－Ｐ２）｝＋Ｗ２｛（Ｐ３Ｎ－Ｐ３）＋Ｓ３＊（Ｐ１Ｎ－Ｐ１）＋Ｓ４＊（Ｐ２Ｎ－Ｐ２）｝｝・・・式７

なお、Ｌ（ｘ）は、制御値のベクトルと次の制御値のベクトルとの距離に係数ρを乗算したものであり、本実施の形態の場合、Ｌ（ｘ）は、１＋ρ＊（（Ｐ１Ｎ－Ｐ１）＾２＋（Ｐ２Ｎ－Ｐ２）＾２）＾（１／２）として記述できる。なお、加算している１は、Ｌ（ｘ）が０となることを回避する値であり、任意に設定できる。また、ρは、感度更新部１５０において強化学習により探索してもかまわない。

制御値として選択可能な全範囲にわたる状態値を均等な重みで予測するのではなく、（現在の）制御値から離れた状態値であるほど、重みを小さくすることができる重みの数式表現である距離関数Ｌ（ｘ）を導入することにより、制御値として規定範囲の上限値もしくは下限値の選択を回避して、制御値が極端に大きく振れることを抑制できる。

本発明は、原動機や電動機を用いて動作する移動体に利用可能である。

１００制御値決定装置
１１０試行処理部
１２０報酬導出部
１３０状態値導出部
１４０試行制御値決定部
１５０感度更新部
１６０感度代入部
１７０決定部
１８０記憶部
２００試行実施手段
２１０移動体

Claims

移動体の移動状態が目標状態となるように移動体の移動を制御する制御パラメータの値である制御値を強化学習により決定する制御値決定装置であって、
前記移動体を移動させるための制御値を出力し、前記制御値に基づき仮想的、または現実的に前記移動体の移動を試行した結果値を取得する試行処理部と、
前記試行処理部が取得した結果値に基づき報酬を導出する報酬導出部と、
前記制御値と、前記報酬導出部により導出される前記報酬とに基づき前記制御値を更新するための基本価値を導出する基本更新式に前記移動体の試行回数に従い増加する基本係数を乗算した第一式と、影響感度による近似予測により前記制御値を更新するための予測価値を導出する予測更新式に前記移動体の試行回数に従い減少する予測係数を乗算した第二式とを足し合わせた統合更新式に基づき状態値を導出する状態値導出部と、
前記状態値導出部により導出された状態値に基づき試行用の制御値を決定する試行制御値決定部と、
を備える制御値決定装置。
前記影響感度を更新するための感度更新関係に基づき影響感度を更新する感度更新部と、
前記感度更新部により更新された影響感度を前記予測更新式に代入する感度代入部と、を備える請求項１に記載の制御値決定装置。
前記基本係数、および前記予測係数は、加算すれば一定値となる
請求項１または２に記載の制御値決定装置。
前記基本更新式は、
Ｑ学習、Ｓａｒｓａ、またはモンテカルロ法に用いられる式である
請求項１から３のいずれか一項に記載の制御値決定装置。
前記予測更新式は、
前記報酬と、次候補の制御値から前記制御値を減算した差に前記影響感度を乗算した積とを加算する
請求項１から４のいずれか一項に記載の制御値決定装置。
前記制御パラメータは、
速度、加減速度、ジャーク、ＰＩＤ制御における比例ゲイン、ＰＩＤ制御における微分ゲイン、ＰＩＤ制御における積分ゲイン、走行用のモータのトルクの少なくとも１つである
請求項１から５のいずれか一項に記載の制御値決定装置。
前記報酬導出部は、
結果値の１つである前記移動体に関係する物体の最大振幅と予め設定される許容最大振幅の差分、および他の結果値である前記移動体の移動に関連する関連時間と予め設定される許容時間の差分の少なくとも一方に基づき報酬を導出する
請求項１から６のいずれか一項に記載の制御値決定装置。
前記予測更新式は、
前記報酬以外の項に、距離関数を乗算する
請求項５から７のいずれか一項に記載の制御値決定装置。