Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP3465236B2 - Robust reinforcement learning method - Google Patents
[go: Go Back, main page]

JP3465236B2 - Robust reinforcement learning method - Google Patents

Robust reinforcement learning method

Info

Publication number
JP3465236B2
JP3465236B2 JP2000386265A JP2000386265A JP3465236B2 JP 3465236 B2 JP3465236 B2 JP 3465236B2 JP 2000386265 A JP2000386265 A JP 2000386265A JP 2000386265 A JP2000386265 A JP 2000386265A JP 3465236 B2 JP3465236 B2 JP 3465236B2
Authority
JP
Japan
Prior art keywords
generator
disturbance
signal
robust
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000386265A
Other languages
Japanese (ja)
Other versions
JP2002189502A (en
Inventor
淳 森本
賢治 銅谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Science and Technology Agency
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Japan Science and Technology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International, Japan Science and Technology Corp filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2000386265A priority Critical patent/JP3465236B2/en
Publication of JP2002189502A publication Critical patent/JP2002189502A/en
Application granted granted Critical
Publication of JP3465236B2 publication Critical patent/JP3465236B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Feedback Control In General (AREA)

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、強化学習において
環境の不確かさに対してロバストな行動則を学習する方
式に関するものである。さらに、詳しくは、ロボット、
自動車、航空機などの物理的システムの制御、また、広
く人間に代わって情報検索、ユーザー応答、資源割当、
市場取引などを行うコンピュータプログラムなどにおい
て、環境の様々な外乱や、想定していたモデルと現実と
の環境のズレに対応することができる強化学習方式およ
び強化学習された制御器である。なお、この明細書にお
いては、特許明細書では使用不可能な文字に対応するた
めに、下記の様にして対処している。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for learning a behavior rule that is robust against environmental uncertainty in reinforcement learning. More specifically, robots,
Control of physical systems such as automobiles and aircraft, information retrieval, user response, resource allocation, on behalf of human beings
It is a reinforcement learning method and a reinforcement-learned controller capable of coping with various environmental disturbances and deviations between the assumed model and the actual environment in a computer program that conducts market transactions and the like. In this specification, in order to deal with characters that cannot be used in the patent specification, the following measures are taken.

【外1】 [Outer 1]

【0002】[0002]

【従来の技術】従来の強化学習方式について説明する。
図2は従来の学習方式に用いる回路のブロック図であ
る。図3は制御対象と制御器とのフィードバックのブロ
ック図であり、H∞制御理論を説明するための図であ
る。環境1は制御対象をはじめ、行動の対象となるシス
テム一般を表し、状態信号x(t) を行動生成器2および
状態評価器3に出力している。行動生成器2は状態信号
x(t) が入力されると行動信号u(t) を環境1に出力し
ている。また、環境1から報酬信号r(t) が状態評価器
3に入力される。状態評価器3は、目標の達成度に応じ
た報酬r(t) が入力されると、現在の状態x(t) から将
来に向けて得られる、報酬r(t) の荷重和の期待値すな
わち、評価関数V(x(t) )を予測し、その予測値を用
いて予測誤差信号δ(t) を生成し、行動生成器2に出力
する。行動生成器2は、状態評価器3から予測誤差信号
δ(t) が入力されると、現在の状態x(t) から将来に向
けて得られる、報酬r(t) の荷重和の期待値すなわち、
評価関数V(x(t) )が最大となる様に学習し、その入
出力の関係を変更する。ただし、前記評価関数V(x
(t))は、連続の場合、
2. Description of the Related Art A conventional reinforcement learning method will be described.
FIG. 2 is a block diagram of a circuit used in the conventional learning method. FIG. 3 is a block diagram of feedback between the controlled object and the controller, and is a diagram for explaining the H∞ control theory. The environment 1 represents a general system that is an object of action including a controlled object, and outputs a state signal x (t) to the action generator 2 and the state evaluator 3. The action generator 2 outputs the action signal u (t) to the environment 1 when the state signal x (t) is input. Further, the reward signal r (t) is input from the environment 1 to the state evaluator 3. The state evaluator 3 is an expected value of the weighted sum of the rewards r (t), which is obtained from the current state x (t) for the future when the reward r (t) corresponding to the achievement level of the goal is input. That is, the evaluation function V (x (t)) is predicted, the predicted value is used to generate a prediction error signal δ (t), and the prediction error signal δ (t) is output to the behavior generator 2. When the prediction error signal δ (t) is input from the state evaluator 3, the action generator 2 expects the weighted sum of the rewards r (t) obtained from the current state x (t) for the future. That is,
Learning is performed so that the evaluation function V (x (t)) is maximized, and the input / output relationship is changed. However, the evaluation function V (x
(t)) is continuous,

【数1】 この学習方式では、ある環境のもとで最適な行動が学習
されるが、異なる環境では動作は保証されていない。ま
た、異なる環境に適応するためには再学習を行う必要が
あり、その再学習の時間が新たに必要となる。
[Equation 1] In this learning method, the optimal behavior is learned in one environment, but the behavior is not guaranteed in another environment. Further, in order to adapt to a different environment, it is necessary to re-learn, and a new re-learning time is required.

【0003】次に、従来のH∞制御について説明する。
図3において、制御対象Gから観測信号y(t) が制御器
Kに入力される。制御器Kは観測信号y(t) が入力され
ると、制御信号である行動信号u(t) を制御対象Gに出
力する。また、制御対象Gには外乱信号w(t) および行
動信号u(t) が入力され、これらの信号が入力される
と、評価用信号z(t) および観測信号y(t) を出力す
る。なお、外乱の影響を評価するための評価用信号z
(t) と、制御対象Gを観測して制御器Kに入力するフィ
ードバック信号である観測信号y(t) とは、同じにする
ことも可能であるが、異ならしめることも可能である。
そして、ロバスト制御の代表的な定式化であるH∞制御
問題の要請は、図3に図示するフィードバック系で未知
外乱やモデル誤差に起因する外乱信号w(t) による評価
用信号z(t) への影響を少なく抑えつつ、出力を安定化
する。すなわち、評価用信号z(t) =0に近づけること
である。具体的には、H∞ノルムによりシステムの外乱
に対する感度を測り、ロバスト性の基準値γ以下となる
ような制御器Kの設計を行う。ノルムとは、ある種の大
きさの指標であり、外乱信号w(t) から評価用信号z
(t) への伝達関数行列をT ZWとしたとき、そのH∞ノル
ム、‖TZW‖∞は次の(式2)のように定義される。
Next, conventional H∞ control will be described.
In FIG. 3, the observed signal y (t) from the controlled object G is the controller
Input to K. The observation signal y (t) is input to the controller K.
Then, the action signal u (t) which is a control signal is output to the controlled object G.
Force In addition, the disturbance signal w (t) and the line
Motion signal u (t) is input and these signals are input
And output the evaluation signal z (t) and the observation signal y (t).
It The evaluation signal z for evaluating the influence of disturbance
(t) and the input to the controller K by observing the controlled object G
It is the same as the observed signal y (t) which is the feedback signal
It is possible, but it is also possible to make them different.
And H∞ control, which is a typical formulation of robust control
The problem request is unknown in the feedback system shown in Fig. 3.
Evaluation by disturbance signal w (t) caused by disturbance or model error
Stabilizes the output while suppressing the influence on the signal z (t) for use
To do. That is, approach the evaluation signal z (t) = 0.
Is. Specifically, the H∞ norm causes system disturbance.
The sensitivity is measured to be less than the robustness standard value γ
Such a controller K is designed. The norm is a kind of large
It is an index of the strength, and the disturbance signal w (t) is used to evaluate the evaluation signal z
Transfer function matrix to (t) is T ZWAnd the H ∞ nor
Mu, ‖TZW‖∞ is defined as the following (Equation 2).

【数2】 ただし、 supw は外乱信号w(t) に関する上限を表し、
外乱信号w(t) を変化させたときに、‖z‖2 /‖w‖
2 が supw ( ‖z‖2 /‖w‖2 )より大きくならない
ことを示している。また、‖z‖2 および‖w‖2 はそ
れぞれ評価用信号z(t) および外乱信号w(t) のL2
ルムであり、次の(式3)および(式4)で定義され
る。
[Equation 2] However, sup w represents the upper limit for the disturbance signal w (t),
When the disturbance signal w (t) is changed, ‖z‖ 2 / ‖w‖
2 indicates that it does not become larger than sup w (‖z‖ 2 / ‖w‖ 2 ). Further, ‖z‖ 2 and ‖w‖ 2 are L 2 norms of the evaluation signal z (t) and the disturbance signal w (t), respectively, and are defined by the following (Equation 3) and (Equation 4).

【数3】 [Equation 3]

【数4】 [Equation 4]

【0004】ここで、評価関数Vを次の(式5)の様に
定義する。
Here, the evaluation function V is defined as in the following (formula 5).

【数5】 これを行動信号u(t) に関しては最大化し、外乱信号w
(t) に対しては最小化する問題を考える。その結果、V
≧0を満たす解を得られれば、(式2)の条件のもと
で、評価用信号z(t) の安定化が実現できる。
[Equation 5] This is maximized for the action signal u (t), and the disturbance signal w
Consider the minimization problem for (t). As a result, V
If a solution satisfying ≧ 0 is obtained, the evaluation signal z (t) can be stabilized under the condition of (Equation 2).

【0005】強化学習の課題のうち、予め与えられた目
標点あるいは目標軌道への近さを報酬信号とするもの
は、学習制御の課題と考えることができる。前記ロバス
ト制御の代表的な方法であるH∞制御は、システムの外
乱による影響の受けやすさをH∞ノルムで評価し、フィ
ードバック系のH∞ノルムを一定以下に抑える制御器を
設計することにより、外乱やモデル誤差に対するロバス
ト性を保証するものである。しかし、その制御器の解析
的な構成手法は線形システムに対し示されており、非線
形システムに対してはある限定されたシステムを除いて
は、一般に解析的に制御器を構築する方式はない。非線
形システムにおいて、多層神経回路網を用いて未知外乱
を考慮した状態価値関数を近似しロバスト制御を実現す
る手法が提案されているが、これらは、制御器の適応可
能範囲が線形近似可能な領域付近に限られていたり、学
習がオフラインのバッチ学習に限られている。また、こ
れらの学習には環境のモデルを必要としている。さら
に、状態を離散化し動的計画法を用いる方式も提案され
ているが、制御器の構築には、状態を離散化する過程
と、オフラインの計算過程とを必要とし、かつ、環境モ
デルを必要とする。また、ここまでに挙げたロバスト制
御器はレギュレータ(目標点を原点とし、その原点に制
御対象の状態を持って行く制御)としてのみ機能する。
Among the tasks of reinforcement learning, the task of which the reward signal is the proximity to a predetermined target point or target trajectory can be considered as a task of learning control. In the H∞ control, which is a typical method of the robust control, the susceptibility to the influence of the system disturbance is evaluated by the H∞ norm, and a controller that suppresses the H∞ norm of the feedback system below a certain level is designed. , Guarantees robustness against disturbances and model errors. However, the analytical construction method of the controller is shown for the linear system, and for the nonlinear system, there is generally no method for constructing the controller analytically except for a limited system. In the nonlinear system, the method of approximating the state-value function considering the unknown disturbance by using the multilayer neural network and realizing the robust control has been proposed, but these are the regions where the adaptive range of the controller can be linearly approximated. Limited to nearby areas and learning limited to offline batch learning. Moreover, the model of the environment is required for these learnings. Furthermore, a method of discretizing states and using dynamic programming has also been proposed, but the process of discretizing states and the process of off-line calculation are required to construct a controller, and an environmental model is also required. And Further, the robust controller described so far functions only as a regulator (control in which the target point is the origin and the state of the controlled object is brought to the origin).

【0006】ところで、従来のミニマックス戦略を用い
る強化学習方式では、オセロやバックギャモンの学習を
行っている。また、戦闘機やミサイルの逃亡追従問題に
適用した例もある。一方、本発明では、仮想的な敵を想
定して学習を行った後、実際に制御器を適用する際に
は、その外乱生成器を除いて制御器を構成するという点
で異なる。これは、外乱を仮想的な敵とみなすことによ
ってロバストな制御器を強化学習により構築するという
新しい発想に依存している。また、後述の(式8−2)
で定義される評価関数の予測誤差に重み付けをして学習
することで、ロバストな行動則を強化学習によって獲得
する手法とは異なり、本発明はH∞制御との関連や目的
関数が明確である。よって、最悪の外乱を求めていると
いう点において、より確実にロバストな制御器を獲得す
ることができる。
By the way, in the conventional reinforcement learning method using the minimax strategy, learning of Othello and backgammon is performed. There is also an example applied to the flight follow-up problem of fighters and missiles. On the other hand, the present invention is different in that the controller is configured excluding the disturbance generator when the controller is actually applied after learning is performed assuming a virtual enemy. This relies on the new idea of constructing robust controllers by reinforcement learning by treating disturbances as virtual enemies. In addition, (Expression 8-2) described later
Unlike the method in which a robust behavioral rule is obtained by reinforcement learning by weighting the prediction error of the evaluation function defined by, and learning, the present invention has a clear relation with H∞ control and an objective function. . Therefore, in terms of seeking the worst disturbance, it is possible to more reliably obtain a robust controller.

【0007】そして、後述のように、本発明の実施の形
態においては、非線形、オンライン、モデル非依存性の
動的最適化手法である強化学習方式に、ロバスト制御に
おける最悪外乱に対する感度の最小化の原理を導入する
ことにより、ロバスト強化学習方式を実現し、その制御
課題への適用により、非線形、オンライン、モデル非依
存性のロバスト学習制御を実現する。また、環境の近似
モデルが既知の場合、あるいは未知の場合でも、環境の
モデルを学習することにより、モデル依存の強化学習方
式を拡張し適用することにより、効率良く非線形ロバス
ト制御器をオンラインで構築することができる。
As will be described later, according to the embodiment of the present invention, the reinforcement learning method, which is a nonlinear, online, model-independent dynamic optimization method, is used to minimize the sensitivity to the worst disturbance in robust control. A robust reinforcement learning method is realized by introducing the principle of, and by applying it to the control task, a nonlinear, online, model-independent robust learning control is realized. Even if the approximate model of the environment is known or unknown, the model-dependent reinforcement learning method is expanded and applied by learning the model of the environment to efficiently construct a nonlinear robust controller online. can do.

【0008】この様なことができる利点は、環境が非定
常であった場合に、一度学習によって構築した非線形ロ
バスト制御器や環境モデルを用いれば、ある程度の環境
の変動なら再学習することなく対応することができるこ
とである。また、従来のロバスト制御は出力をある目標
値に収束させるレギュレータ問題に対してのみ定式化さ
れていたが、本発明のロバスト強化学習方式は、任意の
評価基準に対して適用可能である。
The advantage of being able to do this is that if the environment is non-stationary, if a nonlinear robust controller or environment model constructed by learning is used, it can be dealt with without re-learning if the environment changes to some extent. That is what you can do. Further, the conventional robust control has been formulated only for the regulator problem that causes the output to converge to a certain target value, but the robust reinforcement learning method of the present invention can be applied to any evaluation criterion.

【0009】[0009]

【発明が解決しようとする課題】この様に、従来の強化
学習では、環境の変動が生じた場合には、再学習する必
要があり、従来のロバスト制御の方式は環境のモデルが
未知の場合には対応することができなかった。さらに、
非線形系に適用可能な制御則の具体的方法は与えていな
い。
As described above, in the conventional reinforcement learning, it is necessary to re-learn when the environment changes, and the conventional robust control method is used when the environment model is unknown. Couldn't handle. further,
No specific method of control law applicable to nonlinear systems is given.

【0010】そこで本発明は、環境モデルが未知の場合
にも対応することができるとともに、非線形系に適用可
能な環境の変動に強いロバスト強化学習方式およびロバ
スト制御器を提供することを目的とする。
Therefore, an object of the present invention is to provide a robust reinforcement learning method and a robust controller which can cope with a case where an environment model is unknown and which can be applied to a non-linear system and which is resistant to a change in environment. .

【0011】[0011]

【課題を解決するための手段】このため、本発明が採用
した課題解決手段は、制御対象あるいは環境に行動信号
を出力するとともに学習機能を具備する行動生成器、お
よび制御対象あるいは環境に外乱信号を出力するととも
に学習機能を具備する外乱生成器を備え、目標の達成度
に応じた報酬に、前記外乱生成器からの外乱に耐えうる
ことに応じた報酬を加味した報酬信号である評価信号を
生成し、現在の状態から将来に向けて得られる評価信号
の荷重和の期待値を最大化(または最小化)するべく行
動生成器は学習し、一方、外乱生成器は前記評価信号の
荷重和の期待値を最小化(または最大化)すべく学習す
ることを特徴とする強化学習方式であり、前記学習方式
において、現在の状態から将来に向けて得られる評価信
号の和の期待値を予測する状態評価器を備え、その予測
誤差信号を、状態評価器、行動生成器、および外乱生成
器の少なくとも1個の学習に用いることを特徴とする強
化学習方式であり、前記状態評価器、行動生成器および
外乱生成器の少なくとも一個は、関数近似手段として、
入出力関係を示す参照テーブルを具備していることを特
徴とする強化学習方式であり、前記状態評価器、行動生
成器および外乱生成器の少なくとも一個は、関数近似手
段として、線形モデルまたは多項式モデルを具備してい
ることを特徴とする強化学習方式であり、前記状態評価
器、行動生成器および外乱生成器の少なくとも一個は、
関数近似手段として、多層神経回路網を具備しているこ
とを特徴とする強化学習方式であり、前記方式により、
予め学習された前記状態評価器と行動生成器または行動
生成器のみを用いた制御方式であり、前記方式を計算機
シミュレーションによって実現される環境モデルに適用
し、それによって学習された前記状態評価器と行動生成
器または行動生成器のみを実環境に適用することを特徴
とする制御方式であり、前記状態評価器または行動生成
器の少なくとも一方は、関数近似手段として、入出力関
係を示す参照テーブルを具備していることを特徴とする
ロバスト制御器であり、前記状態評価器または行動生成
器の少なくとも一方は、関数近似手段として、線形モデ
ル、多項式モデルまたは多層神経回路網を具備している
ことを特徴とするロバスト制御器である。
Therefore, the means for solving the problems adopted by the present invention is a behavior generator that outputs a behavior signal to a controlled object or environment and has a learning function, and a disturbance signal to the controlled object or environment. Is provided with a disturbance generator having a learning function and outputs an evaluation signal that is a reward signal in which the reward according to the degree of achievement of the target is added to the reward according to the ability to withstand the disturbance from the disturbance generator. The behavior generator learns to maximize (or minimize) the expected sum of the weighted sums of the evaluation signals generated from the current state to the future, while the disturbance generator generates the sum of weights of the evaluation signals. Is a reinforcement learning method characterized by learning to minimize (or maximize) the expected value of, and in the learning method, the expected value of the sum of evaluation signals obtained from the current state to the future is calculated. A state evaluator for measurement, and a prediction error signal thereof is used for learning of at least one of a state evaluator, a behavior generator, and a disturbance generator. At least one of the behavior generator and the disturbance generator is, as a function approximation means,
A reinforcement learning method characterized by comprising a reference table showing an input / output relationship, wherein at least one of the state evaluator, the action generator and the disturbance generator is a linear model or a polynomial model as a function approximation means. It is a reinforcement learning method characterized by comprising, at least one of the state evaluator, the action generator and the disturbance generator,
A reinforcement learning method characterized by comprising a multi-layer neural network as a function approximating means.
It is a control method using only the state evaluator and the action generator that have been learned in advance or the action generator, the method is applied to an environment model realized by computer simulation, and the state evaluator learned by it A behavioral generator or a control method characterized in that only the behavioral generator is applied to a real environment, at least one of the state evaluator or the behavioral generator, as a function approximating means, a reference table showing an input / output relationship. A robust controller characterized in that at least one of the state evaluator or the behavior generator comprises a linear model, a polynomial model or a multilayer neural network as a function approximating means. It features a robust controller.

【0012】[0012]

【実施の形態】次に、本発明における強化学習方式およ
びロバスト制御器の実施の一形態を説明する。図1は本
発明の実施の形態のロバスト強化学習方式に用いる回路
のブロック図である。図4は第1具体例の説明図で、
(a)が概略図、(b)が1mの長さの振り子の角度変
化のグラフである。図5は第1具体例の角度変化のグラ
フで、(a)が0.5mの長さの振り子のグラフ、
(b)が2mの長さの振り子のグラフである。図6は第
2具体例の概略図である。図7は第2具体例の位置変化
のグラフで、(a)が1kgの質量の搬送物を用いた場
合のグラフ、(b)が3kgの質量の搬送物を用いた場
合のグラフである。
BEST MODE FOR CARRYING OUT THE INVENTION Next, an embodiment of a reinforcement learning method and a robust controller according to the present invention will be described. FIG. 1 is a block diagram of a circuit used in the robust reinforcement learning method according to the embodiment of the present invention. FIG. 4 is an explanatory diagram of the first specific example.
(A) is a schematic diagram and (b) is a graph of the angle change of a pendulum having a length of 1 m. FIG. 5 is a graph of an angle change of the first specific example, (a) is a graph of a pendulum having a length of 0.5 m,
(B) is a graph of a pendulum having a length of 2 m. FIG. 6 is a schematic view of the second specific example. 7A and 7B are graphs of the position change of the second specific example, where FIG. 7A is a graph when a conveyed product having a mass of 1 kg is used, and FIG. 7B is a graph when a conveyed product having a mass of 3 kg is used.

【0013】本発明では、外乱や環境の変化に対してロ
バストな強化学習を実現するため、目標の達成度に応じ
た報酬r(t)に対して、外乱に耐えうることに応じた
報酬s(t)を加えた新たな報酬である評価信号q(t)
を次のように定義した時、
According to the present invention, in order to realize robust reinforcement learning against disturbances and changes in the environment, the reward s corresponding to the ability to withstand the disturbances is given to the reward r (t) according to the achievement level of the target. Evaluation signal q (t) which is a new reward with (t) added
When is defined as

【0014】[0014]

【数6】 この評価信号q(t)を報酬とした最大最小問題を強化
学習方式の枠組みにおいて解く。よって、前述のH∞制
御の問題設定は、本発明の実現例の一つとなっているこ
とがわかる。以上を考慮した上で、次のようにロバスト
強化学習の学習方式に用いる回路を図1に図示するよう
に構築する。
[Equation 6] The maximum / minimum problem with the evaluation signal q (t) as a reward is solved in the framework of the reinforcement learning method. Therefore, it is understood that the above-mentioned problem setting of the H∞ control is one of the implementation examples of the present invention. In consideration of the above, a circuit used in the learning method of robust reinforcement learning is constructed as shown in FIG. 1 as follows.

【0015】この図1の説明において、図2の従来の回
路と同じ構成要素には同じ符号を付して、その説明は省
略する。この図1においては、外乱生成器4が設けられ
ている。そして、環境1からの観測信号y(t)が、状
態推定器を介して状態信号x(t) となり、行動生成器
2、状態評価器3および外乱生成器4に入力されてい
る。この外乱生成器4は状態信号x(t) が入力される
と、外乱信号w(t) を環境1および状態評価器3に出力
する。この状態評価器3は、環境1からの目標報酬信号
r(t) と、外乱生成器4からの外乱信号w(t) に基づい
て生成した外乱報酬信号s(t) とに基づいて、現在の状
態x(t) から将来に向けて得られる評価信号q(t) の荷
重和の期待値を予測し、その予測値に基づいて予測誤差
信号δ(t) を生成し、行動生成器2および外乱生成器4
に出力する。この様にして、状態評価器3は、外乱報酬
信号s(t) に目標報酬信号r(t) を加算して評価信号q
(t) を得て、予測誤差信号δ(t) を生成し出力してい
る。そして、行動生成器2は予測誤差信号δ(t) が入力
されると、現在の状態x(t) から将来に向けて得られる
上記評価信号q(t) の荷重和の期待値を最大化するべく
学習し、その入出力関係を変更する。一方、外乱生成器
4は予測誤差信号δ(t) が入力されると、現在の状態x
(t) から将来に向けて得られる上記評価信号q(t) の荷
重和の期待値を最小化するべく学習し、その入出力関係
を変更する。
In the description of FIG. 1, the same components as those of the conventional circuit of FIG. 2 are designated by the same reference numerals, and the description thereof will be omitted. In FIG. 1, a disturbance generator 4 is provided. Then, the observation signal y (t) from the environment 1 becomes a state signal x (t) via the state estimator, and is input to the behavior generator 2, the state evaluator 3, and the disturbance generator 4. When the state signal x (t) is input, the disturbance generator 4 outputs the disturbance signal w (t) to the environment 1 and the state evaluator 3. The state evaluator 3 is based on the target reward signal r (t) from the environment 1 and the disturbance reward signal s (t) generated based on the disturbance signal w (t) from the disturbance generator 4 The expected value of the sum of weights of the evaluation signal q (t) obtained for the future from the state x (t) of is predicted, the prediction error signal δ (t) is generated based on the predicted value, and the behavior generator 2 And the disturbance generator 4
Output to. In this way, the state evaluator 3 adds the target reward signal r (t) to the disturbance reward signal s (t) to obtain the evaluation signal q.
After obtaining (t), the prediction error signal δ (t) is generated and output. Then, when the prediction error signal δ (t) is input, the behavior generator 2 maximizes the expected value of the weighted sum of the evaluation signal q (t) obtained from the current state x (t) toward the future. Learn to do so and change its input / output relationship. On the other hand, when the prediction error signal δ (t) is input to the disturbance generator 4, the current state x
Learning is performed to minimize the expected value of the weighted sum of the evaluation signal q (t) obtained from (t) toward the future, and the input / output relationship is changed.

【0016】状態評価器3は、(式7)で定義される現
在の状態x(t) から将来に向けて得られる評価信号q
(t) の期待値V(x(t))を予測する。ただし、τは評価
の時定数である。
The state evaluator 3 calculates an evaluation signal q obtained in the future from the present state x (t) defined by (Equation 7).
Predict the expected value V (x (t)) of (t). However, τ is a time constant for evaluation.

【数7】 行動生成器2および外乱生成器4は、この期待値V(x
(t))がそれぞれ、最大化、最小化される様に行動信号u
(t) 、外乱信号w(t) を学習する。なお、行動生成器
2、状態評価器3および外乱生成器4としては、参照テ
ーブル、線形モデル、多項式モデル、多層神経回路網な
どを用いることができる。
[Equation 7] The behavior generator 2 and the disturbance generator 4 have the expected value V (x
(t)) so that the action signal u is maximized and minimized, respectively.
(t), the disturbance signal w (t) is learned. A reference table, a linear model, a polynomial model, a multilayer neural network, etc. can be used as the behavior generator 2, the state evaluator 3, and the disturbance generator 4.

【0017】ロバスト強化学習を行う時点においては、
状態評価器3、行動生成器2および外乱生成器4は同時
に作動させるが、実際に学習した行動則を制御対象また
は環境に用いる段階においては、状態評価器3および行
動生成器2、或いは、行動生成器2のみを用いて動作さ
せる。この行動生成器2には、観測信号y(t) として状
態信号x(t) が直接得られる場合はそれを用いるが、一
般にはオブザーバ、カルマンフィルタなどにより状態信
号x(t) を推定し入力として用い、また、学習時には、
環境1はモデルでも、実際の環境でも可能である。そし
て、実際の環境の場合には、行動信号u(t) および外乱
信号w(t) は、アクチュエータなどの駆動源や、低レベ
ルの制御プログラムへの指令などの作動手段を介して環
境1に入力される。一方、報酬信号r(t) や状態信号x
(t) は、センサーなどの検知手段を介して環境1から出
力される。
At the time of performing robust reinforcement learning,
The state evaluator 3, the action generator 2, and the disturbance generator 4 are operated at the same time, but at the stage where the actually learned action rule is used as a control target or environment, the state evaluator 3 and the action generator 2 or the action Only the generator 2 is used for operation. In this action generator 2, when the state signal x (t) is directly obtained as the observation signal y (t), it is used, but generally, the state signal x (t) is estimated by an observer, Kalman filter, etc. When using and learning
Environment 1 can be a model or an actual environment. In the case of an actual environment, the action signal u (t) and the disturbance signal w (t) are transferred to the environment 1 via a driving source such as an actuator or an operating means such as a command to a low-level control program. Is entered. On the other hand, the reward signal r (t) and the state signal x
(t) is output from the environment 1 via a detection means such as a sensor.

【0018】そして、状態評価器3は、評価関数V(x
(t))のパラメータv={v1 ,v2,…,vi ,…}を
持つ近似器V(x(t) ;v)として実現され、その手段
としては、前述の参照テーブル、線形モデル、多項式モ
デルおよび多層神経回路網を用いることができる。
The state evaluator 3 then evaluates the evaluation function V (x
(t)) is realized as an approximator V (x (t); v) having parameters v = {v 1 , v 2 , ..., V i , ...} Models, polynomial models and multilayer neural networks can be used.

【0019】この様にして、状態評価器3は、環境1か
ら目標報酬信号r(t) を得る手段と、外乱生成器4から
外乱信号w(t) を得る手段と、目標報酬に外乱報酬を加
味した評価信号q(t) を得る手段と、現在の状態から将
来に向けて得られる評価信号q(t) の和の期待値を予測
し、予測誤差信号δ(t) を生成する手段とを有してい
る。また、行動生成器2は、環境1から状態信号x(t)
を得る手段と、状態評価器3から予測誤差信号δ(t) を
得る手段と、環境1に行動信号u(t) を出力する手段
と、現在の状態から将来に向けて得られる評価信号q
(t) の和の期待値が最大化する様に学習する手段とを有
している。そして、外乱生成器4は、環境1から状態信
号x(t) を得る手段と、状態評価器3から予測誤差信号
δ(t) を得る手段と、環境1に外乱信号w(t) を出力す
る手段と、現在の状態から将来に向けて得られる評価信
号q(t) の和の期待値が最小化する様に学習する手段と
を有している。
In this way, the state evaluator 3 obtains the target reward signal r (t) from the environment 1, the means to obtain the disturbance signal w (t) from the disturbance generator 4 and the target reward signal. Means for obtaining the evaluation signal q (t) with the addition of the above, and means for predicting the expected value of the sum of the evaluation signal q (t) obtained from the current state toward the future, and generating the prediction error signal δ (t). And have. In addition, the behavior generator 2 receives the state signal x (t) from the environment 1.
, A means for obtaining the prediction error signal δ (t) from the state evaluator 3, a means for outputting the action signal u (t) to the environment 1, and an evaluation signal q obtained from the present state toward the future.
It has means for learning so that the expected value of the sum of (t) is maximized. Then, the disturbance generator 4 outputs a disturbance signal w (t) to the environment 1, a means for obtaining the state signal x (t) from the environment 1, a means for obtaining the prediction error signal δ (t) from the state evaluator 3. And means for learning so that the expected value of the sum of the evaluation signals q (t) obtained from the current state toward the future is minimized.

【0020】以降、離散系での評価関数の学習、連続系
での評価関数の学習、離散系での行動決定方法、連続系
での行動決定方法の順に示す。離散系での評価関数の学
習:次の様な確率分布Pにしたがう動的制御対象を考え
る。 P(xT+1 |xT ,uT ,wT ) ただし、xT は状態変数、uT は制御入力、wT は外乱
入力を表す。このとき、求めるべき評価関数VT は次の
式で表される。
Hereinafter, the learning of the evaluation function in the discrete system, the learning of the evaluation function in the continuous system, the action determining method in the discrete system, and the action determining method in the continuous system will be described in this order. Learning Evaluation Function in Discrete System: Consider a dynamic control target according to the following probability distribution P. P (x T + 1 | x T , u T , w T ) where x T is a state variable, u T is a control input, and w T is a disturbance input. At this time, the evaluation function V T to be obtained is expressed by the following equation.

【数8】 ただし、qT はただちに得られる評価信号、α(0≦α
≦1)は評価の減衰率を表す。そこで、状態評価値の予
測誤差δT は次式のように表される。 δT =qT +αVT+1 −VT (式8−2)
[Equation 8] However, q T is an evaluation signal obtained immediately, α (0 ≦ α
≦ 1) represents the evaluation attenuation rate. Therefore, the prediction error [delta] T of the state evaluation value is expressed by the following equation. δ T = q T + αV T + 1 −V T (Equation 8-2)

【0021】よって、この予測誤差δT と、次の(式
9)で表される各パラメータの寄与度の履歴eiTを用い
て、
Therefore, using this prediction error δ T and the contribution history e iT of each parameter represented by the following (Equation 9),

【数9】 パラメータの更新量Δvi は、次式のように表される。 Δvi =ηδT iT ただし、λはパラメータの寄与度の履歴の減衰率を、η
は学習率を表す。また、各パラメータの寄与度の履歴e
iTは(式9)の定義より次式を用いて更新される。
[Equation 9] The parameter update amount Δv i is expressed by the following equation. Δv i = ηδ T e iT where λ is the attenuation rate of the history of the contribution of the parameter, η
Represents the learning rate. Also, the history e of contribution of each parameter
iT is updated using the following equation from the definition of (Equation 9).

【数10】 [Equation 10]

【0022】連続系での評価関数の学習:次の様な動的
制御対象を考える(状態変数x(t)の時間変化dx/d
tを、状態変数x(t) 、制御入力u(t) 、外乱入力w
(t) 、ノイズ入力n(t)の関数として考える)。 dx/dt=f(x(t),u(t),w(t))+n(t) ただし、このとき、求めるべき評価関数V(t) は次式で
表される。
Learning of evaluation function in continuous system: Consider the following dynamic control target (time change dx / d of state variable x (t))
t is state variable x (t), control input u (t), disturbance input w
(t), considered as a function of the noise input n (t)). dx / dt = f (x (t), u (t), w (t)) + n (t) However, at this time, the evaluation function V (t) to be obtained is represented by the following equation.

【数11】 ただし、q(t) はただちに得られる報酬であり、τは評
価値の時定数である。よって、状態評価値の予測誤差δ
(t) は次式のように表される。 δ(t) =q(t) −(1/τ)×V(t) +dV(t) /dt
[Equation 11] However, q (t) is the reward immediately obtained, and τ is the time constant of the evaluation value. Therefore, the prediction error δ of the state evaluation value
(t) is expressed by the following equation. δ (t) = q (t)-(1 / τ) x V (t) + dV (t) / dt

【0023】ここで得られる状態評価値の予測誤差δ
(t) と、次式で表される各パラメータの寄与度の履歴を
用いて、
Prediction error δ of the state evaluation value obtained here
Using (t) and the contribution history of each parameter expressed by the following equation,

【数12】 ただし、kはパラメータの寄与度の履歴の時定数であ
る。状態評価器のパラメータの更新量dvi /dt(連
続系ではパラメータvi の時間微分で表される)は次式
のように表される。 dvi /dt=ηδ(t) ei (t) ただし、ηは学習率を表す。
[Equation 12] However, k is a time constant of the history of the contribution degree of the parameter. The update amount dv i / dt of the parameter of the state evaluator (represented by the time derivative of the parameter v i in the continuous system) is expressed by the following equation. dv i / dt = ηδ (t) e i (t) where η represents the learning rate.

【0024】また、各パラメータの寄与度の履歴e
i (t) の更新量dei (t) /dtは、(式12)の定義
により次式を用いて更新される。
Also, the history e of the contribution of each parameter
update amount de i (t) / dt of i (t) is updated using the following equation by the definition of (Equation 12).

【数13】 [Equation 13]

【0025】離散系での行動決定方法: (モデル非依存の場合)次式で示す確率分布Prに従っ
て、状態sにおける行動aを決定する。
Behavior determination method in discrete system: (in the case of model independence) Behavior a in state s is determined according to the probability distribution Pr shown by the following equation.

【数14】 ただし、A(s,a) は行動決定のためのパラメータであ
り、状態sにおける行動aの取りやすさを表している。
また、βは行動のランダムさを表すパラメータである。
この時、行動生成器のパラメータ更新量ΔAu (sT , a
uT) と、外乱生成器のパラメータ更新量ΔAw (sT , a
wT) は(式8−2)の予測誤差δT を用いて次式でそれ
ぞれ表される。 ΔAu (sT , auT) =ηA U δT ΔAw (sT , awT) =−ηA W ηA δT ただし、ηA U ,ηA W は学習率を表す。また、auT
wTはそれぞれ、時刻Tにおける行動生成器と外乱生成
器の行動を表す。
[Equation 14] However, A (s, a) is a parameter for action determination, and represents the ease of action a in state s.
Further, β is a parameter indicating the randomness of the action.
At this time, the parameter update amount ΔA u (s T , a of the action generator)
uT ) and the disturbance generator parameter update amount ΔA w (s T , a
wT) is respectively represented by the following equation using the prediction error [delta] T (Equation 8-2). ΔA u (s T, a uT ) = η A U δ T ΔA w (s T, a wT) However = -η A W η A δ T , η A U, η A W represents a learning rate. Also, a uT ,
awT represents the actions of the action generator and the disturbance generator at time T, respectively.

【0026】モデル非依存の学習方式として、行動価値
関数を学習することによって、ロバスト強化学習を実現
することができる。つまり、次式で表される行動価値関
数の予測誤差δT を用いて、
As a model-independent learning method, robust reinforcement learning can be realized by learning the action value function. That is, using the prediction error δ T of the action value function expressed by the following equation,

【数15】 行動価値関数の更新量ΔQ( sT , auT, wT)は次式
のようになる。 ΔQ( sT , auT, wT)=ηQ δT ただし、ηQ は学習率、αは評価の減衰率である。
[Equation 15] The update amount ΔQ (s T , a uT, a wT ) of the action value function is given by the following equation. ΔQ (s T , a uT, a wT ) = η Q δ T where η Q is a learning rate and α is an evaluation decay rate.

【0027】次式で示す確率分布Prw に従って、状態
sにおいて、外乱生成器の行動awT j をすべての行動生
成器の行動aujに関して決定する。
In the state s, the action a wT j of the disturbance generator is determined with respect to the actions a uj of all the action generators according to the probability distribution Pr w shown by the following equation.

【数16】 この場合、確率分布Prw に従うことで、小さい行動価
値を持つ外乱生成器の行動aw を高い確率で選択するこ
とになる。これによって、目的とする課題の達成にとっ
て外乱生成器が最悪の外乱を生成するようになる。ただ
し、βは行動のランダムさを表すパラメータである。
[Equation 16] In this case, by following the probability distribution Pr w , the action a w of the disturbance generator having a small action value is selected with high probability. This causes the disturbance generator to generate the worst disturbance for achieving the intended task. However, β is a parameter indicating the randomness of the action.

【0028】次に、次式で表される確率分布Pru に従
って、状態sにおいて、行動生成器の行動auTをすでに
決定した外乱生成器のaujに対する行動awTj を用いて
決定する。
Next, according to a probability distribution Pr u represented by the following formula, in the state s, determined by using an action a WTj for a uj disturbance generator which already determines an activity a uT action generator.

【数17】 ただし、行動生成器が行動auT=aujを選択した時、外
乱生成器は行動awT=awTj を選択する。この場合、確
率分布Pru に従うことで、大きい行動価値を持つ行動
生成器の行動aujを高い確率で選択することになる。こ
れによって、目的とする課題の達成にとって行動生成器
が最高の行動出力を生成するようになる。ただし、βは
行動のランダムさを表すパラメータである。
[Equation 17] However, when the action generator selects the action a uT = a uj , the disturbance generator selects the action a wT = a wTj . In this case, by following the probability distribution Pr u , the action a uj of the action generator having a large action value is selected with high probability. This causes the behavior generator to generate the highest behavior output for achieving the desired task. However, β is a parameter indicating the randomness of the action.

【0029】離散系での行動決定方法: (モデル依存の場合)状態XT において、行動生成器の
行動がuで、外乱生成器の行動がwであり、その結果状
態XT+1 にたどり着いたとする。そのときに得られる評
価信号qT+1とすれば、環境のモデルを用いて、行動生
成器の行動uT
Behavior determination method in discrete system: (in case of model dependence) In state X T , the behavior generator behavior is u and the disturbance generator behavior is w, and as a result, the state X T + 1 is reached. Suppose If the evaluation signal q T + 1 obtained at that time is used, the action u T of the action generator is calculated using the model of the environment.

【数18】 ただし、αは評価の減衰率、P(xT+1 |xT ,u,
w)は状態xT において行動生成器が行動uを出力し外
乱生成器が外乱wを出力した時、状態xT+1 に遷移する
確率。
[Equation 18] Where α is the attenuation factor of the evaluation, P (x T + 1 | x T , u,
w) when the output to the disturbance generator action generator action u in state x T has output the disturbance w is the probability of transition to a state x T + 1.

【0030】連続系での行動決定方法: (モデル非依存の場合)行動生成器の行動をu(t),
外乱生成器の行動をw(t)とすると、それぞれ、 u(t)=A(x(t);vAu)+nu (t) w(t)=A(x(t);vAw)+nw (t) のように表される。ただし、nu (t),nw (t)は
探索のためのノイズ入力を表す。それぞれの行動は、パ
ラメータvA ={v 1 A ,v 2 A ,…, i A ,…}を
持つ近似器A(x(t);vA )として実現され、その
手段としては、線形モデル、多項式モデルおよび多層神
経回路網などを用いることができる。また、それぞれの
パラメータは、前述の予測誤差信号δ(t)を用いて以
下のように更新する。
Behavior determination method in continuous system: (in the case of model independence) u (t),
If the behavior of the disturbance generator is w (t), then u (t) = A (x (t); v Au ) + n u (t) w (t) = A (x (t); v Aw ) It is expressed as + n w (t). However, n u (t) and n w (t) represent noise inputs for searching. Each action is realized as an approximator A (x (t); v A ) having parameters v A = {v 1 A , v 2 A , ... , V i A , ...} Models, polynomial models, multilayer neural networks, etc. can be used. Also, each parameter is updated as follows using the above-mentioned prediction error signal δ (t).

【数19】 (モデル依存の場合)環境のモデルを用いることが可能
な場合は、状態評価器の勾配を用いて、モデル非依存性
の場合に比べて効率的に学習を行うことができる。ここ
で、環境モデルと報酬モデルを次式で表す。
[Formula 19] (In the case of model dependence) When a model of the environment can be used, the gradient of the state evaluator can be used to perform learning more efficiently than in the case of model independence. Here, the environment model and the reward model are expressed by the following equations.

【数20】 すると、評価関数の勾配と、環境モデルから得られる入
力ゲインg1(x),g2(x)を用いて、行動生成器の最
適出力uopと、外乱生成器の最適出力wopはそれぞれ次
式で表される。
[Equation 20] Then, a gradient of the evaluation function, the input gain g 1 obtained from the environment model (x), using g 2 a (x), and an optimal output u op action generator, optimal output w op of the disturbance generator, respectively It is expressed by the following equation.

【数21】 入力ゲインg1(x),g2(x)は必ずしも既知ではなく
ても、状態評価の学習と同時に環境モデルを学習するこ
とによって求めることができる。
[Equation 21] The input gains g 1 (x) and g 2 (x) are not necessarily known, but can be obtained by learning the state evaluation and the environment model at the same time.

【0031】具体例1:単振り子の振り上げ 図4の様な単振り子の制御にロバスト強化学習を適用
し、学習された制御器を用いて単振り子の振り上げを行
った例を示す。単振り子は質量m=1〔kg〕、長さL
〔m〕で、状態変数はx=(θ,dθ/dt)であり、
振り子の角度と角速度で表す。制御指令u=Tは振り子
の回転軸中心での駆動トルクである。したがって、(式
18−1,式18−2,式18−3)との対応を考える
と、振り子の運動方程式を構成するそれぞれの関数は以
下のように与えられる。
Concrete Example 1: Swinging up of a Simple Pendulum An example is shown in which robust reinforcement learning is applied to control of a simple pendulum as shown in FIG. 4, and a simple pendulum is swung up using a learned controller. Single pendulum has mass m = 1 [kg] and length L
In [m], the state variable is x = (θ, dθ / dt),
It is represented by the pendulum angle and angular velocity. The control command u = T is a drive torque at the center of the pendulum rotation axis. Therefore, considering the correspondence with (Expression 18-1, Expression 18-2, Expression 18-3), the respective functions forming the equation of motion of the pendulum are given as follows.

【数22】 よって、評価信号は以下の関数で表される。[Equation 22] Therefore, the evaluation signal is represented by the following function.

【0032】 q(t) =cos(θ)−1−0.08u2 +γ2 2 状態変数がx=(θ,dθ/dt)であり、学習時の振
り子の質量がm=1〔kg〕、長さL=1〔m〕である
ことから、(式19−1、式19−2、式19−3)よ
り、行動生成器および外乱生成器は下記のごとくなる。
Q (t) = cos (θ) -1-0.08u 2 + γ 2 w 2 The state variable is x = (θ, dθ / dt), and the mass of the pendulum during learning is m = 1 [kg]. , And the length L = 1 [m], the behavior generator and the disturbance generator are as follows from (Equation 19-1, Equation 19-2, Equation 19-3).

【数23】 ここで、状態変数は連続であるので、状態評価器の関数
近似手段として多層神経回路網を用いた。
[Equation 23] Here, since the state variables are continuous, a multilayer neural network was used as the function approximating means of the state evaluator.

【0033】このようにして、学習した行動生成器を、
非線形ロバスト制御器として採用し、長さL=0.5,1.0,
2.0 〔m〕の3種の異なる長さを持つシステムに適用し
た。また、従来の強化学習を用いて学習した制御器に対
しても同様の実験を行った。その結果を以下に示す。
In this way, the behavior generator learned is
Adopted as a non-linear robust controller, length L = 0.5,1.0,
It was applied to a system having three different lengths of 2.0 [m]. Moreover, the same experiment was conducted for the controller learned by the conventional reinforcement learning. The results are shown below.

【0034】図4(b)および図5において、実線で図
示するように、全ての環境において、非線形ロバスト制
御器は単振り子の振り上げに成功している。ただし、グ
ラフの縦軸は振り子の回転角を、横軸は時間を表してい
る。一点鎖線は振り上がった状態を示している。そし
て、実線は、一点鎖線で示す直線に収束しているため、
振り上げに成功していることが分かる。
As shown by the solid lines in FIGS. 4 (b) and 5, the nonlinear robust controller succeeds in swinging up the single pendulum in all environments. However, the vertical axis of the graph represents the rotation angle of the pendulum, and the horizontal axis represents time. The alternate long and short dash line shows the state of being swung up. And since the solid line converges to the straight line indicated by the one-dot chain line,
It can be seen that the swing was successful.

【0035】一方、破線で示すように、通常の強化学習
で学習した従来の制御器は、学習時に用いた環境と同一
の環境以外では振り子を振り上げることができていな
い。図4(b)に示す様に、学習時の環境(振り子の長
さL=1.0[m])で振り上げを行うと、振り上げ軌道が一
点鎖線に収束していることが分かるが、図5に示したよ
うに、学習時の環境以外(振り子の長さL=0.5[m],2.
0[m])の環境下で振り上げを行うと、振り上げ軌道は一
点鎖線に収束しておらず、振り上げができていないこと
が分かる。
On the other hand, as shown by the broken line, the conventional controller learned by the normal reinforcement learning cannot raise the pendulum except in the same environment as the environment used at the time of learning. As shown in FIG. 4 (b), when swinging up in the learning environment (pendulum length L = 1.0 [m]), it can be seen that the swinging up trajectory converges on the alternate long and short dash line. As shown, except for the learning environment (pendulum length L = 0.5 [m], 2.
When swinging up under the environment of 0 [m]), the swinging trajectory does not converge to the alternate long and short dash line, and it can be seen that swinging up is not possible.

【0036】具体例2:非線形力場における荷物の搬送 ここでは、図6の様な直動アクチュエータ11に搬送物
12を載せて運搬することを考える。ただし、勾配のた
めに制御対象に非線形性があり、また、アクチュエータ
11を小型化するために、大きな出力が出ないような状
況を想定する。制御対象の運動方程式は、勾配をθ、摩
擦係数μ=0.01, 重力加速度g=9.8[m/s2] とすると次
式で表される。
Concrete Example 2: Conveyance of luggage in a non-linear force field Here, it is considered that the conveyed article 12 is carried on the linear motion actuator 11 as shown in FIG. However, it is assumed that the controlled object has non-linearity due to the gradient and that the actuator 11 is downsized so that a large output is not output. The equation of motion of the controlled object is represented by the following equation, where the gradient is θ, the friction coefficient μ = 0.01, and the gravitational acceleration g = 9.8 [m / s 2 ].

【数24】 ただし、状態変数はx=(a,da/dt)であり、aはアク
チュエータ11の水平方向の位置を、 da/dtは速度を表
す。また、Fはアクチュエータ11が与える力であり、
Mは搬送物12の質量、mはアクチュエータ11の質量
である。そして、勾配θは、水平位置がaの場合には、
θ= arctan(cos(πa))となる。
[Equation 24] However, the state variable is x = (a, da / dt), a represents the horizontal position of the actuator 11, and da / dt represents the speed. Further, F is a force given by the actuator 11,
M is the mass of the conveyed product 12, and m is the mass of the actuator 11. When the horizontal position is a, the gradient θ is
θ = arctan (cos (πa)).

【0037】したがって、(式18−1、式18−2、
式18−3)との対応を考えると、運搬用アクチュエー
タ11の運動方程式を構成するそれぞれの関数は以下の
ように与えられる。
Therefore, (Equation 18-1, Equation 18-2,
Considering the correspondence with Expression 18-3), the respective functions forming the equation of motion of the transport actuator 11 are given as follows.

【数25】 ここで、また、(式6)に対応する報酬は以下の関数を
用いた。 q(t) =1.0 −0.02u2 +γ2 2 (if 0.4≦a≦0.6) =− 0.5−0.02u2 +γ2 2 (otherwise)
[Equation 25] Here, the following function was used as the reward corresponding to (Equation 6). q (t) = 1.0 -0.02u 2 + γ 2 w 2 (if 0.4 ≦ a ≦ 0.6) = - 0.5-0.02u 2 + γ 2 w 2 (otherwise)

【0038】状態変数がx=(a,da/dt)であり、学習
時のアクチュエータ11の質量がm=1〔kg〕、搬送
物12の質量M=1〔kg〕であることから、(式19
−2)(式19−3)より、行動生成器および外乱生成
器は下記のごとくなる。
Since the state variable is x = (a, da / dt), the mass of the actuator 11 at the time of learning is m = 1 [kg], and the mass of the transported object 12 is M = 1 [kg], Formula 19
-2) From (Equation 19-3), the behavior generator and the disturbance generator are as follows.

【数26】 ここで、状態変数は連続であるので、状態評価器の関数
近似手段として多層神経回路網を用いた。
[Equation 26] Here, since the state variables are continuous, a multilayer neural network was used as the function approximating means of the state evaluator.

【0039】そして、ある目標地点(図7において一点
鎖線で図示する)に移動させることを学習した。なお、
図7では、縦軸にアクチュエータ11の位置、横軸に時
間を取っている。
Then, it was learned to move to a certain target point (illustrated by a chain line in FIG. 7). In addition,
In FIG. 7, the vertical axis represents the position of the actuator 11, and the horizontal axis represents time.

【0040】このようにして、学習した行動生成器を、
非線形ロバスト制御器として採用し、学習時と同じ質量
(M=1〔kg〕)の搬送物12を載せた場合と、学習時
よりも重い搬送物12(M=3〔kg〕)を載せた場合と
で、15〔m〕離れた地点から目標地点まで搬送するシ
ミュレーション実験を行った結果を図7(a)および図
7(b)に実線でそれぞれ示した。図7(a)および
(b)の両方の実線は、アクチュエータ11の軌道が目
標地点を示す一点鎖線に収束していることから、搬送物
12の質量が、M=1〔kg〕,M=3〔kg〕の両方の場
合で搬送を行うことができることが分かる。
In this way, the learned behavior generator is
Adopted as a non-linear robust controller, the case where the load 12 with the same mass (M = 1 [kg]) as during learning was placed and the load 12 (M = 3 [kg]) that was heavier than during learning was placed. In each case, the results of a simulation experiment of transporting from a point 15 [m] apart to a target point are shown by solid lines in FIG. 7 (a) and FIG. 7 (b). 7 (a) and 7 (b), since the trajectory of the actuator 11 converges on the alternate long and short dash line indicating the target point, the mass of the conveyed product 12 is M = 1 [kg], M = It can be seen that the conveyance can be performed in both cases of 3 [kg].

【0041】一方、通常の強化学習で学習した従来の制
御器に対しても、同様の実験を行い、その結果を図7に
破線で図示した。図7(a)の破線で図示したように、
搬送物12の質量がM=1〔kg〕の場合には、アクチュ
エータ11の軌道が、目標地点をしめす一点鎖線に収束
していることから、目標地点への搬送に成功しているこ
とが分かる。しかし、図7(b)の破線で図示したよう
に、搬送物12の質量がM=3〔kg〕の場合には、アク
チュエータ11の軌道が、目標地点をしめす一点鎖線に
収束していないことから、目標地点への搬送ができてい
ないことが分かる。この様に、本発明のロバスト強化学
習方式を用いて獲得した制御器は、搬送物12の質量に
ばらつきがある場合でも、ある程度の範囲内で対応する
ことができる。
On the other hand, the same experiment was conducted for the conventional controller learned by the normal reinforcement learning, and the result is shown by the broken line in FIG. As shown by the broken line in FIG.
When the mass of the transported object 12 is M = 1 [kg], the trajectory of the actuator 11 converges on the alternate long and short dash line indicating the target point, which indicates that the transport to the target point is successful. . However, as shown by the broken line in FIG. 7B, when the mass of the conveyed product 12 is M = 3 [kg], the trajectory of the actuator 11 does not converge to the alternate long and short dash line indicating the target point. From this, it can be seen that the transportation to the target point has not been completed. As described above, the controller obtained by using the robust reinforcement learning method of the present invention can cope with the mass of the transported object 12 within a certain range.

【0042】以上、本発明の実施の形態について説明し
たが、本発明の趣旨の範囲内で種々の形態を実施するこ
とが可能である。
Although the embodiments of the present invention have been described above, various embodiments can be implemented within the scope of the spirit of the present invention.

【0043】[0043]

【発明の効果】以上述べた如く、本発明によれば、目標
の達成度に応じた報酬に、外乱に耐えうることに応じた
報酬を加味した報酬信号である評価信号を生成し、現在
の状態から将来に向けて得られる評価信号の和の期待値
を最大化するべく行動生成器は学習し、一方、外乱生成
器は前記評価信号の和の期待値を最小化すべく学習する
ので、環境モデルが未知の場合にも対応することができ
るとともに、環境の変動に強くなることができる。さら
に、非線形の制御対象あるいは環境にも適用可能であ
る。
As described above, according to the present invention, an evaluation signal which is a reward signal in which a reward according to the degree of achievement of a goal and a reward according to the ability to withstand disturbance are added is generated, and the present evaluation signal is generated. The behavior generator learns to maximize the expected value of the sum of the evaluation signals obtained from the state toward the future, while the disturbance generator learns to minimize the expected value of the sum of the evaluation signals. It can cope with the case where the model is unknown, and can be resistant to environmental changes. Further, it can be applied to a non-linear control target or environment.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の実施の形態のロバスト強化学習方式に
用いる回路のブロック図である。
FIG. 1 is a block diagram of a circuit used in a robust reinforcement learning method according to an embodiment of the present invention.

【図2】従来の強化学習方式に用いる回路のブロック図
である。
FIG. 2 is a block diagram of a circuit used in a conventional reinforcement learning method.

【図3】H∞制御理論を説明するための制御対象と制御
器との制御系のブロック図である。
FIG. 3 is a block diagram of a control system of a control target and a controller for explaining the H∞ control theory.

【図4】第1具体例の説明図で、(a)が概略図、
(b)が1mの長さの振り子の角度変化のグラフであ
る。
FIG. 4 is an explanatory diagram of the first specific example, (a) is a schematic diagram,
(B) is a graph of an angle change of a pendulum having a length of 1 m.

【図5】第1具体例の角度変化のグラフで、(a)が
0.5mの長さの振り子を制御対象として用いた場合の
グラフ、(b)が2mの長さの振り子を制御対象として
用いた場合のグラフである。
5A and 5B are graphs of changes in angle of the first specific example, where FIG. 5A is a graph in which a pendulum having a length of 0.5 m is used as a control target, and FIG. 5B is a control target of a pendulum having a length of 2 m. It is a graph when it is used as.

【図6】第2具体例の概略図である。FIG. 6 is a schematic view of a second specific example.

【図7】第2具体例の直動アクチュエータの位置変化の
グラフで、(a)が1kgの質量の搬送物を用いた場合
のグラフ、(b)が3kgの質量の搬送物を用いた場合
のグラフである。
7A and 7B are graphs of changes in the position of the linear actuator of the second specific example, where FIG. 7A is a graph when a conveyed product having a mass of 1 kg is used, and FIG. 7B is a case where a conveyed product having a mass of 3 kg is used. Is a graph of.

【符号の説明】[Explanation of symbols]

q(t) 評価信号 r(t) 目標報酬信号 s(t) 外乱報酬信号 u(t) 行動信号 w(t) 外乱信号 1 環境 2 行動生成器 3 状態評価器 4 外乱生成器 q (t) evaluation signal r (t) target reward signal s (t) disturbance reward signal u (t) action signal w (t) disturbance signal 1 environment 2 Behavior generator 3 State evaluator 4 Disturbance generator

フロントページの続き (56)参考文献 特開 平3−208102(JP,A) 鮫島和行、銅谷賢治、川人光男,複数 モデルベース強化学習におけるモジュー ル間の評価割付け,電子情報通信学会技 術研究報告,日本,(社)電子情報通信 学会,2000年 8月14日,Vol.100 No.191,P.51−58 銅谷賢治,行動学習系のメタパラメタ 制御と神経修飾物質,数理科学,日本, (株)サイエンス社,2000年 6月 1 日,第38巻 第6号,p.19−p.24 鮫島和行、銅谷賢治、川人光男,局所 線形モデルに基づく状態分割を用いた階 層強化学習,電情報通信学会技術研究報 告,日本,(社)電子情報通信学会, 2000年 3月13日,第99巻 第684号, p.173−p.180 宮崎和光,離散マルコフ決定過程にお ける強化学習,日本ファジィ学会誌,日 本,日本ファジィ学会,1997年 8月15 日,第9巻 第4号,p17−p.20 (58)調査した分野(Int.Cl.7,DB名) G05B 13/02 G05B 13/04 G06N 3/00 Continuation of front page (56) Reference JP-A-3-208102 (JP, A) Kazuyuki Samejima, Kenji Dotani, Mitsuo Kawahito, Evaluation assignment among modules in multiple model-based reinforcement learning, IEICE technology Research Report, Japan, The Institute of Electronics, Information and Communication Engineers, August 14, 2000, Vol. 100 No. 191, P.I. 51-58 Douji Kenji, Metaparameter control and neuromodulators in behavioral learning, Mathematical science, Japan, Science Co., Ltd., June 1, 2000, Volume 38, No. 6, p. 19-p. 24 Kazuyuki Samejima, Kenji Dotani, Mitsuo Kawato, Hierarchical reinforcement learning using state partitioning based on local linear model, IEICE technical report, Japan, The Institute of Electronics, Information and Communication Engineers, March 2000. 13th, Vol. 99, No. 684, p. 173-p. 180 Kazumitsu Miyazaki, Reinforcement Learning in Discrete Markov Decision Process, Journal of Japan Fuzzy Society, Japan, Japan Fuzzy Society, August 15, 1997, Vol. 9, No. 4, p17-p. 20 (58) Fields surveyed (Int.Cl. 7 , DB name) G05B 13/02 G05B 13/04 G06N 3/00

Claims (9)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】制御対象あるいは環境に行動信号を出力す
るとともに学習機能を具備する行動生成器、および制御
対象あるいは環境に外乱信号を出力するとともに学習機
能を具備する外乱生成器を備え、 目標の達成度に応じた報酬に、前記外乱生成器からの外
乱に耐えうることに応じた報酬を加味した報酬信号であ
る評価信号を生成し、現在の状態から将来に向けて得ら
れる評価信号の荷重和の期待値を最大化(または最小
化)するべく行動生成器は学習し、一方、外乱生成器は
前記評価信号の和の期待値を最小化(または最大化)す
べく学習することを特徴とするロバスト強化学習方式。
1. A behavior generator that outputs a behavior signal to a controlled object or environment and has a learning function, and a disturbance generator that outputs a disturbance signal to a controlled object or environment and that has a learning function. Generates an evaluation signal that is a reward signal in which the reward according to the ability to withstand the disturbance from the disturbance generator is added to the reward according to the degree of achievement, and the weight of the evaluation signal obtained from the current state to the future The behavior generator learns to maximize (or minimize) the expected value of the sum, while the disturbance generator learns to minimize (or maximize) the expected value of the sum of the evaluation signals. Robust reinforcement learning method.
【請求項2】前記学習方式において、現在の状態から将
来に向けて得られる評価信号の和の期待値を予測する状
態評価器を備え、その予測誤差信号を、状態評価器、行
動生成器、および外乱生成器の少なくとも1個の学習に
用いることを特徴とするロバスト強化学習方式。
2. In the learning method, a state evaluator for predicting an expected value of a sum of evaluation signals obtained from the present state toward the future is provided, and the prediction error signal is used as a state evaluator, an action generator, And a robust reinforcement learning method for use in learning at least one of a disturbance generator.
【請求項3】前記状態評価器、行動生成器および外乱生
成器の少なくとも一個は、関数近似手段として、入出力
関係を示す参照テーブルを具備していることを特徴とす
る請求項1または2に記載のロバスト強化学習方式。
3. At least one of the state evaluator, the behavior generator, and the disturbance generator is provided with a reference table indicating an input / output relationship as a function approximating means. Robust reinforcement learning method described.
【請求項4】前記状態評価器、行動生成器および外乱生
成器の少なくとも一個は、関数近似手段として、線形モ
デルまたは多項式モデルを具備していることを特徴とす
る請求項1または2に記載のロバスト強化学習方式。
4. At least one of the state evaluator, the behavior generator, and the disturbance generator is equipped with a linear model or a polynomial model as a function approximating means. Robust reinforcement learning method.
【請求項5】前記状態評価器、行動生成器および外乱生
成器の少なくとも一個は、関数近似手段として、多層神
経回路網を具備していることを特徴とする請求項1また
は2に記載のロバスト強化学習方式。
5. The robust system according to claim 1, wherein at least one of the state evaluator, the action generator and the disturbance generator comprises a multilayer neural network as a function approximating means. Reinforcement learning method.
【請求項6】請求項1または請求項2の方式により、予
め学習された前記状態評価器と行動生成器または行動生
成器のみを用いた制御方式。
6. A control method using only the state evaluator and the behavior generator that have been preliminarily learned according to the method of claim 1 or claim 2.
【請求項7】請求項1または請求項2の方式を計算機シ
ミュレーションによって実現される環境モデルに適用
し、それによって学習された前記状態評価器と行動生成
器または行動生成器のみを実環境に適用することを特徴
とする請求項6に記載の制御方式。
7. The method according to claim 1 or 2 is applied to an environment model realized by computer simulation, and only the state evaluator and the action generator or the action generator learned by the method are applied to an actual environment. The control method according to claim 6, wherein:
【請求項8】前記状態評価器または行動生成器の少なく
とも一方は、関数近似手段として、入出力関係を示す参
照テーブルを具備していることを特徴とする請求項6ま
たは7に記載のロバスト制御方式を用いたロバスト制御
器。
8. The robust control according to claim 6, wherein at least one of the state evaluator and the action generator comprises a reference table indicating an input / output relationship as a function approximating means. Robust controller using the method.
【請求項9】前記状態評価器または行動生成器の少なく
とも一方は、関数近似手段として、線形モデル、多項式
モデルまたは多層神経回路網を具備していることを特徴
とする請求項6または7に記載のロバスト制御方式を用
いたロバスト制御器。
9. The method according to claim 6, wherein at least one of the state evaluator and the action generator comprises a linear model, a polynomial model or a multilayer neural network as a function approximating means. Robust controller using the robust control method of.
JP2000386265A 2000-12-20 2000-12-20 Robust reinforcement learning method Expired - Fee Related JP3465236B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000386265A JP3465236B2 (en) 2000-12-20 2000-12-20 Robust reinforcement learning method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000386265A JP3465236B2 (en) 2000-12-20 2000-12-20 Robust reinforcement learning method

Publications (2)

Publication Number Publication Date
JP2002189502A JP2002189502A (en) 2002-07-05
JP3465236B2 true JP3465236B2 (en) 2003-11-10

Family

ID=18853386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000386265A Expired - Fee Related JP3465236B2 (en) 2000-12-20 2000-12-20 Robust reinforcement learning method

Country Status (1)

Country Link
JP (1) JP3465236B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021008691A1 (en) 2019-07-16 2021-01-21 Huawei Technologies Co., Ltd. Learning to robustly control a system

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7107107B2 (en) 2003-01-31 2006-09-12 Matsushita Electric Industrial Co., Ltd. Predictive action decision device and action decision method
JP4746349B2 (en) * 2005-05-18 2011-08-10 日本電信電話株式会社 Robot action selection device and robot action selection method
JP4627553B2 (en) 2008-03-28 2011-02-09 株式会社日立製作所 Plant control device and thermal power plant control device
JP5330138B2 (en) * 2008-11-04 2013-10-30 本田技研工業株式会社 Reinforcement learning system
JP5346701B2 (en) 2009-06-12 2013-11-20 本田技研工業株式会社 Learning control system and learning control method
JP5592300B2 (en) * 2011-03-28 2014-09-17 株式会社デンソーアイティーラボラトリ Information provision system
CN102929137B (en) * 2012-10-10 2015-03-11 西北工业大学 Aircraft controller designing method containing distribution parameter items
JP6732676B2 (en) * 2017-02-10 2020-07-29 三菱日立パワーシステムズ株式会社 Simulation result evaluation apparatus and method
JP6538766B2 (en) * 2017-07-18 2019-07-03 ファナック株式会社 Machine learning apparatus, servo motor control apparatus, servo motor control system, and machine learning method
CN108427289B (en) * 2018-04-27 2021-06-29 哈尔滨工业大学 A tracking control method for hypersonic vehicle based on nonlinear function
JP7405271B2 (en) * 2020-09-09 2023-12-26 日本電信電話株式会社 Device control value generation device, device control value generation method, program, and learning model generation device
US12171460B2 (en) 2020-12-29 2024-12-24 Industrial Technology Research Institute Computer-assisted needle insertion system and computer-assisted needle insertion method
JP7535475B2 (en) * 2021-05-28 2024-08-16 株式会社日立製作所 PLANT CONTROL SYSTEM, PLANT CONTROL METHOD, AND PROGRAM
JP2024062786A (en) 2022-10-25 2024-05-10 キヤノン株式会社 CONTROL METHOD, CONTROL DEVICE, LITHOGRAPHIC APPARATUS, AND METHOD FOR MANUFACTURING ARTICLE - Patent application
CN115933392B (en) * 2022-11-29 2025-07-18 广西大学 Intelligent semi-active control method for foundation vibration isolation structure
CN116643242B (en) * 2023-04-19 2026-04-07 西安电子科技大学 A method for perturbation policy awareness based on generative adversarial imitation learning

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
宮崎和光,離散マルコフ決定過程における強化学習,日本ファジィ学会誌,日本,日本ファジィ学会,1997年 8月15日,第9巻 第4号,p17−p.20
銅谷賢治,行動学習系のメタパラメタ制御と神経修飾物質,数理科学,日本,(株)サイエンス社,2000年 6月 1日,第38巻 第6号,p.19−p.24
鮫島和行、銅谷賢治、川人光男,局所線形モデルに基づく状態分割を用いた階層強化学習,電情報通信学会技術研究報告,日本,(社)電子情報通信学会,2000年 3月13日,第99巻 第684号,p.173−p.180
鮫島和行、銅谷賢治、川人光男,複数モデルベース強化学習におけるモジュール間の評価割付け,電子情報通信学会技術研究報告,日本,(社)電子情報通信学会,2000年 8月14日,Vol.100 No.191,P.51−58

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021008691A1 (en) 2019-07-16 2021-01-21 Huawei Technologies Co., Ltd. Learning to robustly control a system

Also Published As

Publication number Publication date
JP2002189502A (en) 2002-07-05

Similar Documents

Publication Publication Date Title
JP3465236B2 (en) Robust reinforcement learning method
JP3086206B2 (en) Agent learning device
Yang et al. A combined backstepping and small-gain approach to robust adaptive fuzzy control for strict-feedback nonlinear systems
Purwar et al. Adaptive control of robot manipulators using fuzzy logic systems under actuator constraints
Rawat et al. Intelligent control of robotic manipulators: a comprehensive review
Lin A reinforcement learning adaptive fuzzy controller for robots
Nguyen et al. Adaptive chattering free neural network based sliding mode control for trajectory tracking of redundant parallel manipulators
Hu et al. A reinforcement learning neural network for robotic manipulator control
Qi et al. Stable indirect adaptive control based on discrete-time T–S fuzzy model
Xie et al. Adaptive asymptotic neural network control of nonlinear systems with unknown actuator quantization
CN112338914B (en) A fuzzy control algorithm for single-link manipulator based on stochastic system with limited output and input time delay
Tsai et al. Robust fuzzy model-following control of robot manipulators
Qiu et al. Model predictive control for uncalibrated and constrained image-based visual servoing without joint velocity measurements
Wang et al. Adaptive tuning of the fuzzy controller for robots
Ribeiro A tutorial on reinforcement learning techniques
Ngo et al. A novel self-organizing fuzzy cerebellar model articulation controller based overlapping Gaussian membership function for controlling robotic system
Moreno et al. A self-tuning neuromorphic controller: application to the crane problem
CN119159582B (en) Multi-axis mechanical arm prediction control method based on information physical neural network
Kuntze et al. A fuzzy-logic concept for highly fast and accurate position control of industrial robots
Prakash et al. Adaptive critic optimal control of an uncertain robot manipulator with applications
Lin et al. A reinforcement neuro-fuzzy combiner for multiobjective control
Gourdeau et al. Adaptive control of robotic manipulators using an extended Kalman filter
Gómez et al. Multi-Inputs and Multi-Outputs equivalent model based on data driven controller for a robotic system
Toxqui et al. PD control of overhead crane systems with neural compensation
Song et al. Reinforcement learning and its application to force control of an industrial robot

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030805

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090829

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100829

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100829

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110829

Year of fee payment: 8

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110829

Year of fee payment: 8

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120829

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120829

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130829

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees