JP7635849B2 - Reinforcement learning system, reinforcement learning device, reinforcement learning method and program - Google Patents
Reinforcement learning system, reinforcement learning device, reinforcement learning method and program Download PDFInfo
- Publication number
- JP7635849B2 JP7635849B2 JP2023546676A JP2023546676A JP7635849B2 JP 7635849 B2 JP7635849 B2 JP 7635849B2 JP 2023546676 A JP2023546676 A JP 2023546676A JP 2023546676 A JP2023546676 A JP 2023546676A JP 7635849 B2 JP7635849 B2 JP 7635849B2
- Authority
- JP
- Japan
- Prior art keywords
- state
- action
- reinforcement learning
- value function
- generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、強化学習システム、強化学習装置及び強化学習方法に関する。 The present invention relates to a reinforcement learning system, a reinforcement learning device, and a reinforcement learning method.
ある状態において、次の行動を実施したときに得られる報酬を最大化する行動を学習していく、強化学習の研究が進められている。特許文献1には、ロボットアームによる組立作業において、凹部品と凸部品の画像と、部品を組み合わせる際の制御量とを強化学習により学習する技術が記載されている。また、特許文献2には、強化学習を用いて、アクセル操作量を学習し、状態に応じたスロットル開口度指令値及び遅角量からなる行動を選択する技術が記載されている。特許文献2にはまた、行動価値関数Qに関数近似器を用いてもよいことが記載されている。Research is currently being conducted into reinforcement learning, which learns actions that maximize the reward obtained when the next action is performed in a certain state.
しかしながら、特許文献1及び2に記載の技術は、より好適な行動を選択するという観点で改善の余地がある。強化学習において行動価値関数を正確に推定できていれば適切な行動を選択できるが、特許文献1及び2に記載の技術において推定される行動価値関数には誤差が含まれるためである。特に状態行動空間が巨大である場合、行動価値関数を正確に推定することは困難である。However, the techniques described in
本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的の一例は、より好適な行動を選択できる技術を提供することである。One aspect of the present invention has been made in consideration of the above problems, and one example of its objective is to provide technology that enables the selection of more appropriate actions.
本発明の一側面に係る強化学習システムは、強化学習の対象である環境における第1の状態を取得する取得手段と、前記第1の状態にノイズを付加することによって第2の状態を生成する生成手段と、前記第2の状態に応じて、第1の行動価値関数を算出する算出手段と、前記第1の行動価値関数に応じて、行動を選択する選択手段と、を備える。 A reinforcement learning system according to one aspect of the present invention comprises an acquisition means for acquiring a first state in an environment that is the subject of reinforcement learning, a generation means for generating a second state by adding noise to the first state, a calculation means for calculating a first action value function according to the second state, and a selection means for selecting an action according to the first action value function.
本発明の一側面に係る強化学習装置は、強化学習の対象である環境における第1の状態を取得する取得手段と、前記第1の状態にノイズを付加することによって第2の状態を生成する生成手段と、前記第2の状態に応じて、第1の行動価値関数を算出する算出手段と、前記第1の行動価値関数に応じて、行動を選択する選択手段と、を備える。 A reinforcement learning device according to one aspect of the present invention comprises an acquisition means for acquiring a first state in an environment that is the subject of reinforcement learning, a generation means for generating a second state by adding noise to the first state, a calculation means for calculating a first action value function according to the second state, and a selection means for selecting an action according to the first action value function.
本発明の一側面に係る強化学習方法は、強化学習の対象である環境における前記第1の状態にノイズを付加することによって第2の状態を生成すること、前記第2の状態に応じて、第1の行動価値関数を算出すること、前記第1の行動価値関数に応じて、行動を選択すること、を含む。
本発明の一側面に係るプログラムは、コンピュータを強化学習装置として機能させるためのプログラムであって、前記コンピュータを、強化学習の対象である環境における第1の状態を取得する取得手段と、前記第1の状態にノイズを付加することによって第2の状態を生成する生成手段と、前記第2の状態に応じて、第1の行動価値関数を算出する算出手段と、前記第1の行動価値関数に応じて、行動を選択する選択手段と、として機能させる。
A reinforcement learning method according to one aspect of the present invention includes generating a second state by adding noise to the first state in an environment that is the subject of reinforcement learning, calculating a first action value function according to the second state, and selecting an action according to the first action value function.
A program according to one aspect of the present invention is a program for causing a computer to function as a reinforcement learning device, causing the computer to function as: acquisition means for acquiring a first state in an environment that is the subject of reinforcement learning; generation means for generating a second state by adding noise to the first state; calculation means for calculating a first action value function in accordance with the second state; and selection means for selecting an action in accordance with the first action value function.
本発明の一態様によれば、より好適な行動を選択することができる。 According to one aspect of the present invention, a more suitable action can be selected.
〔例示的実施形態1〕
本発明の第1の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。
[Example embodiment 1]
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS A first exemplary embodiment of the present invention will be described in detail with reference to the accompanying drawings. This exemplary embodiment is a basic form of the exemplary embodiments described below.
<強化学習システムの構成>
本例示的実施形態に係る強化学習システム1の構成について、図1を参照して説明する。図1は、強化学習システム1の構成を示すブロック図である。強化学習システム1は、強化学習により行動を選択するシステムである。強化学習システム1は、一例として、掘削機等の建設機械の建設動作を制御するシステム、搬送装置による搬送を制御するシステム、又はコンピュータゲームの自律プレイのためのシステムである。ただし、強化学習システム1の強化学習は上述した例に限定されるものではなく、強化学習システム1が行う強化学習は種々のシステムに適用可能である。行動は、強化学習におけるエージェントの行動であり、一例として、掘削機の掘削動作制御、搬送装置の搬送動作制御、又はコンピュータゲームの自律プレイ制御である。ただし、行動はこれらの例に限定されるものではなく、上記以外のものであってもよい。
<Configuration of Reinforcement Learning System>
The configuration of a
強化学習システム1は、図1に示すように、取得部11、生成部12、算出部13、及び選択部14を備える。取得部11は、本例示的実施形態において取得手段を実現する構成である。生成部12は、本例示的実施形態において生成手段を実現する構成である。算出部13は、本例示的実施形態において算出手段を実現する構成である。選択部14は、本例示的実施形態において選択手段を実現する構成である。
As shown in FIG. 1, the
取得部11は、第1の状態を取得する。第1の状態は、強化学習の対象である環境における状態である。例えば強化学習システム1が掘削機の掘削動作を選択するためのシステムである場合、第1の状態は一例として、土砂を掘削する掘削機の姿勢及び位置、掘削対象である土砂の形状、並びに掘削機のバケット内の土砂量、の一部又は全部を含む。また、強化学習システム1が搬送装置の搬送動作を選択するためのシステムである場合、第1の状態は、一例として、搬送装置の位置、移動方向、速度及び各角度、通路の位置、並びに静的な障害部又は動的な障害物の位置及び速度、の一部又は全部を含む。また、強化学習システム1がコンピュータゲームの自律プレイのためのシステムである場合、第1の状態は、一例として、コンピュータゲームにおいてゲームの進行に影響を与えるオブジェクトの状態を含む。ただし、第1の状態は上述したものに限定されず、他の状態であってもよい。第1の状態は、例えば、温度又は天気等の環境の状態を含んでもよい。The
生成部12は、第1の状態にノイズを付加することによって第2の状態を生成する。ノイズは一例として、正規乱数、又は一様乱数等の乱数である。ただし、生成部12が第1の状態に付加するノイズはこれらに限られず、上記以外のノイズであってもよい。生成部12は、第1の状態に含まれる要素の全てにノイズを付加してもよく、また、第1の状態に含まれる要素のうちの一部にノイズを付加してもよい。The
算出部13は、第2の状態に応じて、第1の行動価値関数を算出する。算出部13は、一例として、複数の第2の状態を含む状態列を用いて第1の行動価値関数を算出する。また、算出部13は、第1の状態、及び、1又は複数の第2の状態を含む状態列を用いて第1の行動価値関数を算出してもよい。換言すると、算出部13が第1の行動価値関数の算出のために用いる状態列は、1又は複数の第2の状態を含み、また、上記状態列に含まれる状態は第1の状態又は第2の状態である。以下の説明では、第1の状態及び第2の状態を各々区別する必要がない場合には、これらを単に「状態」ともいう。The
第1の行動価値関数は、状態での行動を評価するための関数である。第1の行動価値関数は、一例として、Q学習(Q-learning)で用いられる行動価値関数であり、一例として以下の式(1)により更新される。ただし、第1の行動価値関数は式(1)により与えられるものに限られず、他の関数であってもよい。The first action value function is a function for evaluating an action in a state. As an example, the first action value function is an action value function used in Q-learning, and is updated, for example, by the following formula (1). However, the first action value function is not limited to that given by formula (1), and may be another function.
式(1)において、st (i)(1≦i≦n;i及びnは自然数)は状態列に含まれる状態(すなわち第1の状態又は第2の状態)であり、aは行動であり、Q(st (i),a)は第1の行動価値関数である。αは学習率、st+1 (i)は遷移後の状態、rt+1はエージェントが状態st+1 (i)に遷移したときに得る報酬、γ(0≦γ≦1)は割引率である。また、a´∈A、集合Aは状態st (i)においてエージェントが可能な行動の集合である。 In formula (1), s t (i) (1≦i≦n; i and n are natural numbers) is a state included in the state sequence (i.e., the first state or the second state), a is an action, and Q(s t (i) , a) is the first action-value function. α is the learning rate, s t+1 (i) is the state after the transition, r t+1 is the reward the agent obtains when it transitions to state s t+1 (i) , and γ (0≦γ≦1) is the discount rate. Also, a′∈A, and set A is a set of actions the agent can take in state s t (i) .
報酬は、エージェントが行動することで環境から得られる報酬である。報酬は、一例として、掘削機の掘削量、掘削に要した時間、搬送に要した時間、搬送中における障害物への接触の有無、ゲームの勝敗、又はゲームのスコアに応じて、加算又は減算される値である。ただし、報酬はこれらの例に限定されるものではなく、上記以外のものであってもよい。 The reward is a reward that the agent obtains from the environment by taking action. As an example, the reward is a value that is added or subtracted depending on the amount of excavation by the excavator, the time required for excavation, the time required for transportation, whether or not an obstacle is encountered during transportation, the outcome of the game, or the game score. However, the reward is not limited to these examples and may be something other than the above.
式(1)を用いる場合、算出部13は、状態列に含まれる状態のそれぞれについて、第1の行動価値関数を算出する。換言すると、算出部13は、状態列に含まれる状態の数だけ第1の行動価値関数を算出する。When formula (1) is used, the
選択部14は、第1の行動価値関数に応じて、行動を選択する。選択部14は、一例として、第1の行動価値関数を最大化する行動を選択する。選択部14は、εグリーディ手法、遺伝的アルゴリズムで用いられているルーレット選択、ボルツマン分布を利用したソフトマックス手法等により行動を選択してもよい。The
また、複数の第1の行動価値関数を用いる場合、選択部14は、一例として、複数の第1の行動価値関数のいずれかを用いて行動を選択してもよく、また、算出部13が算出した複数の第1の行動価値関数を用いて第2の行動価値関数を算出し、算出した第2の行動価値関数を用いて行動を選択してもよい。第2の行動価値関数は、状態での行動を評価するための関数である。第2の行動価値関数は、一例として、複数の第1の行動価値関数の期待値であってもよく、また、一例として、複数の第1の行動価値関数のばらつきが大きいほど上記期待値よりも小さな値となる関数であってもよい。第2の行動価値関数は、一例として、下記式(2)、又は式(3)により与えられる。ただし、第2の行動価値関数は式(2)又は(3)により与えられるものに限られず、これら以外の他の関数であってもよい。
In addition, when a plurality of first action value functions are used, the
式(2)及び式(3)において、J(st,a)は第2の行動価値関数、stは第1の状態、aは行動、θはハイパーパラメータ、Q(st (i),a)は第1の行動価値関数、st (i)は状態列に含まれる状態、Eは期待値、である。なお、式(3)は、式(2)をテイラー展開して2次の項までを採用し、3次以降を切り捨てたものである。 In formula (2) and formula (3), J(s t , a) is the second action value function, s t is the first state, a is an action, θ is a hyperparameter, Q(s t (i) , a) is the first action value function, s t (i) is a state included in the state sequence, and E is an expected value. Note that formula (3) is obtained by Taylor expansion of formula (2), adopting up to second-order terms and discarding third-order and subsequent terms.
選択部14が第2の行動価値関数を算出する場合、選択部14は、一例として、式(4)により与えられる方策を用いて、第2の行動価値関数を最大化する行動を選択する。なお、行動を選択する方策は式(4)により与えられる方策に限られず、他の方策であってもよい。選択部14は例えば、εグリーディ手法、遺伝的アルゴリズムで用いられているルーレット選択、又はボルツマン分布を利用したソフトマックス手法等により行動を選択してもよい。εグリーディ手法を用いる場合、方策は一例として以下の式(5)により与えられる。When the
<強化学習システムの効果>
本例示的実施形態に係る強化学習システム1によれば、第1の状態にノイズを付加した第2の状態を用いて行動価値関数を算出することにより、状態のばらつきを考慮した第1の行動価値関数を算出することができる。この第1の行動価値関数を用いて行動を選択することにより、強化学習システム1はより好適な行動を選択できる。
<Effects of reinforcement learning system>
According to the
<強化学習方法の流れ>
図2は、強化学習システム1が実行する強化学習方法S1の流れを示すフロー図である。強化学習システム1は、強化学習方法S1を繰り返すことにより、行動の選択を繰り返し行う。なお、すでに説明した内容についてはその説明を繰り返さない。
<Reinforcement learning method flow>
2 is a flow diagram showing the flow of the reinforcement learning method S1 executed by the
強化学習方法S1は、ステップS11~S14を含む。ステップS11において、取得部11は、第1の状態を取得する。ステップS12において、生成部12は、第1の状態にノイズを付加することによって第2の状態を生成する。
The reinforcement learning method S1 includes steps S11 to S14. In step S11, the
ステップS13において、算出部13は、第2の状態に応じて、第1の行動価値関数を算出する。ここで、繰り返しのn(nは自然数)回目において、算出部13が第1の行動価値関数を算出するために参照するデータとしては、一例として、(n-1)回目までに蓄積された状態、行動、及び報酬が用いられる。ステップS14において、選択部14は、第1の行動価値関数に応じて、行動を選択する。In step S13, the
<強化学習方法の効果>
本例示的実施形態に係る強化学習方法S1によれば、第1の状態にノイズを付加した第2の状態を用いて行動価値関数を算出することにより、状態のばらつきを考慮した行動価値関数を算出することができる。この行動価値関数を用いて行動を選択することにより、より好適な行動を選択できる。
<Effects of reinforcement learning methods>
According to the reinforcement learning method S1 of this exemplary embodiment, an action value function that takes into account the variability of states can be calculated by calculating an action value function using a second state obtained by adding noise to a first state. By selecting an action using this action value function, a more suitable action can be selected.
<強化学習システムの装置構成例>
続いて、本例示的実施形態に係る強化学習システム1の装置構成例について図面を参照しつつ説明する。図3は、強化学習システム1の構成の一例を示すブロック図である。図3の例では、強化学習システム1は強化学習装置10を備える。強化学習装置10は、取得部11、生成部12、算出部13、及び選択部14を備える。強化学習装置10は、一例として、サーバ装置、パーソナルコンピュータ、又はゲーム機器であるが、これらに限定されるものではなく、上記以外の装置であってもよい。強化学習装置10は一例として、通信インタフェースを介して第1の状態を受信することにより第1の状態を取得してもよい。
<Example of device configuration for reinforcement learning system>
Next, an example of the device configuration of the
図4は、強化学習システム1の構成の他の例を示すブロック図である。図4の例では、強化学習システム1は、端末20及びサーバ30を備える。端末20は一例として、パーソナルコンピュータ、又はゲーム機器であるが、これらに限定されるものではなく、上記以外の装置であってもよい。端末20は、取得部11を備える。サーバ30は、生成部12、算出部13、及び選択部14を備える。端末20は、第1の状態を取得し、取得した第1の状態をサーバ30に供給する。
Figure 4 is a block diagram showing another example of the configuration of the
本例示的実施形態では強化学習システム1の構成例として図3及び図4を例示したが、強化学習システム1の構成は、図3及び図4に例示したものに限定されるものではなく、これ以外の種々の構成が適用可能である。In this exemplary embodiment, Figures 3 and 4 are shown as examples of the configuration of the
〔例示的実施形態2〕
本発明の第2の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を繰り返さない。
A second exemplary embodiment of the present invention will be described in detail with reference to the drawings. Note that components having the same functions as those described in the first exemplary embodiment are given the same reference numerals and will not be described repeatedly.
<強化学習システムの構成>
図5は、強化学習システム2の構成を示すブロック図である。図5に示すように、強化学習システム2は、端末40及び強化学習装置50を備える。端末40と強化学習装置50とは通信回線Nを介して通信可能に構成されている。通信回線Nの具体的構成は本例示的実施形態を限定するものではないが、一例として、無線LAN(Local Area Network)、有線LAN、WAN(Wide Area Network)、公衆回線網、モバイルデータ通信網、又は、これらのネットワークの組み合わせを用いることができる。
<Configuration of Reinforcement Learning System>
Fig. 5 is a block diagram showing a configuration of the
端末40は、一例として汎用コンピュータであり、より具体的には、例えば掘削機等の建設機械を制御する制御装置、搬送装置による搬送を管理する管理装置、又はコンピュータゲームをプレイするためのゲーム機器である。なお、端末40はこれらに限定されるものではなく、上記以外の装置であってもよい。強化学習装置50は、一例としてサーバ装置である。
The terminal 40 is, for example, a general-purpose computer, and more specifically, for example, a control device that controls construction machinery such as an excavator, a management device that manages transportation by a transportation device, or a game device for playing computer games. Note that the terminal 40 is not limited to these, and may be a device other than the above. The
<端末の構成>
端末40は、通信部41、制御部42、及び入力受付部43を備える。通信部41は、制御部42の制御の下に、通信回線Nを介して強化学習装置50との間で情報を送受信する。以降、制御部42が通信部41を介して強化学習装置50との間で情報を送受信することを、単に、制御部42が強化学習装置50との間で情報を送受信する、とも記載する。
<Device configuration>
The terminal 40 includes a
制御部42は、状態提供部421、行動実行部422、及び報酬提供部423を備える。状態提供部421は、第1の状態を取得し、取得した第1の状態を強化学習装置50に提供する。本例示的実施形態において、状態提供部421が取得する第1の状態は、属性が付随する複数の要素を含む。属性は、要素の特徴及び/又は種類を示す情報であり、例えば環境内を移動する動的要素であるか、環境内を移動しない静的要素であるか、を示す情報を含む。また、属性は例えば、人、自動車、自転車、建物、といった要素の種類を示す情報であってもよい。ただし、属性は上述した例に限られず、上記以外の他の情報であってもよい。The
一例として、状態提供部421は、建設機械又は搬送装置等の動作を検出するセンサが出力するセンサ情報を第1の状態として取得してもよい。また、一例として、状態提供部421は、コンピュータゲームにおいてゲームの進行に影響を与えるオブジェクトの第1状態を取得してもよい。ただし、状態提供部421が取得する第1の状態は上述した例に限られず、上記以外の状態であってもよい。
As one example, the
状態提供部421は、一例として、入力受付部43を介して第1の状態の入力を受け付け、受け付けた第1の状態を強化学習装置50に提供する。また、状態提供部421は、一例として、通信部41を介して接続された他の装置から第1の状態を受信し、受信した第1の状態を強化学習装置50に提供してもよい。As an example, the
行動実行部422は、強化学習装置50が決定した行動を実行する。一例として、行動実行部422は、強化学習装置50が決定した行動を建設機械又は搬送装置等に行わせるための制御情報を出力する。また、一例として、行動実行部422は、コンピュータゲームにおいてユーザ操作の対象であるオブジェクトの行動を制御する。ただし、強化学習装置50が実行する行動は上述した例に限られず、上記以外の行動であってもよい。The
報酬提供部423は、強化学習装置50が決定した行動をエージェントが実行して得られた報酬を強化学習装置50に提供する。一例として、報酬提供部423は、掘削機の掘削量、掘削に要した時間、搬送装置が搬送に要した時間、搬送中における障害物への接触の有無、ゲームの勝敗、又はゲームのスコアを示す情報を報酬として強化学習装置50に提供する。ただし、報酬提供部423が提供する報酬は上述した例に限られず、上記以外の他の報酬であってもよい。The
報酬提供部423は、一例として、入力受付部43を介して取得した報酬を強化学習装置50に提供する。また、報酬提供部423は、通信部41を介して接続された他の装置から報酬を受信し、受信した報酬を強化学習装置50に提供してもよい。As an example, the
入力受付部43は、端末40に対する各種の入力を受け付ける。入力受付部43の具体的構成は本例示的実施形態を限定するものではないが、一例として、入力受付部43は、キーボード及びタッチパッド等の入力デバイスを備える構成とすることができる。また、入力受付部43は、赤外線や電波等の電磁波を介してデータの読み取りを行うデータスキャナ、及び、環境の状態をセンシングするセンサ等を備える構成としてもよい。報酬提供部423は一例として、入力受付部43が取得したセンシング結果に基づいて、搬送装置が搬送に要した時間等を測定し、測定結果を示す報酬を強化学習装置50に提供する。The
入力受付部43は、上述した入力デバイス、データスキャナ、及びセンサ等を介して、入力を受け付けた情報を制御部42に供給する。入力受付部43は、一例として、上述した状態、及び上述した報酬を取得し、取得した状態及び報酬を制御部42に供給する。The
<強化学習装置の構成>
強化学習装置50は、通信部51、制御部52及び記憶部53を備える。通信部51は、制御部52の制御の下に、通信回線Nを介して強化学習装置50との間で情報を送受信する。以降、制御部52が通信部51を介して端末40との間で情報を送受信することを、単に、制御部52が端末40との間で情報を送受信する、とも記載する。
<Configuration of Reinforcement Learning Device>
The
制御部52は、報酬取得部521、状態観測部522、状態ランダム化部523、学習部524、推定部525、及び選択部526を備える。状態観測部522は、本例示的実施形態において取得手段を実現する構成である。状態ランダム化部523は、本例示的実施形態において生成手段を実現する構成である。推定部525は、本例示的実施形態において算出手段を実現する構成である。選択部526は、本例示的実施形態において選択手段を実現する構成である。
The
報酬取得部521は、通信部51を介して端末40が提供する報酬を取得する。状態観測部522は、通信部51を介して端末40が提供する第1の状態を取得する。状態ランダム化部523は、状態観測部522が取得した第1の状態にノイズを付加することによって1又は複数の第2の状態を生成する。学習部524は、第1の行動価値関数を更新するための行動価値関数モデル531を学習させる。行動価値関数モデル531は第1の行動価値関数の推定に用いられる。The
推定部525は、第1の状態と1又は複数の第2の状態とを含む状態列、又は、複数の第2の状態を含む状態列、に応じて、第1の行動価値関数を算出する。また、推定部525は、第1の行動価値関数を用いて第2の行動価値関数を算出する。The
選択部526は、第2の行動価値関数を用いて行動を選択し、選択した行動を示す情報を記憶部53に記憶するとともに、選択した行動を示す情報を端末40に送信する。The
記憶部53は、制御部52が参照する各種のデータを記憶する。一例として、記憶部53は、行動価値関数モデル531、及び学習データ532を記憶する。行動価値関数モデル531は、第1の行動価値関数を更新するための学習モデルである。学習データ532は、強化学習装置50が行う強化学習で用いるデータである。学習データ532は、一例として、第1の状態、第2の状態、行動、及び報酬を含む。The
<強化学習方法の流れ>
図6は、強化学習システム2が実行する強化学習方法S2の流れを示すフロー図である。強化学習システム2は、ステップS21~ステップS29を繰り返すことにより、行動の選択を繰り返し行う。なお、一部のステップは並行して、又は順序を変えて実行されてもよい。
<Reinforcement learning method flow>
6 is a flow diagram showing the flow of the reinforcement learning method S2 executed by the
ステップS21において、状態提供部421は、第1の状態stを取得し、取得した第1の状態stを強化学習装置50に提供する。ステップS22において、状態観測部522は、端末40から第1の状態stを取得する。
In step S21, the
ステップS23において、状態ランダム化部523は、第1の状態stにノイズを付加することによって、1又は複数の第2の状態を生成する。状態ランダム化部523が第1の状態stに付加するノイズは、一例として、正規乱数、又は一様乱数である。ただし、状態ランダム化部523が第1の状態stに付加するノイズはこれらに限られず、上記以外のノイズであってもよい。ノイズが付加された第2の状態は、第1の状態stに若干のブレが生じた状態を表す。
In step S23, the
本動作例において、状態ランダム化部523は、属性に応じ、第1の状態stに含まれる複数の要素に、選択的にノイズを付加することによって第2の状態を生成する。状態ランダム化部523は、一例として、所定の条件を満たす属性に付随した要素にノイズを付加する。所定の条件は例えば、動的要素を示す属性である、又は、静的要素を示す属性である、といった条件である。ただし、所定の条件は上述した例に限られず、他の条件であってもよい。
In this operation example, the
また、状態ランダム化部523は、生成した第2の状態を含む状態列{st
(i)}(1≦i≦n;iは自然数、nは2以上の自然数)を生成する。状態列{st
(i)}は、第1の状態stと1又は複数の第2の状態とを含む状態列、又は、複数の第2の状態を含む状態列である。換言すると、状態列{st
(i)}は、少なくとも第2の状態を含み、また、第1の状態stを含んでいても含んでいなくてもよい。
Furthermore, the
ステップS24において、推定部525は、状態列{st
(i)}に応じて、第1の行動価値関数Q(st
(i),a)を算出する。推定部525は一例として、状態列{st
(i)}に含まれる複数の状態st
(i)のそれぞれについて、第1の行動価値関数Q(st
(i),a)を算出する。より具体的には、推定部525は一例として、上記式(1)により状態st
(i)についての第1の行動価値関数Q(st
(i),a)を更新する。本動作例において、第1の行動価値関数(st
(i),a)はm次元(mは2以上の整数)のベクトルであり、mは集合Aの要素数(すなわち行動aの種類数)である。
In step S24, the
ステップS25において、推定部525は、算出した複数の第1の行動価値関数Q(st
(i),a)に基づいて第2の行動価値関数J(st,a)を算出する。第2の行動価値関数J(st,a)は一例として、上記式(2)又は式(3)により与えられる。換言すると、推定部525は、上記式(2)又は式(3)により与えられる第2の行動価値関数を算出する。上記式(2)又は上記式(3)により与えられる第2の行動価値関数は、複数の第1の行動価値関数Q(st
(i),a)のばらつきが大きいほど第1の行動価値関数Q(st
(i),a)の期待値より低い値となる関数である。
In step S25, the
ステップS26において、選択部526は、第1の行動価値関数Q(st
(i),a)に基づいて算出される第2の行動価値関数J(st,a)に応じて、行動aを選択する。選択部526は一例として、上記式(4)により与えられる方策により行動aを選択する。なお、行動aを選択する方策は上記式(4)により与えられる方策に限られず、εグリーディ方策、ソフトマックス手法等の他の方策が用いられてもよい。選択部526は、選択した行動aを端末40に通知する。
In step S26, the
ステップS27において、行動実行部422は、強化学習装置50から通知された行動aを実行する。ステップS28において、報酬提供部423は、強化学習装置50が選択した行動を実行して得られた報酬rtを、強化学習装置50に提供する。ステップS29において、報酬取得部521は、状態列{st
(i)}、及び報酬rtを含む学習データを蓄積する。
In step S27, the
<強化学習システムの効果>
強化学習においては、状態が若干異なっているだけで行動価値関数の値が大きく異なる場合がある。換言すると、状態の若干の差分が行動価値関数の値に大きな影響を及ぼす場合がある。本例示的実施形態では、第1の状態stにあえて若干のノイズを加えた第2の状態を用いて第1の行動価値関数Qを算出することにより、状態のばらつきを考慮した第1の行動価値関数Qを算出することができる。この第1の行動価値関数Qを用いて行動aを選択することにより、本例示的実施形態によれば、行動aをより適切に選択することができる。
<Effects of reinforcement learning system>
In reinforcement learning, the value of the action value function may differ greatly even if the state is only slightly different. In other words, a slight difference in the state may have a large effect on the value of the action value function. In this exemplary embodiment, the first action value function Q is calculated using a second state in which a slight noise is intentionally added to the first state s t , thereby allowing the first action value function Q to be calculated taking into account the variation in the state. By selecting the action a using this first action value function Q, the action a can be more appropriately selected according to this exemplary embodiment.
また、本例示的実施形態に係る強化学習システム2においては、ノイズを付加した第2の状態を含む複数の状態st
(i)に応じて第1の行動価値関数Qを算出する構成が採用されている。このため、本例示的実施形態に係る強化学習システム2によれば、例示的実施形態1に係る強化学習システム1の奏する効果に加えて、より適切な行動aを選択できるという効果が得られる。
Furthermore, the
また、本例示的実施形態において、強化学習システム2が上述の式(2)を用いて第2の行動価値関数Jを算出する場合、第2の行動価値関数Jは、高次の影響を含めたリスク(ばらつき)に敏感な指標となる。第2の行動価値関数Jを用いて強化学習システム2が行動aを選択することで、よりリスクに敏感な行動aの選択を行うことができる。In addition, in this exemplary embodiment, when the
また、本例示的実施形態において、強化学習システム2が上述の式(3)を用いて第2の行動価値関数Jを算出する場合、式(3)には指数演算が含まれないため計算処理において桁あふれが発生することがない。第2の行動価値関数Jを用いて強化学習システム2が行動aを選択することにより、行動aをより好適に選択できるとともに、行動aの選択に係る処理負荷が軽減される。In addition, in this exemplary embodiment, when the
〔例示的実施形態3〕
本発明の例示的実施形態3について、図面を参照して説明する。なお、例示的実施形態1~2にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。
A third exemplary embodiment of the present invention will be described with reference to the drawings. Note that components having the same functions as those described in the first and second exemplary embodiments are denoted by the same reference numerals, and the description thereof will not be repeated.
<強化学習システムの構成>
本例示的実施形態に係る強化学習システム(以下「強化学習システム3」という)は、上記例示的実施形態2に係る強化学習システム2を、コンピュータゲームの自律プレイに適用したものである。強化学習システム3は、上述の例示的実施形態2において図5に示した強化学習システム2と同様の構成を有する。強化学習システム3の構成要素については、強化学習システム2の構成要素と同様であり、ここではその説明を繰り返さない。
<Configuration of Reinforcement Learning System>
A reinforcement learning system according to this exemplary embodiment (hereinafter referred to as "
本例示的実施形態において、第1の状態stは、一例として、コンピュータゲームにおいてゲームの進行に影響を与えるオブジェクトの状態を含む。行動aは、一例として、コンピュータゲームのプレイヤにより操作されるオブジェクトの動作を含む。報酬rtは、一例として、ゲームの勝敗、又はゲームのスコアに関する報酬を含む。 In this exemplary embodiment, the first state s t includes, for example, a state of an object that affects the progress of the computer game. The action a includes, for example, an action of an object operated by a player of the computer game. The reward r t includes, for example, a reward related to winning or losing the game or a score of the game.
図7は、強化学習システム3に係るコンピュータゲームのゲーム画面の一例である画面SC1を示す図である。画面SC1は、第1動的オブジェクトC11、第2動的オブジェクトC21~C23、第1静的オブジェクトC31~C34、及び第2静的オブジェクトC4を含む。第1動的オブジェクトC11、第2動的オブジェクトC21~C23、第1静的オブジェクトC31~C34、及び第2静的オブジェクトC4は、ゲームの進行に影響を与えるオブジェクトの例である。
Figure 7 is a diagram showing a screen SC1, which is an example of a game screen of a computer game related to the
図7に係るコンピュータゲームは、迷路内を移動する第1動的オブジェクトC11の移動方向をゲームのプレイヤが指定し、第2動的オブジェクトC21~C23の追跡をかわしながら迷路内に配置された第1静的オブジェクトC31~C34を回収するとラウンドクリアとなるゲームである。 The computer game of Figure 7 is a game in which the player of the game specifies the direction of movement of a first dynamic object C11 moving within a maze, and the round is cleared when the player collects first static objects C31 to C34 placed within the maze while evading pursuit by second dynamic objects C21 to C23.
第1動的オブジェクトC11、及び第2動的オブジェクトC21~C23は、ゲームの進行中において画面上を移動するオブジェクトであり、環境内を移動する動的要素の一例である。一方、第1静的オブジェクトC31~C34及び第2静的オブジェクトC4は、ゲームの進行中において画面上を移動しないオブジェクトであり、環境内を移動しない静的要素の一例である。第1動的オブジェクトC11は、プレイヤの操作対象のオブジェクトである。第1動的オブジェクトC11はゲームの進行中において迷路内を一定の速度で移動し、プレイヤの操作に応じて移動方向を変更する。第2動的オブジェクトC21~C23は、ゲームの進行中において第1動的オブジェクトC11を追従して移動するオブジェクトである。図7では3つの第2動的オブジェクトC21~C23を図示しているが、第2動的オブジェクトの数は3に限られず、これより多くても少なくてもよい。The first dynamic object C11 and the second dynamic objects C21 to C23 are objects that move on the screen during the game, and are an example of a dynamic element that moves within the environment. On the other hand, the first static objects C31 to C34 and the second static object C4 are objects that do not move on the screen during the game, and are an example of a static element that does not move within the environment. The first dynamic object C11 is an object that is operated by the player. The first dynamic object C11 moves at a constant speed within the maze during the game, and changes the direction of movement according to the player's operation. The second dynamic objects C21 to C23 are objects that move following the first dynamic object C11 during the game. Although three second dynamic objects C21 to C23 are illustrated in FIG. 7, the number of second dynamic objects is not limited to three, and may be more or less than this.
第1静的オブジェクトC31~C34は、迷路内に配置され、第1動的オブジェクトC11により回収されるオブジェクトである。第1動的オブジェクトC11が第1静的オブジェクトC31~C34に衝突することにより第1静的オブジェクトC31~C34が第1動的オブジェクトC11により回収される。図7では4つの第1静的オブジェクトC31~C34を図示しているが、第1静的オブジェクトの数は4に限られず、これより多くても少なくてもよい。第2静的オブジェクトC4は、迷路を構成する壁である。The first static objects C31-C34 are objects that are placed in the maze and are collected by the first dynamic object C11. When the first dynamic object C11 collides with the first static objects C31-C34, the first static objects C31-C34 are collected by the first dynamic object C11. Although four first static objects C31-C34 are illustrated in FIG. 7, the number of first static objects is not limited to four and may be more or less than this. The second static object C4 is a wall that constitutes the maze.
図7の例において、第1の状態stは、第1動的オブジェクトC11、第2動的オブジェクトC21~C23、第1静的オブジェクトC31~C34、及び第2静的オブジェクトC4に関する状態を含む。換言すると、第1の状態は、環境内を移動する動的要素に関する状態、及び、環境内を移動しない静的要素に関する状態を含む。より具体的には、第1の状態stは、第1動的オブジェクトC11の位置、第2動的オブジェクトC21~C23の位置、第1静的オブジェクトC31~C34の位置、及び第2静的オブジェクトC4の位置、を含む。 In the example of Fig. 7, the first state s t includes states related to the first dynamic object C11, the second dynamic objects C21 to C23, the first static objects C31 to C34, and the second static object C4. In other words, the first state includes states related to dynamic elements that move within the environment, and states related to static elements that do not move within the environment. More specifically, the first state s t includes the position of the first dynamic object C11, the positions of the second dynamic objects C21 to C23, the positions of the first static objects C31 to C34, and the position of the second static object C4.
本例示的実施形態において、第1の状態stは、ゲームのプレイ画面を表す画像である。
図8は、第1の状態stの一例である画像Img11を示す図である。画像Img11は、ゲーム画面に含まれる要素を0~255の画素値により表現したグレースケール画像である。画像Img11は所定数のマスに分割されており、各マスに位置する要素の属性に応じた画素値で各マスが表現される。一例として、第1動的オブジェクトC11の位置は画素値が255、第2動的オブジェクトC21~C23の位置は画素値が160、第1静的オブジェクトC31~C34の位置は画素値が128、第2静的オブジェクトC4により形成される通路の位置は画素値が64、移動不可の場所は画素値が0、で表される。
In this exemplary embodiment, the first state s t is an image representing a game play screen.
8 is a diagram showing an image Img11 which is an example of the first state s t . The image Img11 is a grayscale image in which elements included in the game screen are represented by pixel values of 0 to 255. The image Img11 is divided into a predetermined number of squares, and each square is represented by a pixel value according to the attribute of the element located in each square. As an example, the position of the first dynamic object C11 is represented by a pixel value of 255, the positions of the second dynamic objects C21 to C23 by a pixel value of 160, the positions of the first static objects C31 to C34 by a pixel value of 128, the position of the passage formed by the second static object C4 by a pixel value of 64, and the positions where movement is not possible by a pixel value of 0.
本例示的実施形態において、行動aは、第1動的オブジェクトC11の移動であり、上に移動、下に移動、右に移動、左に移動、の4種類である。報酬rtは、一例として、スコアがアップした場合に得られる所定の加算値(例えば、+1)、及び第2動的オブジェクトC21~C23に捕獲された場合に得られる所定の減算値(例えば、-10)である。1回の行動においてアップしたスコアの程度に関わらず、行動によりスコアがアップした場合に所定の加算値(例えば、+1)が報酬rtとして得られてもよい。 In this exemplary embodiment, the action a is the movement of the first dynamic object C11, and there are four types: moving up, moving down, moving right, and moving left. The reward r t is, for example, a predetermined added value (e.g., +1) obtained when the score is increased, and a predetermined subtracted value (e.g., -10) obtained when the object is captured by the second dynamic objects C21 to C23. Regardless of the degree of increase in the score in one action, a predetermined added value (e.g., +1) may be obtained as the reward r t when the score is increased by an action.
<強化学習方法の流れ>
強化学習システム3は、上述の例示的実施形態2に係る図6の強化学習方法S2を実行する。以下では、本例示的実施形態において特徴的な動作について主に説明し、上述の例示的実施形態2で説明した内容についてはその説明を繰り返さない。
<Reinforcement learning method flow>
The
本例示的実施形態では、ステップS23において、状態ランダム化部523は、第1の状態stに含まれる動的要素の状態にノイズを付加することによって第2の状態を生成する。状態ランダム化部523は、一例として、第1動的オブジェクトC11の位置及び第2動的オブジェクトC21~C23の位置をランダムウォークによりランダム化した第2の状態を生成する。
In this exemplary embodiment, in step S23, the
より具体的には、状態ランダム化部523は、一例として、ゲーム画面を所定数のマスに分割(例えば、33×33マスに分割)し、前後左右の進行できる方向(道のある方向)に1マス進む/進まない確率を、等確率に選択する。状態ランダム化部523は、第1動的オブジェクトC11の位置及び第2動的オブジェクトC21~C23についてσ2回(σは1以上の整数)のランダムウォークを実施する。σ2回のランダムウォークの実施により、動的要素は平均でσマスだけ移動する。
More specifically, as an example, the
ステップS23において状態ランダム化部523が生成する状態列{st
(i)}は、第1の状態st、及び、第1の状態stをランダム化した(n-1)個の第2の状態、の計n個の状態を含む。また、行動aが上に移動、下に移動、右に移動、左に移動の4種類であるため、ステップS24で推定部525が算出する第1の行動価値関数(st
(i),a)は、4次元のベクトルである。
The state sequence {s t (i) } generated by the
ステップS26において、選択部526は、第1動的オブジェクトC11の移動方向を、交差点又は角(すなわち、移動方向を変更できる地点)において、行動aとして上下左右の4種類からいずれかを選択する。ただし、選択部526は、第1動的オブジェクトC11が移動できない方向は除外する。In step S26, the
<本例示的実施形態の評価>
図9~図12はそれぞれ、強化学習システム3に係るコンピュータゲームの自律プレイの評価結果の一例を示す図である。本例示的実施形態に係るコンピュータゲームにおいて、第1動的オブジェクトのライフは1機とし、第1動的オブジェクトが第2動的オブジェクトに捕獲されるとゲームオーバーとした。また、ステージは1ステージとし、ゲームをクリアすれば、すなわち全ての第1静的オブジェクトを全て回収すれば終了とした。
Evaluation of this exemplary embodiment
9 to 12 are diagrams showing examples of evaluation results of autonomous play of a computer game involving the
図9~図12の例では、強化学習システム3の強化学習におけるσ及びθの値を変更した複数の条件において強化学習システム3がコンピュータゲームの自律プレイを行った結果を評価した。また、強化学習システム3ではない、従来の強化学習の手法による自律プレイの結果も比較対象とした。従来の強化学習の手法としては、DQN(deep Q-network)の手法において行動選択の方策を改良したものを用いた。
In the examples of Figures 9 to 12, the results of the
図9は、σ=2の場合の自律プレイによるスコアを表すグラフである。σは、上述したようにランダムウォークにおける平均移動回数である。図9において、縦軸はスコアを示す。グラフg91は、従来の強化学習による自律プレイのスコアの平均値を示す。グラフg11~g14は、強化学習システム3の自律プレイによるスコアの平均値を表す。グラフg11~g14は、第2の行動価値関数Jを表す式(上記式(2)又は式(3))のハイパーパラメータθの値がそれぞれ異なっている。グラフg11~g14はそれぞれ、ハイパーパラメータθを「0」、「0.001」、「0.01」、「0.1」とした場合のスコアの平均値を表すグラフである。
Figure 9 is a graph showing scores from autonomous play when σ = 2. As mentioned above, σ is the average number of moves in a random walk. In Figure 9, the vertical axis shows the score. Graph g91 shows the average score from autonomous play using conventional reinforcement learning. Graphs g11 to g14 show the average score from autonomous play using the
グラフg91と、グラフg11~g14とを比較すると、従来の強化学習によるスコアよりも、本例示的実施形態に係る強化学習システム3のスコアのほうが高く、特にハイパーパラメータθの値を「0.01」とした場合のスコアが高くなっている。
Comparing graph g91 with graphs g11 to g14, the score of the
図10は、σ=2の場合の自律プレイによる第1静的オブジェクトの回収率を表すグラフである。図10において、縦軸は回収率を示す。グラフg92は、従来の強化学習による自律プレイの回収率の平均値を示す。グラフg21~g24は、強化学習システム3の自律プレイによる回収率の平均値を表す。グラフg21~g24は、第2の行動価値関数Jを表す式(上記式(2)又は式(3))のハイパーパラメータθの値がそれぞれ異なっている。グラフg21~g24はそれぞれ、ハイパーパラメータθを「0」、「0.001」、「0.01」、「0.1」とした場合の回収率の平均値を表すグラフである。
Figure 10 is a graph showing the recovery rate of the first static object through autonomous play when σ = 2. In Figure 10, the vertical axis shows the recovery rate. Graph g92 shows the average recovery rate of autonomous play through conventional reinforcement learning. Graphs g21 to g24 show the average recovery rate of autonomous play through
グラフg92と、グラフg21~g24とを比較すると、従来の強化学習による回収率よりも、本例示的実施形態に係る強化学習システム3の回収率のほうが高い傾向があり、特にハイパーパラメータθの値を「0.01」とした場合のスコアが高くなっている。
Comparing graph g92 with graphs g21 to g24, the recovery rate of the
図11は、自律プレイによるスコアとσとの関係を表すグラフである。図11において、横軸はσを示し、縦軸はスコアを示す。グラフg31~g34はそれぞれ、ハイパーパラメータθが「0」、「0.001」、「0.01」、「0.1」である場合における、σが1~5の場合のスコアの平均値を表す。なお、従来の強化学習による自律プレイのスコアの平均値は「2009」である。 Figure 11 is a graph showing the relationship between score and σ in autonomous play. In Figure 11, the horizontal axis shows σ, and the vertical axis shows score. Graphs g31 to g34 show the average score when σ is 1 to 5, and the hyperparameter θ is "0", "0.001", "0.01", and "0.1", respectively. Note that the average score in autonomous play using conventional reinforcement learning is "2009".
図11の例では、σの値が1~3の場合のスコア値が、従来の強化学習によるスコアよりも高くなっていることが多い。特に、θ=0.01、σ=2の場合のスコアが他と比較して高くなっている。In the example of Figure 11, the scores for σ values between 1 and 3 are often higher than those obtained with conventional reinforcement learning. In particular, the score for θ = 0.01 and σ = 2 is higher than the others.
図12は、自律プレイによる回収率とσとの関係を表すグラフである。図12において、横軸はσを示し、縦軸は回収率を示す。グラフg41~g44はそれぞれ、ハイパーパラメータθが「0」、「0.001」、「0.01」、「0.1」である場合のσの値毎の回収率の平均値を表す。なお、従来の強化学習による自律プレイの回収率の平均値は67.5%である。 Figure 12 is a graph showing the relationship between recovery rate and σ due to autonomous play. In Figure 12, the horizontal axis shows σ, and the vertical axis shows recovery rate. Graphs g41 to g44 show the average recovery rate for each value of σ when the hyperparameter θ is "0", "0.001", "0.01", and "0.1", respectively. The average recovery rate for autonomous play using conventional reinforcement learning is 67.5%.
図12の例では、σの値が1~3の場合の回収率が、従来の強化学習による回収率よりも高くなっているものが多い。特に、θ=0.01、σ=2の場合の回収率が他と比較して高くなっている。In the example of Figure 12, the recovery rate for σ values between 1 and 3 is often higher than that achieved by conventional reinforcement learning. In particular, the recovery rate for θ = 0.01 and σ = 2 is higher than the others.
以上説明したように本例示的実施形態によれば、強化学習システム3は、第1の状態にノイズを付加した第2の状態を用いて第1の行動価値関数を算出することにより、コンピュータゲームの自律プレイにおける行動の選択をより好適に行うことができる。As described above, according to this exemplary embodiment, the
〔例示的実施形態4〕
本発明の例示的実施形態4について説明する。なお、例示的実施形態1~3にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を用いてその説明を繰り返さない。
A fourth exemplary embodiment of the present invention will be described. Note that components having the same functions as those described in the first to third exemplary embodiments will be designated by the same reference numerals and will not be described repeatedly.
本例示的実施形態に係る強化学習システム(以下「強化学習システム4」という)は、上記例示的実施形態2に係る強化学習システム2を、土砂を掘削する掘削機等の建設機械の制御に適用したものである。強化学習システム3は、上述の例示的実施形態2において図5に示した強化学習システム2と同様の構成を有する。強化学習システム4の構成要素については、強化学習システム2の構成要素と同様であり、ここではその説明を繰り返さない。The reinforcement learning system according to this exemplary embodiment (hereinafter referred to as "
強化学習システム4は、油圧ショベルが土砂を掘削する場合の掘削動作等の建設機械の動作を強化学習により選択する。強化学習における行動の目的は、一例として、バケット一杯に土砂を掘削し、掘削の際に車体が傾いたり引きずられたりしないようにすることである。The
本例示的実施形態において、第1の状態stは、一例として、油圧ショベル等の建設機械の姿勢及び位置、掘削対象である土砂の形状(3Dデータ、等)、並びに掘削機のバケット内の土砂量、の一部又は全部を含む。建設機械の姿勢は、一例として、建設機械のバケット、アーム、ブーム、及び上記旋回体の角度を含む。建設機械の位置は、一例として、建設機械のクローラの位置及び方向を含む。 In this exemplary embodiment, the first state s t includes, for example, some or all of the following: the attitude and position of a construction machine such as a hydraulic excavator, the shape (3D data, etc.) of the soil to be excavated, and the amount of soil in the bucket of the excavator. The attitude of the construction machine includes, for example, the angles of the bucket, arm, boom, and rotating body of the construction machine. The position of the construction machine includes, for example, the position and direction of the crawler of the construction machine.
行動aは、一例として、建設機械の姿勢制御(バケット、アーム、ブーム、旋回体の角度制御、等)を含む。報酬rtは、一例として、掘削量が多いほどその絶対値が大きい正の報酬、及び、建設機械の車体の傾きの程度、引きずられの程度又は掘削にかかった時間が大きいほどその絶対値が大きい負の報酬、の一部又は全部を含む。 The action a includes, for example, posture control of the construction machine (angle control of the bucket, arm, boom, rotating body, etc.). The reward r t includes, for example, a part or all of a positive reward whose absolute value increases as the amount of excavation increases, and a negative reward whose absolute value increases as the degree of inclination of the body of the construction machine, the degree of dragging, or the time taken for excavation increases.
状態ランダム化部523は、第1の状態stに含まれる複数の要素の全てにノイズを付加してもよく、また、一部の要素にノイズを付加してもよい。一部の要素にノイズを付加する場合、ノイズが付加される要素は、例えば、油圧ショベル姿勢、観測した土砂の3Dデータを含んでもよい。
The
本例示的実施形態によれば、強化学習システム4は、第1の状態stにノイズを付加した第2の状態を用いて第1の行動価値関数を算出することにより、建設機械の動作の選択をより好適に行うことができる。
According to this exemplary embodiment, the
〔例示的実施形態5〕
本発明の例示的実施形態5について説明する。なお、例示的実施形態1~4にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を用いてその説明を繰り返さない。
A fifth exemplary embodiment of the present invention will be described. Note that components having the same functions as those described in the first to fourth exemplary embodiments will be designated by the same reference numerals and will not be described repeatedly.
本例示的実施形態に係る強化学習システム(以下「強化学習システム5」という)は、上記例示的実施形態2に係る強化学習システム2を、荷物を搬送する搬送装置の制御に適用するものである。搬送装置は、一例として、自動走行する無人搬送車(AGV:Automated Guided Vehicle)である。強化学習システム5は、上述の例示的実施形態2において図5に示した強化学習システム2と同様の構成を有する。強化学習システム5の構成要素については、強化学習システム2の構成要素と同様であり、ここではその説明を繰り返さない。
The reinforcement learning system according to this exemplary embodiment (hereinafter referred to as "
強化学習システム5は、所定の位置から別の位置へと荷物を搬送する場合に、できるだけ搬送時間を短く(搬送速度を速く)、かつ、途中で静的障害物(棚、荷物等)及び動的障害物(人、他のロボット、等)への接触がないように行動を選択する。When transporting luggage from a given location to another, the
本例示的実施形態において、第1の状態stは、一例として、搬送物を搬送する搬送装置の位置、移動方向、速度、及び角速度、通路の位置、静的障害物の位置、並びに動的障害物の位置及び移動速度、の一部又は全部を含む。行動aは、一例として、搬送装置の速度制御及び角速度制御を含む。報酬rtは、一例として、搬送完了時に得られる正の報酬、障害物への接触時に得られる負の報酬、又は、搬送時間が長いほどその絶対値が大きい負の報酬、の一部又は全部を含む。 In this exemplary embodiment, the first state s t includes, for example, some or all of the following: the position, moving direction, speed, and angular speed of the conveying device that conveys the conveyed object, the position of the passage, the position of a static obstacle, and the position and moving speed of a dynamic obstacle. The action a includes, for example, speed control and angular velocity control of the conveying device. The reward r t includes, for example, some or all of the following: a positive reward obtained when conveying is completed, a negative reward obtained when contacting an obstacle, or a negative reward whose absolute value increases as the conveying time is longer.
状態ランダム化部523は、第1の状態にstに含まれる複数の要素の全てにノイズを付加してもよく、また、一部の要素にノイズを付加してもよい。一部の要素にノイズを付加する場合、ノイズが付加される要素は、例えば、搬送装置の位置、方向、速度及び角速度を含んでもよく、また、静的障害物の位置、又は動的障害物の位置及び速度を含んでもよい。また、状態ランダム化部523は例えば、搬送装置の進行方向や走行経路上に位置する障害物に対してノイズを付与し、進行方向外や走行経路以外に位置する障害物に対し、ノイズを付与しないようにしてもよい。
The
本例示的実施形態によれば、強化学習システム5は、第1の状態stにノイズを付加した第2の状態を用いて第1の行動価値関数を算出することにより、搬送装置の搬送制御をより好適に行うことができる。
According to this exemplary embodiment, the
〔例示的実施形態6〕
本発明の例示的実施形態6について説明する。なお、例示的実施形態1~5にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を用いてその説明を繰り返さない。
Exemplary embodiment 6
A sixth exemplary embodiment of the present invention will be described. Note that components having the same functions as those described in the first to fifth exemplary embodiments will be designated by the same reference numerals and will not be described repeatedly.
本例示的実施形態に係る強化学習システム(以下「強化学習システム6」という)は、上記例示的実施形態2に係る強化学習システム2を、フォークリフトの制御に適用するものである。強化学習システム6は、上述の例示的実施形態2において図5に示した強化学習システム2と同様の構成を有する。強化学習システム6の構成要素については、強化学習システム2の構成要素と同様であり、ここではその説明を繰り返さない。The reinforcement learning system according to this exemplary embodiment (hereinafter referred to as "reinforcement learning system 6") applies the
強化学習システム6は、所定の位置から別の位置へとパレットを搬送する場合に、できるだけ搬送時間を短く(搬送速度を速く)、かつ、途中で静的障害物(棚、荷物等)及び動的障害物(人、他のボロッと、等)への接触がないように行動を選択する。When transporting a pallet from a given position to another, the reinforcement learning system 6 selects actions that minimize the transport time (increase the transport speed) and avoid contact with static obstacles (shelves, luggage, etc.) and dynamic obstacles (people, other debris, etc.) along the way.
本例示的実施形態において、第1の状態stは、一例として、フォークリフトの位置、移動方向、速度、及び角速度、通路の位置、静的障害物の位置、並びに動的障害物の位置及び速度、の一部又は全部を含む。行動aは、一例として、フォークリフトの速度制御及び角速度制御を含む。報酬rtは、一例として、搬送完了時に得られる正の報酬、障害物への接触時に得られる負の報酬、又は、搬送時間が長いほどその絶対値が大きい負の報酬、の一部又は全部を含む。 In this exemplary embodiment, the first state s t includes, for example, some or all of the position, moving direction, speed, and angular speed of the forklift, the position of the passage, the position of a static obstacle, and the position and speed of a dynamic obstacle. The action a includes, for example, speed control and angular speed control of the forklift. The reward r t includes, for example, some or all of a positive reward obtained when the transport is completed, a negative reward obtained when the obstacle is contacted, or a negative reward whose absolute value increases as the transport time is longer.
状態ランダム化部523は、第1の状態にstに含まれる複数の要素の全てにノイズを付加してもよく、また、一部の要素にノイズを付加してもよい。一部の要素にノイズを付加する場合、ノイズが付加される要素は、例えば、フォークリフトの位置、方向、速度及び角速度を含んでもよく、また、静的障害物の位置、又は動的障害物の位置及び速度を含んでもよい。また、状態ランダム化部523は例えば、フォークリフトの進行方向や走行経路上に位置する障害物に対してノイズを付与し、進行方向外や走行経路以外に位置する障害物に対し、ノイズを付与しないようにしてもよい。
The
本例示的実施形態によれば、強化学習システム5は、第1の状態stにノイズを付加した第2の状態を用いて第1の行動価値関数を算出することにより、フォークリフト制御をより好適に行うことができる。
According to this exemplary embodiment, the
〔例示的実施形態7〕
本発明の例示的実施形態7について説明する。なお、例示的実施形態1~6にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を用いてその説明を繰り返さない。
Exemplary embodiment 7
A seventh exemplary embodiment of the present invention will be described. Note that components having the same functions as those described in the first to sixth exemplary embodiments will be designated by the same reference numerals and will not be described repeatedly.
本例示的実施形態に係る強化学習システム(以下「強化学習システム7」という)は、上述の例示的実施形態2において図5に示した強化学習システム2と同様の構成を有する。強化学習システム6の構成要素については、強化学習システム2の構成要素と同様であり、ここではその説明を繰り返さない。The reinforcement learning system according to this exemplary embodiment (hereinafter referred to as "reinforcement learning system 7") has a configuration similar to that of the
本例示的実施形態において、第1の状態stは、属性が付随する複数の要素を含む。また、状態ランダム化部523は、第1の状態stにノイズを付加する際に、属性によりノイズの付加の重み付けを異ならせる。状態ランダム化部523は、一例として、環境内を移動する動的要素の重み付けを大きくする一方、環境内を移動しない静的要素の重み付けを小さくしてもよい。また、一例として、状態ランダム化部523は、環境内を移動する動的要素のうち、人の位置の重み付けを他の動的要素の重み付けよりも大きくしてもよい。
In this exemplary embodiment, the first state s t includes a plurality of elements with attributes. When adding noise to the first state s t , the
本例示的実施形態によれば、要素の属性に応じた重み付けでノイズを付加した第2の状態を用いて第1の行動価値関数を算出することにより、属性に応じたデータのばらつきを考慮した第1の行動価値関数を算出することができる。この第1の行動価値関数を用いて行動を選択することにより、属性に応じたデータのばらつきを考慮した行動の選択を行うことができる。According to this exemplary embodiment, the first action value function is calculated using the second state in which noise is added with weighting according to the attribute of the element, so that the first action value function can be calculated taking into account the variability of data according to the attribute. By selecting an action using this first action value function, it is possible to select an action taking into account the variability of data according to the attribute.
また、本例示的実施形態において、状態ランダム化部523は、ノイズの付加の重み付けを強化学習の実行中に変更してもよい。一例として、状態ランダム化部523は、動的要素が環境中を移動している場合は重み付けを大きくする一方、環境中を移動していない動的要素については重み付けを小さくする、といった制御を行ってもよい。In addition, in this exemplary embodiment, the
〔ソフトウェアによる実現例〕
強化学習装置10、端末20、サーバ30、端末40、強化学習装置50(以下「強化学習装置10等」という)の一部又は全部の機能は、集積回路(ICチップ)等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。
[Software implementation example]
Some or all of the functions of the
後者の場合、強化学習装置10等は、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例(以下、コンピュータCと記載する)を図13に示す。コンピュータCは、少なくとも1つのプロセッサC1と、少なくとも1つのメモリC2と、を備えている。メモリC2には、コンピュータCを強化学習装置10等として動作させるためのプログラムPが記録されている。コンピュータCにおいて、プロセッサC1は、プログラムPをメモリC2から読み取って実行することにより、強化学習装置10等の各機能が実現される。In the latter case, the
プロセッサC1としては、例えば、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、FPU(Floating point number Processing Unit)、PPU(Physics Processing Unit)、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリC2としては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、又は、これらの組み合わせなどを用いることができる。The processor C1 may be, for example, a central processing unit (CPU), a graphic processing unit (GPU), a digital signal processor (DSP), a micro processing unit (MPU), a floating point number processing unit (FPU), a physics processing unit (PPU), a microcontroller, or a combination of these. The memory C2 may be, for example, a flash memory, a hard disk drive (HDD), a solid state drive (SSD), or a combination of these.
なお、コンピュータCは、プログラムPを実行時に展開したり、各種データを一時的に記憶したりするためのRAM(Random Access Memory)を更に備えていてもよい。また、コンピュータCは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータCは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。 The computer C may further include a RAM (Random Access Memory) for expanding the program P during execution and for temporarily storing various data. The computer C may further include a communications interface for transmitting and receiving data to and from other devices. The computer C may further include an input/output interface for connecting input/output devices such as a keyboard, mouse, display, and printer.
また、プログラムPは、コンピュータCが読み取り可能な、一時的でない有形の記録媒体Mに記録することができる。このような記録媒体Mとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータCは、このような記録媒体Mを介してプログラムPを取得することができる。また、プログラムPは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータCは、このような伝送媒体を介してプログラムPを取得することもできる。 The program P can also be recorded on a non-transitory, tangible recording medium M that can be read by the computer C. Such a recording medium M can be, for example, a tape, a disk, a card, a semiconductor memory, or a programmable logic circuit. The computer C can acquire the program P via such a recording medium M. The program P can also be transmitted via a transmission medium. Such a transmission medium can be, for example, a communications network or broadcast waves. The computer C can also acquire the program P via such a transmission medium.
〔付記事項1〕
本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。
[Additional Note 1]
The present invention is not limited to the above-described embodiment, and various modifications are possible within the scope of the claims. For example, embodiments obtained by appropriately combining the technical means disclosed in the above-described embodiment are also included in the technical scope of the present invention.
〔付記事項2〕
上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。
[Additional Note 2]
Some or all of the above-described embodiments can be described as follows. However, the present invention is not limited to the aspects described below.
(付記1)
強化学習の対象である環境における第1の状態を取得する取得手段と、
前記第1の状態にノイズを付加することによって第2の状態を生成する生成手段と、
前記第2の状態に応じて、第1の行動価値関数を算出する算出手段と、
前記第1の行動価値関数に応じて、行動を選択する選択手段と、
を備えることを特徴とする強化学習システム。
(Appendix 1)
An acquisition means for acquiring a first state in an environment that is a target of reinforcement learning;
generating means for generating a second state by adding noise to the first state;
A calculation means for calculating a first action value function according to the second state;
a selection means for selecting an action in accordance with the first action-value function;
A reinforcement learning system comprising:
上記の構成によれば、第1の状態にノイズを付加した第2の状態を用いて第1の行動価値関数を算出することにより、より好適な行動を選択できる。 According to the above configuration, a more suitable action can be selected by calculating the first action value function using a second state in which noise is added to the first state.
(付記2)
前記算出手段は、前記第1の状態と前記第2の状態とに応じて、前記第1の行動価値関数を算出する、
付記1に記載の強化学習システム。
(Appendix 2)
the calculation means calculates the first action value function according to the first state and the second state.
2. The reinforcement learning system of
上記の構成によれば、ノイズを付加した第2の状態を含む複数の状態を用いて第1の行動価値関数を算出することにより、より好適な行動を選択できる。 According to the above configuration, a more suitable action can be selected by calculating the first action value function using multiple states including the second state to which noise has been added.
(付記3)
前記算出手段は、前記第1の状態及び前記第2の状態のそれぞれについて、前記第1の行動価値関数を算出し、
前記選択手段は、複数の前記第1の行動価値関数に基づいて算出される第2の行動価値関数に応じて、前記行動を選択する、
付記2に記載の強化学習システム。
(Appendix 3)
The calculation means calculates the first action-value function for each of the first state and the second state;
the selection means selects the action in accordance with a second action-value function calculated based on a plurality of the first action-value functions.
3. The reinforcement learning system of
上記の構成によれば、複数の第1の行動価値関数を用いて算出される第2の行動価値関数を用いることにより、より好適な行動を選択できる。 According to the above configuration, a more suitable action can be selected by using a second action value function calculated using multiple first action value functions.
(付記4)
前記第1の状態は、搬送物を搬送する搬送装置の位置、移動方向、速度、及び角速度、通路の位置、並びに静的又は動的な障害物の位置及び速度、のうちの少なくとも何れか1つを含む、
付記1から3の何れか1つに記載の強化学習システム。
(Appendix 4)
The first state includes at least one of a position, a moving direction, a speed, and an angular velocity of a conveying device that conveys an object, a position of a passage, and a position and a speed of a static or dynamic obstacle;
4. The reinforcement learning system of
上記の構成によれば、強化学習による搬送装置の搬送動作の選択をより好適に行うことができる。 According to the above configuration, the transport operation of the transport device can be more appropriately selected through reinforcement learning.
(付記5)
前記第1の状態は、建設機械の姿勢及び位置、掘削対象である土砂の形状、並びに掘削機のバケット内の土砂量、のうちの少なくとも何れか1つを含む、
付記1から3のいずれか1つに記載の強化学習システム。
(Appendix 5)
The first state includes at least one of the following: an attitude and a position of a construction machine, a shape of soil to be excavated, and an amount of soil in a bucket of an excavator.
4. The reinforcement learning system of
上記の構成によれば、強化学習による建設機械の建設動作の選択をより好適に行うことができる。 According to the above configuration, the construction operations of the construction machine can be more appropriately selected through reinforcement learning.
(付記6)
前記第1の状態は、属性が付随する複数の要素を含み、
前記生成手段は、前記属性に応じ、前記第1の状態に含まれる複数の要素に、選択的にノイズを付加することによって前記第2の状態を生成する、
付記1から5の何れか1つに記載の強化学習システム。
(Appendix 6)
the first state includes a plurality of elements having attributes associated therewith;
the generating means generates the second state by selectively adding noise to a plurality of elements included in the first state according to the attribute.
6. The reinforcement learning system of
上記の構成によれば、所定の条件を満たす属性に付随した要素についてのデータのばらつきを考慮した第1の行動価値関数を算出できる。 According to the above configuration, a first action value function can be calculated that takes into account the variability in data for elements associated with attributes that satisfy specified conditions.
(付記7)
前記第1の状態は、環境内を移動する動的要素に関する状態を含み、
前記生成手段は、前記第1の状態に含まれる前記動的要素の状態にノイズを付加することによって前記第2の状態を生成する、
付記6に記載の強化学習システム。
(Appendix 7)
the first state includes a state regarding a dynamic element moving within an environment;
the generating means generates the second state by adding noise to a state of the dynamic element included in the first state.
7. The reinforcement learning system of claim 6.
上記の構成によれば、動的要素についてのデータのばらつきを考慮した第1の行動価値関数を算出できる。 According to the above configuration, a first action value function can be calculated that takes into account the variability of data for dynamic elements.
(付記8)
強化学習の対象である環境における第1の状態を取得する取得手段と、
前記第1の状態にノイズを付加することによって第2の状態を生成する生成手段と、
前記第2の状態に応じて、第1の行動価値関数を算出する算出手段と、
前記第1の行動価値関数に応じて、行動を選択する選択手段と、
を備えることを特徴とする強化学習装置。
(Appendix 8)
An acquisition means for acquiring a first state in an environment that is a target of reinforcement learning;
generating means for generating a second state by adding noise to the first state;
A calculation means for calculating a first action value function according to the second state;
a selection means for selecting an action in accordance with the first action-value function;
A reinforcement learning device comprising:
上記の構成によれば、第1の状態にノイズを付加した第2の状態を用いて第1の行動価値関数を算出することにより、より好適な行動を選択できる。 According to the above configuration, a more suitable action can be selected by calculating the first action value function using a second state in which noise is added to the first state.
(付記9)
前記算出手段は、前記第1の状態と前記第2の状態とに応じて、前記第1の行動価値関数を算出する、
付記8に記載の強化学習装置。
(Appendix 9)
the calculation means calculates the first action value function according to the first state and the second state.
9. The reinforcement learning device according to claim 8.
上記の構成によれば、ノイズを付加した第2の状態を含む複数の状態を用いて第1の行動価値関数を算出することにより、より好適な行動を選択できる。 According to the above configuration, a more suitable action can be selected by calculating the first action value function using multiple states including the second state to which noise has been added.
(付記10)
前記算出手段は、前記状態列に含まれる複数の状態のそれぞれについて、前記第1の行動価値関数を算出し、
前記選択手段は、複数の前記第1の行動価値関数に基づいて算出される第2の行動価値関数に応じて、前記行動を選択する、
付記9に記載の強化学習装置。
(Appendix 10)
the calculation means calculates the first action-value function for each of a plurality of states included in the state sequence;
the selection means selects the action in accordance with a second action-value function calculated based on a plurality of the first action-value functions.
10. The reinforcement learning device according to claim 9.
上記の構成によれば、複数の第1の行動価値関数を用いて算出される第2の行動価値関数を用いることにより、より好適な行動を選択できる。 According to the above configuration, a more suitable action can be selected by using a second action value function calculated using multiple first action value functions.
(付記11)
前記第1の状態は、搬送物を搬送する搬送装置の位置、移動方向、速度、及び角速度、通路の位置、並びに静的又は動的な障害物の位置及び速度、のうちの少なくとも何れか1つを含む、
付記8から10の何れか1つに記載の強化学習装置。
(Appendix 11)
The first state includes at least one of a position, a moving direction, a speed, and an angular velocity of a conveying device that conveys an object, a position of a passage, and a position and a speed of a static or dynamic obstacle;
11. The reinforcement learning device according to any one of appendixes 8 to 10.
上記の構成によれば、強化学習による搬送装置の搬送動作の選択をより好適に行うことができる。 According to the above configuration, the transport operation of the transport device can be more appropriately selected through reinforcement learning.
(付記12)
前記第1の状態は、建設機械の姿勢及び位置、掘削対象である土砂の形状、並びに掘削機のバケット内の土砂量、のうちの少なくとも何れか1つを含む、
付記8から10のいずれか1つに記載の強化学習装置。
(Appendix 12)
The first state includes at least one of the following: an attitude and a position of a construction machine, a shape of the soil to be excavated, and an amount of soil in a bucket of an excavator.
11. The reinforcement learning device according to any one of claims 8 to 10.
上記の構成によれば、強化学習による建設機械の建設動作の選択をより好適に行うことができる。 According to the above configuration, the construction operations of the construction machine can be more appropriately selected through reinforcement learning.
(付記13)
前記第1の状態は、属性が付随する複数の要素を含み、
前記生成手段は、前記属性に応じ、前記第1の状態に含まれる複数の要素に、選択的にノイズを付加することによって前記第2の状態を生成する、
付記8から12の何れか1つに記載の強化学習装置。
(Appendix 13)
the first state includes a plurality of elements having attributes associated therewith;
the generating means generates the second state by selectively adding noise to a plurality of elements included in the first state according to the attribute.
13. A reinforcement learning device according to any one of appendixes 8 to 12.
上記の構成によれば、所定の条件を満たす属性に付随した要素についてのデータのばらつきを考慮した第1の行動価値関数を算出できる。 According to the above configuration, a first action value function can be calculated that takes into account the variability in data for elements associated with attributes that satisfy specified conditions.
(付記14)
前記第1の状態は、環境内を移動する動的要素に関する状態を含み、
前記生成手段は、前記第1の状態に含まれる前記動的要素の状態にノイズを付加することによって前記第2の状態を生成する、
付記13に記載の強化学習装置。
(Appendix 14)
the first state includes a state regarding a dynamic element moving within an environment;
the generating means generates the second state by adding noise to a state of the dynamic element included in the first state.
14. The reinforcement learning device according to
上記の構成によれば、動的要素についてのデータのばらつきを考慮した第1の行動価値関数を算出できる。 According to the above configuration, a first action value function can be calculated that takes into account the variability of data for dynamic elements.
(付記15)
強化学習の対象である環境における第1の状態を取得すること、
前記第1の状態にノイズを付加することによって第2の状態を生成すること、
前記第2の状態に応じて、第1の行動価値関数を算出すること、
前記第1の行動価値関数に応じて、行動を選択すること、
を含む強化学習方法。
(Appendix 15)
Obtaining a first state of an environment that is the subject of reinforcement learning;
generating a second state by adding noise to the first state;
calculating a first action-value function in response to the second state;
selecting an action in response to said first action-value function;
Reinforcement learning methods including
上記の構成によれば、第1の状態にノイズを付加した第2の状態を用いて第1の行動価値関数を算出することにより、より好適な行動を選択できる。 According to the above configuration, a more suitable action can be selected by calculating the first action value function using a second state in which noise is added to the first state.
(付記16)
前記第1の行動価値関数を算出することにおいて、
前記第1の状態と前記第2の状態とに応じて、前記第1の行動価値関数を算出する、
付記15に記載の強化学習方法。
(Appendix 16)
In calculating the first action value function,
calculating the first action-value function according to the first state and the second state;
16. The reinforcement learning method of claim 15.
上記の構成によれば、ノイズを付加した第2の状態を含む複数の状態を用いて第1の行動価値関数を算出することにより、より好適な行動を選択できる。 According to the above configuration, a more suitable action can be selected by calculating the first action value function using multiple states including the second state to which noise has been added.
(付記17)
前記第1の行動価値関数を算出することにおいて、前記状態列に含まれる複数の状態のそれぞれについて、前記第1の行動価値関数を算出し、
前記行動を選択することにおいて、複数の前記第1の行動価値関数に基づいて算出される第2の行動価値関数に応じて、前記行動を選択する、
付記16に記載の強化学習方法。
(Appendix 17)
In calculating the first action-value function, the first action-value function is calculated for each of a plurality of states included in the state sequence;
In selecting the action, the action is selected according to a second action value function calculated based on a plurality of the first action value functions.
17. The reinforcement learning method of claim 16.
上記の構成によれば、複数の第1の行動価値関数を用いて算出される第2の行動価値関数を用いることにより、より好適な行動を選択できる。 According to the above configuration, a more suitable action can be selected by using a second action value function calculated using multiple first action value functions.
(付記18)
前記第1の状態は、搬送物を搬送する搬送装置の位置、移動方向、速度、及び角速度、通路の位置、並びに静的又は動的な障害物の位置及び速度、のうちの少なくとも何れか1つを含む、
付記15から17の何れか1つに記載の強化学習方法。
(Appendix 18)
The first state includes at least one of a position, a moving direction, a speed, and an angular velocity of a conveying device that conveys an object, a position of a passage, and a position and a speed of a static or dynamic obstacle;
18. The reinforcement learning method of any one of appendix 15 to 17.
上記の構成によれば、強化学習による搬送装置の搬送動作の選択をより好適に行うことができる。 According to the above configuration, the transport operation of the transport device can be more appropriately selected through reinforcement learning.
(付記19)
前記第1の状態は、建設機械の姿勢及び位置、掘削対象である土砂の形状、並びに掘削機のバケット内の土砂量、のうちの少なくとも何れか1つを含む、
付記15から17のいずれか1つに記載の強化学習方法。
(Appendix 19)
The first state includes at least one of the following: an attitude and a position of a construction machine, a shape of soil to be excavated, and an amount of soil in a bucket of an excavator.
18. The reinforcement learning method of any one of appendix 15 to 17.
上記の構成によれば、強化学習による建設機械の建設動作の選択をより好適に行うことができる。 According to the above configuration, the construction operations of the construction machine can be more appropriately selected through reinforcement learning.
(付記20)
前記第1の状態は、属性が付随する複数の要素を含み、
前記第2の状態を生成することにおいて、前記属性に応じ、前記第1の状態に含まれる複数の要素に、選択的にノイズを付加することによって前記第2の状態を生成する、
付記15から19の何れか1つに記載の強化学習方法。
(Appendix 20)
the first state includes a plurality of elements having attributes associated therewith;
generating the second state by selectively adding noise to a plurality of elements included in the first state according to the attribute;
20. The reinforcement learning method of any one of appendix 15 to 19.
上記の構成によれば、所定の条件を満たす属性に付随した要素についてのデータのばらつきを考慮した第1の行動価値関数を算出できる。 According to the above configuration, a first action value function can be calculated that takes into account the variability in data for elements associated with attributes that satisfy specified conditions.
(付記21)
前記第1の状態は、環境内を移動する動的要素に関する状態を含み、
前記第2の状態を生成することにおいて、前記第1の状態に含まれる前記動的要素の状態にノイズを付加することによって前記第2の状態を生成する、
付記20に記載の強化学習方法。
(Appendix 21)
the first state includes a state regarding a dynamic element moving within an environment;
generating the second state by adding noise to the state of the dynamic element included in the first state;
21. The reinforcement learning method of
上記の構成によれば、動的要素についてのデータのばらつきを考慮した第1の行動価値関数を算出できる。 According to the above configuration, a first action value function can be calculated that takes into account the variability of data for dynamic elements.
(付記22)
前記第1の状態は、属性が付随する複数の要素を含み、
前記生成手段は、前記属性により前記ノイズの付加の重み付けを異ならせる、
付記1から5の何れか1つに記載の強化学習システム。
(Appendix 22)
the first state includes a plurality of elements having attributes associated therewith;
The generating means varies a weight of the noise addition depending on the attribute.
6. The reinforcement learning system of
上記の構成によれば、要素の属性に応じた重み付けでノイズを付加した第2の状態を用いることで、属性に応じたデータのばらつきを考慮した第1の行動価値関数を算出できる。 According to the above configuration, by using the second state in which noise is added with weighting according to the attributes of the element, it is possible to calculate a first action value function that takes into account the variability of the data according to the attributes.
(付記23)
前記第1の状態は、建設機械の姿勢及び位置、掘削対象である土砂の形状、並びに掘削機のバケット内の土砂量、の一部又は全部を含み、
前記行動は、前記建設機械の姿勢制御を含む、
付記1から6、及び付記19の何れか1つに記載の強化学習システム。
(Appendix 23)
The first state includes some or all of the following: the attitude and position of the construction machine, the shape of the soil to be excavated, and the amount of soil in the bucket of the excavator;
The action includes attitude control of the construction machine.
19. The reinforcement learning system of
上記の構成によれば、第1の状態にノイズを付加した第2の状態を用いて第1の行動価値関数を算出することにより、強化学習による掘削機の掘削動作の選択をより好適に行うことができる。 According to the above configuration, by calculating the first action value function using a second state in which noise is added to the first state, it is possible to more appropriately select the excavation operation of the excavator through reinforcement learning.
(付記24)
前記第1の状態は、搬送物を搬送する搬送装置の位置、移動方向、速度、及び角速度、通路の位置、並びに静的又は動的な障害物の位置及び速度、の一部又は全部を含み、
前記行動は、前記搬送装置の速度制御及び角速度制御を含む、
付記1から6、及び付記19の何れか1つに記載の強化学習システム。
(Appendix 24)
The first state includes some or all of the following: a position, a moving direction, a speed, and an angular velocity of a conveying device that conveys an object, a position of a passage, and a position and a speed of a static or dynamic obstacle;
The action includes speed control and angular velocity control of the transport device.
19. The reinforcement learning system of
上記の構成によれば、第1の状態にノイズを付加した第2の状態を用いて第1の行動価値関数を算出することにより、強化学習による搬送装置の搬送動作の選択をより好適に行うことができる。 According to the above configuration, by calculating the first action value function using a second state in which noise is added to the first state, it is possible to more appropriately select the transportation operation of the transportation device through reinforcement learning.
(付記25)
前記第1の状態は、コンピュータゲームにおいてゲームの進行に影響を与えるオブジェクトの状態を含み、
前記行動は、前記コンピュータゲームのプレイヤにより操作されるオブジェクトの動作を含む、
付記1から6、及び付記19の何れか1つに記載の強化学習システム。
(Appendix 25)
the first state includes a state of an object that affects progress of the computer game;
the action includes a movement of an object controlled by a player of the computer game;
19. The reinforcement learning system of
上記の構成によれば、第1の状態にノイズを付加した第2の状態を用いて第1の行動価値関数を算出することにより、コンピュータゲームの自律プレイにおけるオブジェクトの動作の選択をより好適に行うことができる。 According to the above configuration, by calculating the first action value function using a second state in which noise is added to the first state, it is possible to more appropriately select the action of an object in autonomous play of a computer game.
(付記26)
コンピュータを強化学習装置として機能させるプログラムであって、
前記プログラムは、前記コンピュータを、
強化学習の対象である環境における第1の状態を取得する取得手段と、
前記第1の状態にノイズを付加することによって第2の状態を生成する生成手段と、
前記第2の状態に応じて、第1の行動価値関数を算出する算出手段と、
前記第1の行動価値関数に応じて、行動を選択する選択手段と、
として機能させることを特徴とするプログラム。
(Appendix 26)
A program for causing a computer to function as a reinforcement learning device,
The program causes the computer to
An acquisition means for acquiring a first state in an environment that is a target of reinforcement learning;
generating means for generating a second state by adding noise to the first state;
A calculation means for calculating a first action value function according to the second state;
a selection means for selecting an action in accordance with the first action-value function;
A program characterized by causing the program to function as a
(付記27)
前記算出手段は、前記第1の状態と前記第2の状態とに応じて、前記第1の行動価値関数を算出する、
ことを特徴とする付記26に記載のプログラム。
(Appendix 27)
the calculation means calculates the first action value function according to the first state and the second state.
27. The program according to claim 26,
(付記28)
前記算出手段は、前記第1の状態及び前記第2の状態のそれぞれについて、前記第1の行動価値関数を算出し、
前記選択手段は、複数の前記第1の行動価値関数に基づいて算出される第2の行動価値関数に応じて、前記行動を選択する、
ことを特徴とする付記27に記載のプログラム。
(Appendix 28)
The calculation means calculates the first action-value function for each of the first state and the second state;
the selection means selects the action in accordance with a second action-value function calculated based on a plurality of the first action-value functions.
28. The program according to claim 27,
(付記29)
前記第1の状態は、搬送物を搬送する搬送装置の位置、移動方向、速度、及び角速度、通路の位置、並びに静的又は動的な障害物の位置及び速度、のうちの少なくとも何れか1つを含む、
付記26から28の何れか1つに記載のプログラム。
(Appendix 29)
The first state includes at least one of a position, a moving direction, a speed, and an angular velocity of a conveying device that conveys an object, a position of a passage, and a position and a speed of a static or dynamic obstacle;
29. The program of any one of appendices 26 to 28.
(付記30)
前記第1の状態は、建設機械の姿勢及び位置、掘削対象である土砂の形状、並びに掘削機のバケット内の土砂量、のうちの少なくとも何れか1つを含む、
付記26から28のいずれか1つに記載のプログラム。
(Appendix 30)
The first state includes at least one of the following: an attitude and a position of a construction machine, a shape of soil to be excavated, and an amount of soil in a bucket of an excavator.
29. The program of any one of appendices 26 to 28.
(付記31)
前記第1の状態は、属性が付随する複数の要素を含み、
前記生成手段は、前記属性に応じ、前記第1の状態に含まれる複数の要素に、選択的にノイズを付加することによって前記第2の状態を生成する、
ことを特徴とする付記26から30の何れか1つに記載のプログラム。
(Appendix 31)
the first state includes a plurality of elements having attributes associated therewith;
the generating means generates the second state by selectively adding noise to a plurality of elements included in the first state according to the attribute.
31. The program according to any one of appendices 26 to 30.
(付記32)
前記第1の状態は、環境内を移動する動的要素に関する状態を含み、
前記生成手段は、前記第1の状態に含まれる前記動的要素の状態にノイズを付加することによって前記第2の状態を生成する、
ことを特徴とする付記27に記載のプログラム。
(Appendix 32)
the first state includes a state regarding a dynamic element moving within an environment;
the generating means generates the second state by adding noise to a state of the dynamic element included in the first state.
28. The program according to claim 27,
〔付記事項3〕
上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。
[Additional Note 3]
A part or all of the above-described embodiments can be further expressed as follows.
少なくとも1つのプロセッサを備え、前記プロセッサは、
強化学習の対象である環境における第1の状態を取得する取得処理と、
前記第1の状態にノイズを付加することによって第2の状態を生成する生成処理と、
前記第2の状態に応じて、第1の行動価値関数を算出する算出処理と、
前記第1の行動価値関数に応じて、行動を選択する選択処理と、
を実行する強化学習装置。
At least one processor, the processor comprising:
An acquisition process for acquiring a first state in an environment that is a target of reinforcement learning;
a generation process for generating a second state by adding noise to the first state;
A calculation process of calculating a first action value function according to the second state;
a selection process for selecting an action according to the first action-value function;
A reinforcement learning device that executes.
なお、この強化学習装置は、更にメモリを備えていてもよく、このメモリには、前記取得処理と、前記生成処理と、前記算出処理と、前記選択処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。The reinforcement learning device may further include a memory, and the memory may store a program for causing the processor to execute the acquisition process, the generation process, the calculation process, and the selection process. The program may also be recorded on a computer-readable, non-transitory, tangible recording medium.
1、2、3、4、5、6、7 強化学習システム
10、50 強化学習装置
11 取得部
12 生成部
13 算出部
14、526 選択部
20、40 端末
30 サーバ
41、51 通信部
42、52 制御部
43 入力受付部
53 記憶部
421 状態提供部
422 行動実行部
423 報酬提供部
521 報酬取得部
522 状態観測部
523 状態ランダム化部
524 学習部
525 推定部
1, 2, 3, 4, 5, 6, 7
Claims (12)
前記第1の状態にノイズを付加することによって第2の状態を生成する生成手段と、
前記第2の状態に応じて、第1の行動価値関数を算出する算出手段と、
前記第1の行動価値関数に応じて、行動を選択する選択手段と、
を備え、
前記算出手段は、前記第1の状態及び前記第2の状態のそれぞれについて、前記第1の行動価値関数を算出し、
前記選択手段は、複数の前記第1の行動価値関数に基づいて算出される第2の行動価値関数に応じて、前記行動を選択する、
ことを特徴とする強化学習システム。 An acquisition means for acquiring a first state in an environment that is a target of reinforcement learning;
generating means for generating a second state by adding noise to the first state;
A calculation means for calculating a first action value function according to the second state;
a selection means for selecting an action in accordance with the first action-value function;
Equipped with
The calculation means calculates the first action-value function for each of the first state and the second state;
the selection means selects the action in accordance with a second action-value function calculated based on a plurality of the first action-value functions .
A reinforcement learning system characterized by:
請求項1に記載の強化学習システム。 The first state includes at least one of a position, a moving direction, a speed, and an angular velocity of a conveying device that conveys an object, a position of a passage, and a position and a speed of a static or dynamic obstacle;
The reinforcement learning system of claim 1 .
請求項1又は2に記載の強化学習システム。 The first state includes at least one of the following: an attitude and a position of a construction machine, a shape of soil to be excavated, and an amount of soil in a bucket of an excavator.
The reinforcement learning system according to claim 1 or 2 .
前記生成手段は、前記属性に応じ、前記第1の状態に含まれる複数の要素に、選択的にノイズを付加することによって前記第2の状態を生成する、
請求項1から3の何れか1項に記載の強化学習システム。 the first state includes a plurality of elements having attributes associated therewith;
the generating means generates the second state by selectively adding noise to a plurality of elements included in the first state according to the attribute.
The reinforcement learning system according to any one of claims 1 to 3 .
前記生成手段は、前記第1の状態に含まれる前記動的要素の状態にノイズを付加することによって前記第2の状態を生成する、
請求項4に記載の強化学習システム。 the first state includes a state regarding a dynamic element moving within an environment;
the generating means generates the second state by adding noise to a state of the dynamic element included in the first state.
The reinforcement learning system according to claim 4 .
前記第1の状態にノイズを付加することによって第2の状態を生成する生成手段と、
前記第2の状態に応じて、第1の行動価値関数を算出する算出手段と、
前記第1の行動価値関数に応じて、行動を選択する選択手段と、
を備え、
前記算出手段は、前記第1の状態及び前記第2の状態のそれぞれについて、前記第1の行動価値関数を算出し、
前記選択手段は、複数の前記第1の行動価値関数に基づいて算出される第2の行動価値関数に応じて、前記行動を選択する、
ことを特徴とする強化学習装置。 An acquisition means for acquiring a first state in an environment that is a target of reinforcement learning;
generating means for generating a second state by adding noise to the first state;
A calculation means for calculating a first action value function according to the second state;
a selection means for selecting an action in accordance with the first action-value function;
Equipped with
The calculation means calculates the first action-value function for each of the first state and the second state;
the selection means selects the action in accordance with a second action-value function calculated based on a plurality of the first action-value functions .
A reinforcement learning device characterized by:
前記第1の状態にノイズを付加することによって第2の状態を生成すること、
前記第2の状態に応じて、第1の行動価値関数を算出すること、
前記第1の行動価値関数に応じて、行動を選択すること、
を含み、
前記算出する工程において、前記第1の状態及び前記第2の状態のそれぞれについて、前記第1の行動価値関数を算出し、
前記選択する工程において、複数の前記第1の行動価値関数に基づいて算出される第2の行動価値関数に応じて、前記行動を選択する、
強化学習方法。 Obtaining a first state of an environment that is the subject of reinforcement learning;
generating a second state by adding noise to the first state;
calculating a first action-value function in response to the second state;
selecting an action in response to said first action-value function;
Including,
In the calculating step, the first action-value function is calculated for each of the first state and the second state;
In the selecting step, the action is selected according to a second action-value function calculated based on a plurality of the first action-value functions.
Reinforcement learning methods.
強化学習の対象である環境における第1の状態を取得する取得手段と、
前記第1の状態にノイズを付加することによって第2の状態を生成する生成手段と、
前記第2の状態に応じて、第1の行動価値関数を算出する算出手段と、
前記第1の行動価値関数に応じて、行動を選択する選択手段と、
として機能させ、
前記算出手段は、前記第1の状態及び前記第2の状態のそれぞれについて、前記第1の行動価値関数を算出し、
前記選択手段は、複数の前記第1の行動価値関数に基づいて算出される第2の行動価値関数に応じて、前記行動を選択する、
プログラム。 A program for causing a computer to function as a reinforcement learning device, the program comprising:
An acquisition means for acquiring a first state in an environment that is a target of reinforcement learning;
generating means for generating a second state by adding noise to the first state;
A calculation means for calculating a first action value function according to the second state;
a selection means for selecting an action in accordance with the first action-value function;
Function as a
The calculation means calculates the first action-value function for each of the first state and the second state;
the selection means selects the action in accordance with a second action-value function calculated based on a plurality of the first action-value functions .
program .
前記第1の状態にノイズを付加することによって第2の状態を生成する生成手段と、
前記第2の状態に応じて、第1の行動価値関数を算出する算出手段と、
前記第1の行動価値関数に応じて、行動を選択する選択手段と、
を備え、
前記第1の状態は、属性が付随する複数の要素を含み、
前記生成手段は、前記属性に応じ、前記第1の状態に含まれる複数の要素に、選択的にノイズを付加することによって前記第2の状態を生成する、
ことを特徴とする強化学習システム。 An acquisition means for acquiring a first state in an environment that is a target of reinforcement learning;
generating means for generating a second state by adding noise to the first state;
A calculation means for calculating a first action value function according to the second state;
a selection means for selecting an action in accordance with the first action-value function;
Equipped with
the first state includes a plurality of elements having attributes associated therewith;
the generating means generates the second state by selectively adding noise to a plurality of elements included in the first state according to the attribute .
A reinforcement learning system characterized by:
前記第1の状態にノイズを付加することによって第2の状態を生成する生成手段と、
前記第2の状態に応じて、第1の行動価値関数を算出する算出手段と、
前記第1の行動価値関数に応じて、行動を選択する選択手段と、
を備え、
前記第1の状態は、属性が付随する複数の要素を含み、
前記生成手段は、前記属性に応じ、前記第1の状態に含まれる複数の要素に、選択的にノイズを付加することによって前記第2の状態を生成する、
ることを特徴とする強化学習装置。 An acquisition means for acquiring a first state in an environment that is a target of reinforcement learning;
generating means for generating a second state by adding noise to the first state;
A calculation means for calculating a first action value function according to the second state;
a selection means for selecting an action in accordance with the first action-value function;
Equipped with
the first state includes a plurality of elements having attributes associated therewith;
the generating means generates the second state by selectively adding noise to a plurality of elements included in the first state according to the attribute.
A reinforcement learning device characterized by:
前記第1の状態にノイズを付加することによって第2の状態を生成すること、
前記第2の状態に応じて、第1の行動価値関数を算出すること、
前記第1の行動価値関数に応じて、行動を選択すること、
を含み、
前記第1の状態は、属性が付随する複数の要素を含み、
前記生成する工程において、前記属性に応じ、前記第1の状態に含まれる複数の要素に、選択的にノイズを付加することによって前記第2の状態を生成する、
強化学習方法。 Obtaining a first state of an environment that is the subject of reinforcement learning;
generating a second state by adding noise to the first state;
calculating a first action-value function in response to the second state;
selecting an action in response to said first action-value function;
Including,
the first state includes a plurality of elements having attributes associated therewith;
In the generating step, the second state is generated by selectively adding noise to a plurality of elements included in the first state according to the attribute.
Reinforcement learning methods.
強化学習の対象である環境における第1の状態を取得する取得手段と、
前記第1の状態にノイズを付加することによって第2の状態を生成する生成手段と、
前記第2の状態に応じて、第1の行動価値関数を算出する算出手段と、
前記第1の行動価値関数に応じて、行動を選択する選択手段と、
として機能させ、
前記第1の状態は、属性が付随する複数の要素を含み、
前記生成手段は、前記属性に応じ、前記第1の状態に含まれる複数の要素に、選択的にノイズを付加することによって前記第2の状態を生成する、
プログラム。 A program for causing a computer to function as a reinforcement learning device, the program comprising:
An acquisition means for acquiring a first state in an environment that is a target of reinforcement learning;
generating means for generating a second state by adding noise to the first state;
A calculation means for calculating a first action value function according to the second state;
a selection means for selecting an action in accordance with the first action-value function;
Function as a
the first state includes a plurality of elements having attributes associated therewith;
the generating means generates the second state by selectively adding noise to a plurality of elements included in the first state according to the attribute.
program.
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2021/033360 WO2023037504A1 (en) | 2021-09-10 | 2021-09-10 | Reinforced learning system, reinforced learning device, and reinforced learning method |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JPWO2023037504A1 JPWO2023037504A1 (en) | 2023-03-16 |
| JPWO2023037504A5 JPWO2023037504A5 (en) | 2024-05-10 |
| JP7635849B2 true JP7635849B2 (en) | 2025-02-26 |
Family
ID=85506183
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023546676A Active JP7635849B2 (en) | 2021-09-10 | 2021-09-10 | Reinforcement learning system, reinforcement learning device, reinforcement learning method and program |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP7635849B2 (en) |
| WO (1) | WO2023037504A1 (en) |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2026039687A (en) | 2024-08-23 | 2026-03-09 | 本田技研工業株式会社 | Information processing device, information processing method, machine learning model evaluation method, machine learning model learning method, program, and storage medium |
| JP2026039688A (en) | 2024-08-23 | 2026-03-09 | 本田技研工業株式会社 | Information processing device, information processing method, machine learning model evaluation method, program, and storage medium |
| JP2026039686A (en) | 2024-08-23 | 2026-03-09 | 本田技研工業株式会社 | Information processing device, information processing method, program, and storage medium |
| CN119270883B (en) * | 2024-12-10 | 2025-02-11 | 华侨大学 | Crawler-type vehicle self-adaptive terrain track tracking method, device, equipment and medium based on deep reinforcement learning |
Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2019143385A (en) | 2018-02-21 | 2019-08-29 | 清水建設株式会社 | Estimation device and estimation method |
| JP2020052513A (en) | 2018-09-25 | 2020-04-02 | 本田技研工業株式会社 | Model parameter learning device, control device, and model parameter learning method |
| US20200159878A1 (en) | 2018-11-16 | 2020-05-21 | Starkey Laboratories, Inc. | Ear-wearable device shell modeling |
| JP2020091611A (en) | 2018-12-04 | 2020-06-11 | 富士通株式会社 | Action determination program, action determination method, and action determination device |
| JP2020091757A (en) | 2018-12-06 | 2020-06-11 | 富士通株式会社 | Reinforcement learning program, reinforcement learning method, and reinforcement learning device |
| JP2020177416A (en) | 2019-04-17 | 2020-10-29 | 株式会社日立製作所 | Machine automatic operation control method and system |
| JP2021077326A (en) | 2019-11-07 | 2021-05-20 | ネイバー コーポレーションNAVER Corporation | Training system and method for visual navigation, and navigation robot |
-
2021
- 2021-09-10 JP JP2023546676A patent/JP7635849B2/en active Active
- 2021-09-10 WO PCT/JP2021/033360 patent/WO2023037504A1/en not_active Ceased
Patent Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2019143385A (en) | 2018-02-21 | 2019-08-29 | 清水建設株式会社 | Estimation device and estimation method |
| JP2020052513A (en) | 2018-09-25 | 2020-04-02 | 本田技研工業株式会社 | Model parameter learning device, control device, and model parameter learning method |
| US20200159878A1 (en) | 2018-11-16 | 2020-05-21 | Starkey Laboratories, Inc. | Ear-wearable device shell modeling |
| JP2020091611A (en) | 2018-12-04 | 2020-06-11 | 富士通株式会社 | Action determination program, action determination method, and action determination device |
| JP2020091757A (en) | 2018-12-06 | 2020-06-11 | 富士通株式会社 | Reinforcement learning program, reinforcement learning method, and reinforcement learning device |
| JP2020177416A (en) | 2019-04-17 | 2020-10-29 | 株式会社日立製作所 | Machine automatic operation control method and system |
| JP2021077326A (en) | 2019-11-07 | 2021-05-20 | ネイバー コーポレーションNAVER Corporation | Training system and method for visual navigation, and navigation robot |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2023037504A1 (en) | 2023-03-16 |
| JPWO2023037504A1 (en) | 2023-03-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7635849B2 (en) | Reinforcement learning system, reinforcement learning device, reinforcement learning method and program | |
| KR102857413B1 (en) | Method and system for determining action of device for given state using model trained based on risk measure parameter | |
| CN109690576B (en) | Train machine learning models on multiple machine learning tasks | |
| US8326780B2 (en) | Smoothed sarsa: reinforcement learning for robot delivery tasks | |
| US11934176B2 (en) | Device and method for controlling a robot | |
| EP4137997B1 (en) | Methods and system for goal-conditioned exploration for object goal navigation | |
| CN117093824B (en) | Space target behavior monitoring method | |
| US12311555B2 (en) | Robotic navigation and transport of objects | |
| CN116991083A (en) | A control method and system for intelligent agents | |
| US11068787B2 (en) | Training neural networks using evolution based strategies and novelty search | |
| CN118752492A (en) | Motion control method for multi-task and multi-robot based on deep reinforcement learning | |
| US12539849B2 (en) | Trajectory correction system and method therefor | |
| Wang et al. | Hierarchical reinforcement learning with uncertainty-guided diffusional subgoals | |
| KR102617418B1 (en) | Method, computer system, and computer program for reinforcement learning-based navigation adaptable to sensor configuration and robot shape | |
| Toan et al. | Environment exploration for mapless navigation based on deep reinforcement learning | |
| JP3960286B2 (en) | Adaptive controller, adaptive control method, and adaptive control program | |
| CN118567364A (en) | Mobile control method and device for inspection equipment | |
| WO2024241396A1 (en) | Machine learning device, prediction control device, machine learning method, prediction control method, and computer-readable recording medium | |
| KR20230079804A (en) | Device based on reinforcement learning to linearize state transition and method thereof | |
| CN121424414B (en) | In-situ action control strategy network training method, device, equipment, robot and medium for humanoid robot based on deep reinforcement learning | |
| KR102884693B1 (en) | SLAM implementation device and SLAM implementation method that determines and learns rewards based on map completeness | |
| Yang et al. | Effects of Reward Terms in Agent-Based Box-Manipulation Animation Using Deep Reinforcement Learning | |
| CN118689206B (en) | A method and apparatus for training and exploring a navigation strategy model | |
| Roghair et al. | Learning Algorithm for UAV | |
| WO2026063330A1 (en) | Reinforcement learning device, reinforcement learning method, and program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240214 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240214 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20241022 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20241218 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250114 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250127 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7635849 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D04 |