JP7650720B2

JP7650720B2 - 学習装置、学習方法及び学習プログラム

Info

Publication number: JP7650720B2
Application number: JP2021083430A
Authority: JP
Inventors: 聡太郎唐鎌; 夏樹松波
Original assignee: Mitsubishi Heavy Industries Ltd
Current assignee: Mitsubishi Heavy Industries Ltd
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2025-03-25
Anticipated expiration: 2041-05-17
Also published as: EP4102406A1; JP2022176808A; US20220269995A1

Description

本開示は、マルチエージェントの学習装置、学習方法及び学習プログラムに関するものである。

従来、複数のエージェント間における強化学習として、ディープラーニングによって学習した囲碁ゲームサービスを提供するシステムが知られている。このシステムでは、形勢判断モデルを用いたセルフプレイによる学習を実行している。

特開２０２１－０１３７５０号公報

特許文献１の強化学習では、囲碁ゲームサービスであることから、複数のエージェント間における学習の条件は同じものとなっている。一方で、複数のエージェント間における強化学習では、複数のエージェント間における報酬等の学習の条件が異なる場合がある。この場合、学習の条件が異なることにより、所定のエージェントの学習の進捗具合と他のエージェントの学習の進捗具合とがかい離することで、学習の進捗具合が遅くなってしまうことがある。また、学習の条件が異なることにより、所定のエージェントの学習時において、他のエージェントの行動が所定のエージェントの学習に寄与せず、所定のエージェントの学習が進まないことがある。このように、複数のエージェント間における学習の条件が異なる場合、強化学習の学習効率が低下してしまう可能性があった。

そこで、本開示は、非対称環境下における複数のエージェントの強化学習を効率よく実行することができる学習装置、学習方法及び学習プログラムを提供することを課題とする。

本開示の学習装置は、複数のエージェントが存在するマルチエージェント環境下において、セルフプレイにより前記エージェントの動作を強化学習させるための処理部を備える学習装置であって、前記マルチエージェント環境は、前記エージェント間において、前記エージェントが実行する行動の種類、前記エージェントが取得する状態の種類、前記エージェントに付与される報酬の定義のうち、少なくとも一つが異なる環境である非対称性環境となっており、前記エージェントのそれぞれには、学習の評価指標が付与されており、前記処理部は、複数の前記エージェントのうち、所定の前記エージェントの学習を学習モデルを用いて実行するステップと、学習後の所定の前記エージェントの前記学習モデルにおける前記評価指標を取得するステップと、所定の前記エージェントにおける前記評価指標と、他の前記エージェントにおける前記評価指標と、を比較するステップと、低い前記評価指標となる前記エージェントを、学習対象として設定するステップと、を実行する。

本開示の学習方法は、複数のエージェントが存在するマルチエージェント環境下において、セルフプレイにより前記エージェントの動作を強化学習させるための学習方法であって、前記マルチエージェント環境は、前記エージェント間において、前記エージェントが実行する行動の種類、前記エージェントが取得する状態の種類、前記エージェントに付与される報酬の定義のうち、少なくとも一つが異なる環境である非対称性環境となっており、前記エージェントのそれぞれには、学習の評価指標が付与されており、複数の前記エージェントのうち、所定の前記エージェントの学習を学習モデルを用いて実行するステップと、学習後の所定の前記エージェントの前記学習モデルにおける前記評価指標を取得するステップと、所定の前記エージェントにおける前記評価指標と、他の前記エージェントにおける前記評価指標と、を比較するステップと、低い前記評価指標となる前記エージェントを、学習対象として設定するステップと、を実行する。

本開示の学習プログラムは、複数のエージェントが存在するマルチエージェント環境下において、セルフプレイにより前記エージェントの動作を強化学習させるための学習装置に実行させる学習プログラムであって、前記マルチエージェント環境は、前記エージェント間において、前記エージェントが実行する行動の種類、前記エージェントが取得する状態の種類、前記エージェントに付与される報酬の定義のうち、少なくとも一つが異なる環境である非対称性環境となっており、前記エージェントのそれぞれには、学習の評価指標が付与されており、前記学習装置に、複数の前記エージェントのうち、所定の前記エージェントの学習を学習モデルを用いて実行するステップと、学習後の所定の前記エージェントの前記学習モデルにおける前記評価指標を取得するステップと、所定の前記エージェントにおける前記評価指標と、他の前記エージェントにおける前記評価指標と、を比較するステップと、低い前記評価指標となる前記エージェントを、学習対象として設定するステップと、を実行させる。

本開示によれば、非対称環境下における複数のエージェントの強化学習を効率よく実行することができる。

図１は、本実施形態に係る学習装置を含む学習システムを模式的に表した図である。図２は、本実施形態に係る学習方法に関する説明図である。図３は、本実施形態に係る学習方法に関するフローを示す図である。図４は、マルチエージェント環境の一例を示す図である。図５は、マルチエージェント環境の一例を示す図である。

以下に、本発明に係る実施形態を図面に基づいて詳細に説明する。なお、この実施形態によりこの発明が限定されるものではない。また、下記実施形態における構成要素には、当業者が置換可能かつ容易なもの、あるいは実質的に同一のものが含まれる。さらに、以下に記載した構成要素は適宜組み合わせることが可能であり、また、実施形態が複数ある場合には、各実施形態を組み合わせることも可能である。

［実施形態］
本実施形態に係る学習装置１０及び学習方法は、動作を行う複数のエージェント５が存在する環境下、すなわち、マルチエージェント環境下において各エージェント５を強化学習する装置及び方法となっている。エージェント５となる対象としては、例えば、ロボット、車両、船舶または航空機等の動作を実行可能な機械が適用される。

なお、本実施形態では、マルチエージェント環境として、エージェント５間において、エージェント５が実行する行動の種類、エージェント５が取得する状態の種類、エージェント５に付与される報酬の定義のうち、少なくとも一つが異なる環境である非対称性環境となっている。

また、本実施形態では、マルチエージェント環境として、例えば、キッカーのエージェント５とキーパーのエージェント５とがＦＫ（Free Kick）対戦を行う対戦環境となっている。以下の説明では、マルチエージェント環境として、ＦＫ対戦環境に適用して、すなわち、非対称性対戦環境に適用して説明するが、非対称性環境であれば、特に限定されない。つまり、非対称性環境であれば、複数のエージェント５間で協調動作を行う協調環境であってもよい。

図１は、本実施形態に係る学習装置を含むシステムを模式的に表した図である。図２は、本実施形態に係る学習方法に関する説明図である。図３は、本実施形態に係る学習方法に関するフローを示す図である。図４は、マルチエージェント環境の一例を示す図である。図５は、マルチエージェント環境の一例を示す図である。

（システム）
図１に示すように、学習装置１０は、システム１に設けられる複数のロボット７に搭載された学習モデルを学習するための装置となっている。システム１は、非対称性環境下となっており、複数のエージェント５の対象となる複数のロボット７と、複数のロボット７の動作を学習するための学習装置１０と、を備えている。

複数のロボット７は、キッカー用のキッカーロボット７ａと、キーパー用のキーパーロボット７ｂとを含んでいる。なお、本実施形態では、ＦＫ対戦環境であることから、相対する２つのロボットを用いた構成となっているが、環境によっては、３以上のエージェント５を含む構成であってもよい。

各ロボット７は、処理部１１と、記憶部１２と、センサ１３と、アクチュエータ１４と、を有している。処理部１１は、例えば、ＣＰＵ（Central Processing Unit）等の集積回路を含んでいる。処理部１１は、学習モデルに基づく動作制御を実行する。記憶部１２は、半導体記憶デバイス及び磁気記憶デバイス等の任意の記憶デバイスである。記憶部１２は、学習モデルを記憶している。具体的に、キッカーロボット７ａの記憶部１２には、キッカー用の学習モデルであるキッカーモデル（キッカーモデルＮ）が記憶されている。また、キーパーロボット７ｂの記憶部１２には、キーパー用の学習モデルであるキーパーモデル（キーパーモデルＭ）が記憶されている。センサ１３は、ロボット７の状態（Ｓｔ：ステート）を取得する。センサ１３は、処理部１１に接続されており、取得したステートＳｔを処理部１１へ向けて出力する。センサ１３は、例えば、速度センサ、加速度センサ等である。アクチュエータ１４は、ロボット７に所定の動作を実行させる動作部となっている。アクチュエータ１４は、処理部１１に接続されており、処理部１１によって動作制御されることで、行動（Ａｔ：アクション）を実行する。

各ロボット７の処理部１１は、センサ１３からステートＳｔが入力されると、ステートＳｔに基づいて、学習モデルを用いて所定の動作（Ａｔ：アクション）を選択し、アクチュエータ１４の動作制御を実行する。

また、各ロボット７の記憶部１２に記憶される学習モデルは、後述する学習装置１０によって学習されたモデルが記憶される。

（学習装置）
学習装置１０は、仮想空間となるマルチエージェント環境下において、複数のエージェント５の強化学習を実行する。学習装置１０では、セルフプレイによりエージェント５の動作を強化学習させている。学習装置１０は、複数のエージェント５と、環境部２５と、記憶部２３と、を備えている。

複数のエージェント５は、キッカー用のキッカーエージェント５ａと、キーパー用のキーパーエージェント５ｂとを含んでいる。各エージェント５は、学習部３１と、データベース３２と、処理部３３と、を有している。なお、キッカーエージェント５ａの学習部３１、データベース３２及び処理部３３は、キーパーエージェント５ｂの学習部３１、データベース３２及び処理部３３と一体であってもよく、ハードウェア構成については、特に限定されない。

学習部３１は、学習モデルの学習を実行している。学習部３１は、環境部２５から付与される報酬（Ｒｔ：リワード）に基づく学習を実行する。具体的に、学習部３１は、各エージェント５に付与される報酬が最大化するように学習を実行する。

データベース３２は、学習後の学習モデルを保存する記憶装置である。データベース３２は、学習を行うごとに学習モデルを保存することで、学習モデルを蓄積していく。キッカー用のデータベース３２では、初期のキッカーモデル０から、所定のキッカーモデルＮまでのキッカーモデルが蓄積される。キーパー用のデータベース３２では、初期のキーパーモデル０から、所定のキーパーモデルＭまでのキッカーモデルが蓄積される。

処理部３３は、処理部１１と同様に、学習モデルに基づく動作制御を実行する。処理部１１は、後述する環境部２５からステートＳｔが入力されると、ステートＳｔに基づいて、学習モデルを用いて所定の行動（Ａｔ：アクション）を選択して実行する。

環境部２０は、複数のエージェント５に対してマルチエージェント環境を提供する。具体的に、環境部２０は、複数のエージェント５に対してリワードＲｔを付与したり、アクションＡｔによって遷移する各エージェント５のステートＳｔを導出したりする。また、環境部２０は、学習の評価指標を算出したり、評価指標に基づく学習対象の選定を行ったりする。

環境部２０は、状態遷移処理部４１と、キッカー用の報酬付与部４２と、キーパー用の報酬付与部４３と、学習エージェント判定部４４とを有している。

状態遷移処理部４１は、複数のエージェント５が行ったアクションＡｔを入力として、状態遷移を算出するための状態遷移関数を用いて、出力となる各エージェント５のステートＳｔを算出する。状態遷移処理部４１は、算出したステートＳｔを、各エージェント５の学習部３１へ向けて出力する。また、状態遷移処理部４１は、算出したステートＳｔを、報酬付与部４２，４３へ向けて出力する。

報酬付与部４２，４３は、各エージェント５が行ったアクションＡｔ、ステートＳｔ及び遷移先のステートＳｔ＋１を入力として、報酬を算出するための報酬関数を用いて、出力となる各エージェント５に付与するリワードＲｔを算出する。報酬付与部４２，４３は、算出したリワードＲｔを各エージェント５の学習部３１へ向けてそれぞれ出力する。キッカーエージェント５ａの報酬関数としては、例えば、ゴールしたら報酬「＋１」、ゴールを外したら報酬「－１」である。キーパーエージェント５ｂの報酬関数としては、例えば、ゴールされたら報酬「－１」、ゴールされなかったら報酬「＋１」である。

学習エージェント判定部４４は、上記のように、学習の評価指標を算出したり、評価指標に基づく学習対象の選定を行ったりする。学習の評価指標としては、ＥＬＯレーティングであり、本実施形態においては、キッカーエージェント５ａ及びキーパーエージェント５ｂの強さを示すレーティングを用いている。なお、学習の評価指標としては、ＥＬＯレーティングに、特に限定されず、グリコレーティングであってもよい。また、学習エージェント判定部４４は、学習ごとに各エージェント５のレーティングを算出しており、エージェント５の学習モデルに対応付けて、レーティングを取得している。つまり、データベース３２には、各学習モデルに対応付けたレーティングが記憶されている。

また、学習の評価指標は、非対称性環境下であることから、エージェント５ごとに異なっている。例えば、キッカーエージェント５ａであればキッカー用の評価指標となっており、キーパーエージェント５ｂであればキーパー用の評価指標となっている。なお、評価指標を求めるための算出モデルは同一であってもよいが、算出モデルに入力される入力値が、キッカーエージェント５ａであればキッカー用の入力値となっており、キーパーエージェント５ｂであればキーパー用の入力値となっている。

また、学習エージェント判定部４４は、複数のエージェント５のうち、学習対象となるエージェントを選定するために、取得したレーティングを用いている。具体的に、学習エージェント判定部４４は、キッカーエージェント５ａのレーティングと、キーパーエージェント５ｂのレーティングとを比較し、レーティングの低いほうを、学習対象のエージェント５として選定している。

記憶部２３は、記憶部１２と同様に、半導体記憶デバイス及び磁気記憶デバイス等の任意の記憶デバイスである。記憶部２３は、上記の学習を行ったり、後述する学習方法を実行したりするための学習プログラムＰを記憶している。

このような学習装置１０において、各エージェント５は、強化学習時において、環境部２５の状態遷移処理部４１からステートＳｔを取得し、また、環境部２５の報酬付与部４２，４３からリワードＲｔを取得する。すると、各エージェント５は、学習部３１において、取得したステートＳｔ及びリワードＲｔに基づいて、学習モデルからアクションＡｔを選択する。学習部３１は、選択したアクションＡｔを、環境部２５の状態遷移処理部４１及び報酬付与部４２，４３にそれぞれ入力する。報酬付与部４２，４３は、選択したアクションＡｔ、ステートＳｔ及び遷移先のステートＳｔ＋１に基づくリワードＲｔを算出する。また、状態遷移処理部４１は、選択したアクションＡｔに基づく遷移後のステートＳｔ＋１を算出する。そして、各エージェント５の学習部３１は、各エージェント５に付与されるリワードＲｔが最大となるように、上記の学習を評価可能な所定のステップ数（評価ステップ数）分だけ繰り返して、学習モデルの学習を実行する。

（学習方法）
次に、図２及び図３を参照して、学習装置１０により実行される学習方法について説明する。学習方法では、先ず、複数のエージェント５のうち、所定のエージェント５ａの学習を学習モデルを用いて実行する（ステップＳ１）。具体的に、ステップＳ１では、キッカーエージェント５ａの学習を実行している。このとき、キッカーエージェント５ａのレーティングと、キーパーエージェント５ｂのレーティングとは、同じ値（例えば、１５００）となっている。同じレーティングである場合、選定されるエージェント５は、何れであってもよい。なお、選定されなかったエージェント５は、学習対象外のエージェント５となり、マルチエージェント環境下における環境の一要素として、つまり、固定された学習モデルに基づくアクションを実行するエージェント５として、取り扱われる。

ステップＳ１の実行後、学習装置１０は、キッカーエージェント５ａ及び環境部２５によりキッカーモデルの学習を実行し、キッカーモデルの学習ステップが評価ステップとなるか否かを判定する（ステップＳ２）。学習装置１０は、学習ステップが評価ステップまで進んでいないと判定した場合（ステップＳ２：Ｎｏ）、学習ステップが評価ステップとなるまで、繰り返し実行する。ステップＳ２において、学習装置１０は、学習ステップが評価ステップまで進んでいると判定した場合（ステップＳ２：Ｙｅｓ）、学習装置１０は、学習後の最新となるキッカーモデルについて、学習エージェント判定部４４によりレーティングを算出する（ステップＳ３）。ステップＳ３では、学習後のキッカーモデルのレーティングが、例えば、１４５０となる。ステップＳ３の実行後、学習装置１０は、最新となるキッカーモデルとレーティングとを対応付けてデータベース３２へ保存する（ステップＳ４）。学習装置１０は、ステップＳ４の実行後、エージェント５を学習するために実行された学習ステップが、終了となる学習ステップである学習終了ステップよりも大きくなったか否かを判定する（ステップＳ５）。

学習装置１０は、ステップＳ５において、学習ステップが学習終了ステップよりも大きいと判定した場合（ステップＳ５：Ｙｅｓ）、学習方法に関する一連の処理を終了する。一方で、学習装置１０は、ステップＳ５において、学習ステップが学習終了ステップ以下であると判定した場合（ステップＳ５：Ｎｏ）、ステップＳ６に進む。

学習装置１０は、ステップＳ６において、学習エージェント判定部４４によりキッカーエージェント５ａの最新となるキッカーモデルのレーティングが、キーパーエージェント５ｂの最新となるキーパーモデルのレーティングよりも高いか否かを判定する。学習装置１０は、図２の中央の図に示すように、キッカーモデルのレーティング（１４５０）が、キーパーモデルのレーティング（１５００）以下である場合、再びステップＳ１に進み、キッカーモデルの学習を実行する。一方で、学習装置１０は、図２の下側の図に示すように、再学習を行う等によって、キッカーモデルのレーティング（１５１０）が、キーパーモデルのレーティング（１５００）よりも大きくなる場合、キーパーモデルの学習を実行する（ステップＳ７）。

ステップＳ７では、キーパーエージェント５ｂの学習を実行している。ステップＳ７の実行後、学習装置１０は、キーパーエージェント５ｂ及び環境部２５によりキーパーモデルの学習を実行し、キーパーモデルの学習ステップが評価ステップとなるか否かを判定する（ステップＳ８）。学習装置１０は、学習ステップが評価ステップまで進んでいないと判定した場合（ステップＳ８：Ｎｏ）、学習ステップが評価ステップとなるまで、繰り返し実行する。ステップＳ８において、学習装置１０は、学習ステップが評価ステップまで進んでいると判定した場合（ステップＳ８：Ｙｅｓ）、学習装置１０は、学習後の最新となるキーパーモデルについて、学習エージェント判定部４４によりレーティングを算出する（ステップＳ９）。ステップＳ９の実行後、学習装置１０は、最新となるキーパーモデルとレーティングとを対応付けてデータベース３２へ保存する（ステップＳ１０）。学習装置１０は、ステップＳ１０の実行後、ステップＳ５に進み、学習ステップが学習終了ステップよりも大きくなるまで、ステップＳ１からステップＳ１０を繰り返し実行する。

このように、上記のステップＳ１からステップＳ１０を実行する、複数のエージェント５及び環境部２５が、セルフプレイによりエージェント５の動作を強化学習させるための処理部として機能している。

（マルチエージェント環境）
次に、図４及び図５を参照して、マルチエージェント環境について説明する。マルチエージェント環境は、上記のようなＦＫ対戦環境に限定されない。例えば、図４の上側の図に示すように、侵攻側の無人航空機となる複数のエージェント５１ａと、防衛側の無人航空機となる複数のエージェント５１ｂとが対戦する環境Ｅ１であってもよい。環境Ｅ１において、侵攻側の無人航空機及び防衛側の無人航空機が行うアクションＡｔとしては、機体性能に応じたアクションがある。また、侵攻側の無人航空機及び防衛側の無人航空機が取得するステートＳｔとしては、レーダの計測結果がある。さらに、無人航空機のリワードＲｔとしては、侵攻側と防衛側とで異なるものとなっている。この場合、評価指標は、侵攻側の無人航空機と、防衛側の無人航空機との勝敗に基づくレーティングとなっている。マルチエージェント環境Ｅ１において防衛側の無人航空機が学習した学習モデルは、実機の無人航空機に搭載されることで、無人航空機は、学習済みの学習モデルに基づく防衛を実行することができる。

また、図４の中央の図に示すように、複数の防衛側の無人機となる複数のエージェント５２ａ，５２ｂと、侵攻側の無人機となるエージェント５２ｃとが対戦する環境Ｅ２であってもよい。エージェント５２ａは無人水上艦であり、エージェント５２ｂは無人航空機であり、エージェント５２ｃは無人潜水艦である。環境Ｅ２において、侵攻側の無人潜水艦、防衛側の無人水上艦及び防衛側の無人航空機が行うアクションＡｔとしては、機体の種類応じた異なるアクションがある。侵攻側の無人潜水艦、防衛側の無人水上艦及び防衛側の無人航空機が取得するステートＳｔとしては、ソナーの探知結果がある。さらに、無人潜水艦、無人水上艦及び無人航空機のリワードＲｔとしては、侵攻側と防衛側とで異なるものとなっている。この場合、評価指標は、侵攻側の無人潜水艦と、防衛側の無人水上艦及び無人航空機との勝敗に基づくレーティングとなっている。マルチエージェント環境Ｅ２において防衛側の無人水上艦及び無人航空機が学習した学習モデルは、実機の無人水上艦及び無人航空機に搭載されることで、無人水上艦及び無人航空機は、学習済みの学習モデルに基づく防衛を実行することができる。

また、図４の下側の図に示すように、警備ロボットとなるエージェント５３ａと、侵入者となるエージェント５３ｂとが存在する環境Ｅ３であってもよい。環境Ｅ３において、警備ロボットが行うアクションＡｔとしては、移動と充電位置での待機であり、侵入者が行うアクションＡｔとしては、移動である。警備ロボットが取得するステートＳｔとしては、カメラ画像、自己位置、他の警備ロボットの位置がある。侵入者が取得するステートＳｔとしては、自己位置である。警備ロボットのリワードＲｔとしては、侵入者の発見「＋１」と、侵入者の所定エリアへの侵入「－１」であり、侵入者のリワードＲｔとしては、警備ロボットに被発見「－１」と、侵入者の所定エリアへの侵入「＋１」である。この場合、評価指標は、警備ロボットと、侵入者との勝敗に基づくレーティングとなっている。マルチエージェント環境Ｅ３において警備ロボットが学習した学習モデルは、実機の警備ロボットに搭載されることで、警備ロボットは、学習済みの学習モデルに基づく警備を実行することができる。

また、図５の上側の図に示すように、所定のゲームキャラクターとなるエージェント５４ａと、他のゲームキャラクターとなるエージェント５４ｂとが対戦する環境Ｅ４であってもよい。各ゲームキャラクターが行うアクションＡｔとしては、移動や攻撃であり、ゲームキャラクターによって異なるアクションとなっている。各ゲームキャラクターが取得するステートＳｔとしては、ゲーム画面、敵キャラクターの位置等がある。各ゲームキャラクターのリワードＲｔとしては、敵を倒したら「＋１」であり、敵に倒されたら「－１」である。この場合、評価指標は、各ゲームキャラクターの勝敗に基づくレーティングとなっている。マルチエージェント環境Ｅ４において各ゲームキャラクターが学習した学習モデルは、対戦ゲーム上において実行されることで、各ゲームキャラクターは、学習済みの学習モデルに基づくアクションを実行することができる。

また、図５の下側の図に示すように、ショベルカーとなるエージェント５５ａと、ダンプカーとなるエージェント５５ｂとが協調作業する環境Ｅ５であってもよい。ショベルカーが行うアクションＡｔとしては、移動やショベル操作であり、ダンプカーが行うアクションＡｔとしては、移動や土砂の荷卸し操作である。ショベルカー及びダンプカーが取得するステートＳｔとしては、ショベルカーの位置及びダンプカーの位置である。ショベルカーのリワードＲｔとしては、土砂をダンプカーに積んだら土砂量に応じて「０～＋１」であり、ダンプカーに衝突したら「－１」である。ダンプカーのリワードＲｔとしては、土砂の運搬量及び運搬距離に応じて「０～＋１」であり、ダンプカー及びショベルカーに衝突したら「－１」である。この場合、評価指標は、ショベルカーであれば、ダンプカーに積載完了した土砂の量に基づくレーティングであり、ダンプカーであれば、運搬した土砂及び運搬距離に基づくレーティングとなっている。マルチエージェント環境Ｅ５においてダンプカー及びショベルカーが学習した学習モデルは、実機のダンプカー及びショベルカーに搭載されることで、ダンプカー及びショベルカーは、学習済みの学習モデルに基づく土砂運搬の協調作業を実行することができる。

なお、本実施形態では、ステップＳ７において、レーティングを比較するステップを実行したが、複数のエージェント５間におけるレーティングの差分を算出してもよい。学習装置１０は、ステップＳ７において算出した差分が、繰り返し学習ステップを実行しても縮まらない場合、学習の進捗が進んでいないと判定し、エージェント５の学習モデルを、異なるレーティングに対応付けられた学習モデルに変更してもよい。具体的に、学習装置１０は、算出した差分に基づいて、学習の進捗が進んでいないと判定したら、例えば、一番高いレーティングとなる学習モデルに変更してもよい。

以上のように、本実施形態に記載の学習装置１０、学習方法及び学習プログラムＰは、例えば、以下のように把握される。

第１の態様に係る学習装置１０は、複数のエージェント５が存在するマルチエージェント環境下において、セルフプレイにより前記エージェント５の動作を強化学習させるための処理部（エージェント５及び環境部２５）を備える学習装置１０であって、前記マルチエージェント環境は、前記エージェント５間において、前記エージェント５が実行する行動Ａｔの種類、前記エージェント５が取得する状態Ｓｔの種類、前記エージェント５に付与される報酬Ｒｔの定義のうち、少なくとも一つが異なる環境である非対称性環境となっており、前記エージェント５のそれぞれには、学習の評価指標が付与されており、前記処理部は、複数の前記エージェント５のうち、所定の前記エージェント５の学習を学習モデルを用いて実行するステップＳ１，Ｓ７と、学習後の所定の前記エージェント５の前記学習モデルにおける前記評価指標を取得するステップＳ３，Ｓ９と、所定の前記エージェント５における前記評価指標と、他の前記エージェント５における前記評価指標と、を比較するステップＳ６と、低い前記評価指標となる前記エージェント５を、学習対象として設定するステップＳ１，Ｓ７と、を実行する。

第４の態様に係る学習方法は、複数のエージェント５が存在するマルチエージェント環境下において、セルフプレイにより前記エージェント５の動作を強化学習させるための学習方法であって、前記マルチエージェント環境は、前記エージェント５間において、前記エージェント５が実行する行動Ａｔの種類、前記エージェント５が取得する状態Ｓｔの種類、前記エージェント５に付与される報酬Ｒｔの定義のうち、少なくとも一つが異なる環境である非対称性環境となっており、前記エージェント５のそれぞれには、学習の評価指標が付与されており、複数の前記エージェント５のうち、所定の前記エージェント５の学習を学習モデルを用いて実行するステップＳ１，Ｓ７と、学習後の所定の前記エージェント５の前記学習モデルにおける前記評価指標を取得するステップＳ３，Ｓ９と、所定の前記エージェント５における前記評価指標と、他の前記エージェント５における前記評価指標と、を比較するステップＳ６と、低い前記評価指標となる前記エージェント５を、学習対象として設定するステップＳ１，Ｓ７と、を実行する。

第５の態様に係る学習プログラムＰは、複数のエージェント５が存在するマルチエージェント環境下において、セルフプレイにより前記エージェント５の動作を強化学習させるための学習装置１０に実行させる学習プログラムＰであって、前記マルチエージェント環境は、前記エージェント５間において、前記エージェント５が実行する行動Ａｔの種類、前記エージェント５が取得する状態Ｓｔの種類、前記エージェント５に付与される報酬Ｒｔの定義のうち、少なくとも一つが異なる環境である非対称性環境となっており、前記エージェント５のそれぞれには、学習の評価指標が付与されており、前記学習装置１０に、複数の前記エージェント５のうち、所定の前記エージェント５の学習を学習モデルを用いて実行するステップＳ１，Ｓ７と、学習後の所定の前記エージェントの前記学習モデルにおける前記評価指標を取得するステップＳ３，Ｓ９と、所定の前記エージェントにおける前記評価指標と、他の前記エージェントにおける前記評価指標と、を比較するステップＳ６と、低い前記評価指標となる前記エージェントを、学習対象として設定するステップＳ１，Ｓ７と、を実行させる。

これらの構成によれば、評価指標の低いエージェント５を、他のエージェント５に優先して学習することができる。このため、複数のエージェント５間における学習の進捗具合がかい離することを抑制することができる。また、評価指標の低い所定のエージェント５を優先して学習することで、他のエージェントの学習時において、他のエージェントは、学習が進んだ所定のエージェント５に基づく学習を行うことができる。このため、他のエージェントは、学習の進んでいない（評価指標の低い）エージェント５に基づく学習を回避することができ、学習が進んでいない状態での学習を減らすことができる。これにより、非対称環境下における複数のエージェント５の強化学習を効率よく実行することができる。

第２の態様として、学習の前記評価指標は、レーティングである。

この構成によれば、学習の評価指標として、適切な指標となるレーティングを用いることができるため、複数のエージェント５の強化学習を適切に進めることができる。

第３の態様として、前記評価指標を比較するステップＳ６では、所定の前記エージェント５における前記評価指標と、他の前記エージェント５における前記評価指標との差分を算出しており、算出した差分に基づいて、学習の進捗が進んでいないと判定した場合、学習の進捗が進んでいないと判定された前記エージェント５の前記学習モデルを、異なる前記評価指標となる前記学習モデルに変更する。

この構成によれば、複数のエージェント５間におけるレーティングの差分が縮まらない等の学習が進まない状態になった場合であっても、変更前の評価指標と異なる学習モデルを用いることで、学習を進めることが可能となる。

１システム
５エージェント
１０学習装置
１１処理部
１２記憶部
１３センサ
１４アクチュエータ
２３記憶部
２５環境部
３１学習部
３２データベース
３３処理部
４１状態遷移処理部
４２キッカー用の報酬付与部
４３キーパー用の報酬付与部
４４学習エージェント判定部
Ｐ学習プログラム

Claims

複数のエージェントが存在するマルチエージェント環境下において、セルフプレイにより前記エージェントの動作を強化学習させるための処理部を備える学習装置であって、
前記マルチエージェント環境は、前記エージェント間において、前記エージェントが実行する行動の種類、前記エージェントが取得する状態の種類、前記エージェントに付与される報酬の定義のうち、少なくとも一つが異なる環境である非対称性環境となっており、
前記エージェントのそれぞれには、学習の評価指標が付与されており、
前記処理部は、
複数の前記エージェントのうち、所定の前記エージェントの学習を学習モデルを用いて実行する第１のステップと、
学習後の所定の前記エージェントの前記学習モデルにおける前記評価指標を取得する第２のステップと、
所定の前記エージェントにおける前記評価指標と、他の前記エージェントにおける前記評価指標と、を比較する第３のステップと、
複数の前記エージェントのうち、低い前記評価指標となる前記エージェントを、学習対象として選定し、選定されなかった前記エージェントを学習対象外とする第４のステップと、を実行し、
前記エージェントを学習するために実行された学習ステップが、終了となる学習ステップである学習終了ステップよりも大きくなるまで、前記第１のステップから前記第４のステップを繰り返し実行する学習装置。
学習の前記評価指標は、レーティングである請求項１に記載の学習装置。
前記第３のステップでは、所定の前記エージェントにおける前記評価指標と、他の前記エージェントにおける前記評価指標との差分を算出しており、
算出した差分に基づいて、学習の進捗が進んでいないと判定した場合、学習の進捗が進んでいないと判定された前記エージェントの前記学習モデルを、異なる前記評価指標となる前記学習モデルに変更する請求項１または２に記載の学習装置。
複数のエージェントが存在するマルチエージェント環境下において、セルフプレイにより前記エージェントの動作を強化学習させるための処理部を備える学習装置であって、
前記マルチエージェント環境は、前記エージェント間において、前記エージェントが実行する行動の種類、前記エージェントが取得する状態の種類、前記エージェントに付与される報酬の定義のうち、少なくとも一つが異なる環境である非対称性環境となっており、
前記エージェントのそれぞれには、学習の評価指標が付与されており、
前記処理部は、
複数の前記エージェントのうち、所定の前記エージェントの学習を学習モデルを用いて実行するステップと、
学習後の所定の前記エージェントの前記学習モデルにおける前記評価指標を取得するステップと、
所定の前記エージェントにおける前記評価指標と、他の前記エージェントにおける前記評価指標と、を比較するステップと、
低い前記評価指標となる前記エージェントを、学習対象として設定するステップと、を実行し、
前記評価指標を比較するステップでは、所定の前記エージェントにおける前記評価指標と、他の前記エージェントにおける前記評価指標との差分を算出しており、
算出した差分に基づいて、学習の進捗が進んでいないと判定した場合、学習の進捗が進んでいないと判定された前記エージェントの前記学習モデルを、異なる前記評価指標となる前記学習モデルに変更する学習装置。
複数のエージェントが存在するマルチエージェント環境下において、セルフプレイにより前記エージェントの動作を強化学習させるための学習方法であって、
前記マルチエージェント環境は、前記エージェント間において、前記エージェントが実行する行動の種類、前記エージェントが取得する状態の種類、前記エージェントに付与される報酬の定義のうち、少なくとも一つが異なる環境である非対称性環境となっており、
前記エージェントのそれぞれには、学習の評価指標が付与されており、
複数の前記エージェントのうち、所定の前記エージェントの学習を学習モデルを用いて実行する第１のステップと、
学習後の所定の前記エージェントの前記学習モデルにおける前記評価指標を取得する第２のステップと、
所定の前記エージェントにおける前記評価指標と、他の前記エージェントにおける前記評価指標と、を比較する第３のステップと、
複数の前記エージェントのうち、低い前記評価指標となる前記エージェントを、学習対象として選定し、選定されなかった前記エージェントを学習対象外とする第４のステップと、を実行し、
前記エージェントを学習するために実行された学習ステップが、終了となる学習ステップである学習終了ステップよりも大きくなるまで、前記第１のステップから前記第４のステップを繰り返し実行する学習方法。
複数のエージェントが存在するマルチエージェント環境下において、セルフプレイにより前記エージェントの動作を強化学習させるための学習方法であって、
前記マルチエージェント環境は、前記エージェント間において、前記エージェントが実行する行動の種類、前記エージェントが取得する状態の種類、前記エージェントに付与される報酬の定義のうち、少なくとも一つが異なる環境である非対称性環境となっており、
前記エージェントのそれぞれには、学習の評価指標が付与されており、
複数の前記エージェントのうち、所定の前記エージェントの学習を学習モデルを用いて実行するステップと、
学習後の所定の前記エージェントの前記学習モデルにおける前記評価指標を取得するステップと、
所定の前記エージェントにおける前記評価指標と、他の前記エージェントにおける前記評価指標と、を比較するステップと、
低い前記評価指標となる前記エージェントを、学習対象として設定するステップと、を実行し、
前記評価指標を比較するステップでは、所定の前記エージェントにおける前記評価指標と、他の前記エージェントにおける前記評価指標との差分を算出しており、
算出した差分に基づいて、学習の進捗が進んでいないと判定した場合、学習の進捗が進んでいないと判定された前記エージェントの前記学習モデルを、異なる前記評価指標となる前記学習モデルに変更する学習方法。
複数のエージェントが存在するマルチエージェント環境下において、セルフプレイにより前記エージェントの動作を強化学習させるための学習装置に実行させる学習プログラムであって、
前記マルチエージェント環境は、前記エージェント間において、前記エージェントが実行する行動の種類、前記エージェントが取得する状態の種類、前記エージェントに付与される報酬の定義のうち、少なくとも一つが異なる環境である非対称性環境となっており、
前記エージェントのそれぞれには、学習の評価指標が付与されており、
前記学習装置に、
複数の前記エージェントのうち、所定の前記エージェントの学習を学習モデルを用いて実行する第１のステップと、
学習後の所定の前記エージェントの前記学習モデルにおける前記評価指標を取得する第２のステップと、
所定の前記エージェントにおける前記評価指標と、他の前記エージェントにおける前記評価指標と、を比較する第３のステップと、
複数の前記エージェントのうち、低い前記評価指標となる前記エージェントを、学習対象として選定し、選定されなかった前記エージェントを学習対象外とする第４のステップと、を実行させ、
前記エージェントを学習するために実行された学習ステップが、終了となる学習ステップである学習終了ステップよりも大きくなるまで、前記第１のステップから前記第４のステップを繰り返し実行させる学習プログラム。
複数のエージェントが存在するマルチエージェント環境下において、セルフプレイにより前記エージェントの動作を強化学習させるための学習装置に実行させる学習プログラムであって、
前記マルチエージェント環境は、前記エージェント間において、前記エージェントが実行する行動の種類、前記エージェントが取得する状態の種類、前記エージェントに付与される報酬の定義のうち、少なくとも一つが異なる環境である非対称性環境となっており、
前記エージェントのそれぞれには、学習の評価指標が付与されており、
前記学習装置に、
複数の前記エージェントのうち、所定の前記エージェントの学習を学習モデルを用いて実行するステップと、
学習後の所定の前記エージェントの前記学習モデルにおける前記評価指標を取得するステップと、
所定の前記エージェントにおける前記評価指標と、他の前記エージェントにおける前記評価指標と、を比較するステップと、
低い前記評価指標となる前記エージェントを、学習対象として設定するステップと、を実行させ、
前記評価指標を比較するステップでは、所定の前記エージェントにおける前記評価指標と、他の前記エージェントにおける前記評価指標との差分を算出しており、
算出した差分に基づいて、学習の進捗が進んでいないと判定した場合、学習の進捗が進んでいないと判定された前記エージェントの前記学習モデルを、異なる前記評価指標となる前記学習モデルに変更させる学習プログラム。