JP7650720B2 - 学習装置、学習方法及び学習プログラム - Google Patents
学習装置、学習方法及び学習プログラム Download PDFInfo
- Publication number
- JP7650720B2 JP7650720B2 JP2021083430A JP2021083430A JP7650720B2 JP 7650720 B2 JP7650720 B2 JP 7650720B2 JP 2021083430 A JP2021083430 A JP 2021083430A JP 2021083430 A JP2021083430 A JP 2021083430A JP 7650720 B2 JP7650720 B2 JP 7650720B2
- Authority
- JP
- Japan
- Prior art keywords
- learning
- agent
- agents
- evaluation index
- environment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2178—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Feedback Control In General (AREA)
Description
本実施形態に係る学習装置10及び学習方法は、動作を行う複数のエージェント5が存在する環境下、すなわち、マルチエージェント環境下において各エージェント5を強化学習する装置及び方法となっている。エージェント5となる対象としては、例えば、ロボット、車両、船舶または航空機等の動作を実行可能な機械が適用される。
図1に示すように、学習装置10は、システム1に設けられる複数のロボット7に搭載された学習モデルを学習するための装置となっている。システム1は、非対称性環境下となっており、複数のエージェント5の対象となる複数のロボット7と、複数のロボット7の動作を学習するための学習装置10と、を備えている。
学習装置10は、仮想空間となるマルチエージェント環境下において、複数のエージェント5の強化学習を実行する。学習装置10では、セルフプレイによりエージェント5の動作を強化学習させている。学習装置10は、複数のエージェント5と、環境部25と、記憶部23と、を備えている。
次に、図2及び図3を参照して、学習装置10により実行される学習方法について説明する。学習方法では、先ず、複数のエージェント5のうち、所定のエージェント5aの学習を学習モデルを用いて実行する(ステップS1)。具体的に、ステップS1では、キッカーエージェント5aの学習を実行している。このとき、キッカーエージェント5aのレーティングと、キーパーエージェント5bのレーティングとは、同じ値(例えば、1500)となっている。同じレーティングである場合、選定されるエージェント5は、何れであってもよい。なお、選定されなかったエージェント5は、学習対象外のエージェント5となり、マルチエージェント環境下における環境の一要素として、つまり、固定された学習モデルに基づくアクションを実行するエージェント5として、取り扱われる。
次に、図4及び図5を参照して、マルチエージェント環境について説明する。マルチエージェント環境は、上記のようなFK対戦環境に限定されない。例えば、図4の上側の図に示すように、侵攻側の無人航空機となる複数のエージェント51aと、防衛側の無人航空機となる複数のエージェント51bとが対戦する環境E1であってもよい。環境E1において、侵攻側の無人航空機及び防衛側の無人航空機が行うアクションAtとしては、機体性能に応じたアクションがある。また、侵攻側の無人航空機及び防衛側の無人航空機が取得するステートStとしては、レーダの計測結果がある。さらに、無人航空機のリワードRtとしては、侵攻側と防衛側とで異なるものとなっている。この場合、評価指標は、侵攻側の無人航空機と、防衛側の無人航空機との勝敗に基づくレーティングとなっている。マルチエージェント環境E1において防衛側の無人航空機が学習した学習モデルは、実機の無人航空機に搭載されることで、無人航空機は、学習済みの学習モデルに基づく防衛を実行することができる。
5 エージェント
10 学習装置
11 処理部
12 記憶部
13 センサ
14 アクチュエータ
23 記憶部
25 環境部
31 学習部
32 データベース
33 処理部
41 状態遷移処理部
42 キッカー用の報酬付与部
43 キーパー用の報酬付与部
44 学習エージェント判定部
P 学習プログラム
Claims (8)
- 複数のエージェントが存在するマルチエージェント環境下において、セルフプレイにより前記エージェントの動作を強化学習させるための処理部を備える学習装置であって、
前記マルチエージェント環境は、前記エージェント間において、前記エージェントが実行する行動の種類、前記エージェントが取得する状態の種類、前記エージェントに付与される報酬の定義のうち、少なくとも一つが異なる環境である非対称性環境となっており、
前記エージェントのそれぞれには、学習の評価指標が付与されており、
前記処理部は、
複数の前記エージェントのうち、所定の前記エージェントの学習を学習モデルを用いて実行する第1のステップと、
学習後の所定の前記エージェントの前記学習モデルにおける前記評価指標を取得する第2のステップと、
所定の前記エージェントにおける前記評価指標と、他の前記エージェントにおける前記評価指標と、を比較する第3のステップと、
複数の前記エージェントのうち、低い前記評価指標となる前記エージェントを、学習対象として選定し、選定されなかった前記エージェントを学習対象外とする第4のステップと、を実行し、
前記エージェントを学習するために実行された学習ステップが、終了となる学習ステップである学習終了ステップよりも大きくなるまで、前記第1のステップから前記第4のステップを繰り返し実行する学習装置。 - 学習の前記評価指標は、レーティングである請求項1に記載の学習装置。
- 前記第3のステップでは、所定の前記エージェントにおける前記評価指標と、他の前記エージェントにおける前記評価指標との差分を算出しており、
算出した差分に基づいて、学習の進捗が進んでいないと判定した場合、学習の進捗が進んでいないと判定された前記エージェントの前記学習モデルを、異なる前記評価指標となる前記学習モデルに変更する請求項1または2に記載の学習装置。 - 複数のエージェントが存在するマルチエージェント環境下において、セルフプレイにより前記エージェントの動作を強化学習させるための処理部を備える学習装置であって、
前記マルチエージェント環境は、前記エージェント間において、前記エージェントが実行する行動の種類、前記エージェントが取得する状態の種類、前記エージェントに付与される報酬の定義のうち、少なくとも一つが異なる環境である非対称性環境となっており、
前記エージェントのそれぞれには、学習の評価指標が付与されており、
前記処理部は、
複数の前記エージェントのうち、所定の前記エージェントの学習を学習モデルを用いて実行するステップと、
学習後の所定の前記エージェントの前記学習モデルにおける前記評価指標を取得するステップと、
所定の前記エージェントにおける前記評価指標と、他の前記エージェントにおける前記評価指標と、を比較するステップと、
低い前記評価指標となる前記エージェントを、学習対象として設定するステップと、を実行し、
前記評価指標を比較するステップでは、所定の前記エージェントにおける前記評価指標と、他の前記エージェントにおける前記評価指標との差分を算出しており、
算出した差分に基づいて、学習の進捗が進んでいないと判定した場合、学習の進捗が進んでいないと判定された前記エージェントの前記学習モデルを、異なる前記評価指標となる前記学習モデルに変更する学習装置。 - 複数のエージェントが存在するマルチエージェント環境下において、セルフプレイにより前記エージェントの動作を強化学習させるための学習方法であって、
前記マルチエージェント環境は、前記エージェント間において、前記エージェントが実行する行動の種類、前記エージェントが取得する状態の種類、前記エージェントに付与される報酬の定義のうち、少なくとも一つが異なる環境である非対称性環境となっており、
前記エージェントのそれぞれには、学習の評価指標が付与されており、
複数の前記エージェントのうち、所定の前記エージェントの学習を学習モデルを用いて実行する第1のステップと、
学習後の所定の前記エージェントの前記学習モデルにおける前記評価指標を取得する第2のステップと、
所定の前記エージェントにおける前記評価指標と、他の前記エージェントにおける前記評価指標と、を比較する第3のステップと、
複数の前記エージェントのうち、低い前記評価指標となる前記エージェントを、学習対象として選定し、選定されなかった前記エージェントを学習対象外とする第4のステップと、を実行し、
前記エージェントを学習するために実行された学習ステップが、終了となる学習ステップである学習終了ステップよりも大きくなるまで、前記第1のステップから前記第4のステップを繰り返し実行する学習方法。 - 複数のエージェントが存在するマルチエージェント環境下において、セルフプレイにより前記エージェントの動作を強化学習させるための学習方法であって、
前記マルチエージェント環境は、前記エージェント間において、前記エージェントが実行する行動の種類、前記エージェントが取得する状態の種類、前記エージェントに付与される報酬の定義のうち、少なくとも一つが異なる環境である非対称性環境となっており、
前記エージェントのそれぞれには、学習の評価指標が付与されており、
複数の前記エージェントのうち、所定の前記エージェントの学習を学習モデルを用いて実行するステップと、
学習後の所定の前記エージェントの前記学習モデルにおける前記評価指標を取得するステップと、
所定の前記エージェントにおける前記評価指標と、他の前記エージェントにおける前記評価指標と、を比較するステップと、
低い前記評価指標となる前記エージェントを、学習対象として設定するステップと、を実行し、
前記評価指標を比較するステップでは、所定の前記エージェントにおける前記評価指標と、他の前記エージェントにおける前記評価指標との差分を算出しており、
算出した差分に基づいて、学習の進捗が進んでいないと判定した場合、学習の進捗が進んでいないと判定された前記エージェントの前記学習モデルを、異なる前記評価指標となる前記学習モデルに変更する学習方法。 - 複数のエージェントが存在するマルチエージェント環境下において、セルフプレイにより前記エージェントの動作を強化学習させるための学習装置に実行させる学習プログラムであって、
前記マルチエージェント環境は、前記エージェント間において、前記エージェントが実行する行動の種類、前記エージェントが取得する状態の種類、前記エージェントに付与される報酬の定義のうち、少なくとも一つが異なる環境である非対称性環境となっており、
前記エージェントのそれぞれには、学習の評価指標が付与されており、
前記学習装置に、
複数の前記エージェントのうち、所定の前記エージェントの学習を学習モデルを用いて実行する第1のステップと、
学習後の所定の前記エージェントの前記学習モデルにおける前記評価指標を取得する第2のステップと、
所定の前記エージェントにおける前記評価指標と、他の前記エージェントにおける前記評価指標と、を比較する第3のステップと、
複数の前記エージェントのうち、低い前記評価指標となる前記エージェントを、学習対象として選定し、選定されなかった前記エージェントを学習対象外とする第4のステップと、を実行させ、
前記エージェントを学習するために実行された学習ステップが、終了となる学習ステップである学習終了ステップよりも大きくなるまで、前記第1のステップから前記第4のステップを繰り返し実行させる学習プログラム。 - 複数のエージェントが存在するマルチエージェント環境下において、セルフプレイにより前記エージェントの動作を強化学習させるための学習装置に実行させる学習プログラムであって、
前記マルチエージェント環境は、前記エージェント間において、前記エージェントが実行する行動の種類、前記エージェントが取得する状態の種類、前記エージェントに付与される報酬の定義のうち、少なくとも一つが異なる環境である非対称性環境となっており、
前記エージェントのそれぞれには、学習の評価指標が付与されており、
前記学習装置に、
複数の前記エージェントのうち、所定の前記エージェントの学習を学習モデルを用いて実行するステップと、
学習後の所定の前記エージェントの前記学習モデルにおける前記評価指標を取得するステップと、
所定の前記エージェントにおける前記評価指標と、他の前記エージェントにおける前記評価指標と、を比較するステップと、
低い前記評価指標となる前記エージェントを、学習対象として設定するステップと、を実行させ、
前記評価指標を比較するステップでは、所定の前記エージェントにおける前記評価指標と、他の前記エージェントにおける前記評価指標との差分を算出しており、
算出した差分に基づいて、学習の進捗が進んでいないと判定した場合、学習の進捗が進んでいないと判定された前記エージェントの前記学習モデルを、異なる前記評価指標となる前記学習モデルに変更させる学習プログラム。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021083430A JP7650720B2 (ja) | 2021-05-17 | 2021-05-17 | 学習装置、学習方法及び学習プログラム |
| EP22172737.3A EP4102406A1 (en) | 2021-05-17 | 2022-05-11 | Learning device, learning method, and computer-readable storage medium |
| US17/742,938 US20220269995A1 (en) | 2017-05-17 | 2022-05-12 | Learning device, learning method, and computer-readable storage medium |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021083430A JP7650720B2 (ja) | 2021-05-17 | 2021-05-17 | 学習装置、学習方法及び学習プログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2022176808A JP2022176808A (ja) | 2022-11-30 |
| JP7650720B2 true JP7650720B2 (ja) | 2025-03-25 |
Family
ID=81603414
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021083430A Active JP7650720B2 (ja) | 2017-05-17 | 2021-05-17 | 学習装置、学習方法及び学習プログラム |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US20220269995A1 (ja) |
| EP (1) | EP4102406A1 (ja) |
| JP (1) | JP7650720B2 (ja) |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2018110305A1 (ja) | 2016-12-14 | 2018-06-21 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
| CN112052511A (zh) | 2020-06-15 | 2020-12-08 | 成都蓉奥科技有限公司 | 一种基于深度随机博弈的空战机动策略生成技术 |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11627165B2 (en) * | 2019-01-24 | 2023-04-11 | Deepmind Technologies Limited | Multi-agent reinforcement learning with matchmaking policies |
| US12327167B2 (en) * | 2019-03-01 | 2025-06-10 | Royal Bank Of Canada | System and method for multi-type mean field reinforcement machine learning |
| KR102299140B1 (ko) | 2019-07-15 | 2021-09-07 | 엔에이치엔 주식회사 | 딥러닝을 기반으로 하는 바둑 게임 서비스 방법 및 그 장치 |
-
2021
- 2021-05-17 JP JP2021083430A patent/JP7650720B2/ja active Active
-
2022
- 2022-05-11 EP EP22172737.3A patent/EP4102406A1/en active Pending
- 2022-05-12 US US17/742,938 patent/US20220269995A1/en active Pending
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2018110305A1 (ja) | 2016-12-14 | 2018-06-21 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
| CN112052511A (zh) | 2020-06-15 | 2020-12-08 | 成都蓉奥科技有限公司 | 一种基于深度随机博弈的空战机动策略生成技术 |
Non-Patent Citations (1)
| Title |
|---|
| Siqi Liu, 外5名,"EMERGENT COORDINATION THROUGH COMPETITION",[online],2019年02月21日,p.1-19,[検索日 2024.11.12], インターネット<URL:https://arxiv.org/pdf/1902.07151> |
Also Published As
| Publication number | Publication date |
|---|---|
| EP4102406A1 (en) | 2022-12-14 |
| JP2022176808A (ja) | 2022-11-30 |
| US20220269995A1 (en) | 2022-08-25 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Min et al. | Deep distributional reinforcement learning based high-level driving policy determination | |
| Pan et al. | Risk averse robust adversarial reinforcement learning | |
| US11994862B2 (en) | Method and system for training reinforcement learning agent using adversarial sampling | |
| CN117707207B (zh) | 基于深度强化学习的无人机对地目标跟踪与避障规划方法 | |
| US12140913B2 (en) | Control device, unmanned system, control method, and program | |
| CN115033022B (zh) | 面向移动平台基于专家经验的ddpg无人机降落方法 | |
| CN116776751B (zh) | 一种智能决策算法模型设计开发辅助系统 | |
| CN108319132A (zh) | 用于无人机空中对抗的决策系统及方法 | |
| Oh et al. | Learning to sample with local and global contexts in experience replay buffer | |
| CN109190751B (zh) | 一种基于深度强化学习的机器自主决策方法 | |
| CN112651486A (zh) | 一种提高maddpg算法收敛速度的方法及其应用 | |
| CN115544898B (zh) | 基于深度强化学习的多智能体攻防决策方法 | |
| CN116136945A (zh) | 一种基于反事实基线的无人机集群对抗博弈仿真方法 | |
| Iima et al. | Swarm reinforcement learning methods improving certainty of learning for a multi-robot formation problem | |
| JP7650720B2 (ja) | 学習装置、学習方法及び学習プログラム | |
| Capo et al. | Short-term trajectory planning in torcs using deep reinforcement learning | |
| CN117308983A (zh) | 路径规划方法、装置、设备及存储介质 | |
| CN113341945B (zh) | 用于控制机器人的方法和设备 | |
| Vicerra et al. | A multiple level MIMO fuzzy logic based intelligence for multiple agent cooperative robot system | |
| Mengozzi et al. | Towards nano-drones agile flight using deep reinforcement learning | |
| CN118760110B (zh) | 基于多智能体集群对抗的自动驾驶测试方法、设备及介质 | |
| CN120297355A (zh) | 一种基于强化学习的无人车对抗控制方法及装置 | |
| CN111984000A (zh) | 用于自动影响执行器的方法和设备 | |
| JP2023165309A (ja) | 学習装置、学習方法及び学習プログラム | |
| Szymak | Comparison of fuzzy system with neural aggregation FSNA with classical TSK fuzzy system in anti-collision problem of USV |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240306 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20241126 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20250123 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250212 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250312 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7650720 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |