JP7720587B2 - 通信装置、通信システム、及び通信方法 - Google Patents
通信装置、通信システム、及び通信方法Info
- Publication number
- JP7720587B2 JP7720587B2 JP2022020561A JP2022020561A JP7720587B2 JP 7720587 B2 JP7720587 B2 JP 7720587B2 JP 2022020561 A JP2022020561 A JP 2022020561A JP 2022020561 A JP2022020561 A JP 2022020561A JP 7720587 B2 JP7720587 B2 JP 7720587B2
- Authority
- JP
- Japan
- Prior art keywords
- reinforcement learning
- wireless
- wireless interface
- communication
- packets
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Mobile Radio Communication Systems (AREA)
Description
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習部と、
前記強化学習部により決定された数のパケットを前記デバイスに送信する送信部と
を備える通信装置であり、
前記強化学習部は、各無線インタフェースでのパケットロス率に基づく満足度レベルを状態とし、各デバイスが使用する無線インタフェースの組み合わせ及び各無線インタフェースで送信するパケットの数を行動とするリスク回避型の強化学習により、状態に対する行動を学習する
通信装置が提供される。
図1に、本実施の形態における無線通信システムの構成例を示す。図1に示すように、本システムは、無線基地局100と、複数の無線端末200を含む。図1の例では、無線基地局100はインターネットに接続されている。
本実施の形態では、無線基地局100(もしくは無線端末200)において、複数の無線インタフェース(もしくは複数の周波数)をアグリゲーションする構成を採用している。
本実施の形態では、図5に示すように、複数のデバイスを収容する複数のAPから構成される無線ネットワークにおけるダウンリンク(DL)送信を例にとって説明する。各APは、Sub‐6GHzおよびmmWave(ミリ波)インタフェースを備えているものとする。各APは、無線基地局100に相当する。デバイスは無線端末200に相当する。以下では、無線基地局100が本発明に係る強化学習の動作を行うものとして説明するが、無線端末200も同様の動作が可能である。
ここでの目標は、各デバイスの個々のPLR制約を満たしながら、すべてのデバイスにわたって平均化された長期PSRを最大化(ここではρmax)することである。この問題は、図6に示すように、状態空間、行動空間、遷移確率および報酬関数によって特徴づけられるMDPとしてモデル化することができる。図5において、状態stは、全てのデバイスに対する、PLRの満足レベル(及びACKフィードバック状態)である。行動atは、全てのデバイスに対する、インタフェース選択及びパケットスケジューリングである。本実施の形態では、状態s(t)、行動a(t)を元に、報酬r(t)を得て、目的関数を最大化することで、行動の最適化を行う。
厳しい信頼性の要求を最もよく満足させるために、本実施の形態では、リスク回避平均化Q学習(RAQL:Risk-Averse Average Q-learning)と呼ばれるRSRL(Risk-Sensitive Reinforcement Learning)のアプローチを用いる。QLのように期待されるリターンを最大化することを目標とする伝統的なRL法と比較して、RSRLはリスクの概念を導入しており、そのリスクは、報酬の分散とリンクしている。RAQLは、更なる分散の減少を達成しており、それによりリスクを減少させる。
Π:ポリシー(方策)
Eπ,h:ポリシーπ、無線チャネル(伝搬路等)の状態hの下での期待値
rt:過程tにおける即時報酬値
β:パラメータ
Var[]:[]の分散
O():()のオーダー
後述するように、本実施の形態では、式(22)を更新ルールとして使用することにより、複数Qテーブルを同時に学習する。そして、真の分散の近似として、これらQテーブルのサンプル分散が使用される。この分散から、リスク回避^Qテーブルが計算され、行動選択に使用される。
次に、本実施の形態においてAP(無線基地局100)が実行する、RAQLに基づくアルゴリズムを詳細に説明する。状態空間と行動空間は次のように定義される。
Ωk sub(τ):Sub6GHのI/Fで送信が成功したパケット数
Ωk mW(τ):ミリ波のI/Fで送信が成功したパケット数
lk sub(τ):Sub6GHのI/Fで送信されるパケット数
lk mW(τ):ミリ波のI/Fで送信されるパケット数
uk sub(t):Sub6GHのI/Fでのパケットロス率ρが要求品質ρmaxに達しているかどうかで変わる変数
uk mW(t):ミリ波のI/Fでのパケットロス率ρが要求品質ρmaxに達しているかどうかで変わる変数
式(14)から明らかなように、uk ν(t)=0である場合、すなわち、デバイスkが、式(14)におけるPLRを満足しないリスク状態にある場合、報酬にはペナルティーが科せられる。
λ:減衰率
I:Qテーブルの枚数
λp:リスク制御パラメータ
Q:Qテーブル
V:Qテーブル更新回数
α:学習率
アルゴリズム1において、最初に、APは、状態sの下で各行動aの選択数をカウントするテーブルVとともにI個のQテーブルを初期化する。対応する学習率αもまた0に初期化され、ランダム状態からアルゴリズムが開始する(1~2行)。
無線基地局100と無線端末200はいずれも、例えば、コンピュータにプログラムを実行させることにより実現することも可能である。このコンピュータは、物理的なコンピュータであってもよいし、クラウド上の仮想マシンであってもよい。以下、無線基地局100と無線端末200を総称して通信装置と呼ぶ。
本実施の形態に係る技術により、環境の変化に追随しつつ所望の通信品質と無線リソースの利用効率の向上とを両立させるための技術を提供することができる。
本明細書には、少なくとも下記各項の通信装置、及び通信方法が開示されている。
(第1項)
複数の無線インタフェースを利用して無線通信を行う通信装置であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習部と、
前記強化学習部により決定された数のパケットを前記デバイスに送信する送信部と
を備える通信装置。
(第2項)
前記強化学習部は、各無線インタフェースでのパケットロス率に基づく満足度レベルを状態とし、各デバイスが使用する無線インタフェースの組み合わせ及び各無線インタフェースで送信するパケットの数を行動とするリスク回避型の強化学習により、状態に対する行動を学習する
第1項に記載の通信装置。
(第3項)
前記強化学習部は、パケット送信先の複数のデバイスからフィードバックを受信する受信部を更に備え、
前記強化学習部は、前記フィードバックに基づいて、前記パケットロス率を算出する
第2項に記載の通信装置。
(第4項)
前記強化学習部は、全デバイスに対する平均パケット受信成功率と、QoS目標値が未達成の状態であるリスク状態によるペナルティーに基づいて即時報酬を計算し、過去の即時報酬を用いて、高リスク行動に対する報酬の低下を反映するように、平均効用関数を最大化するポリシーを算出する
第1項ないし第3項のうちいずれか1項に記載の通信装置。
(第5項)
前記通信装置は、第1無線インタフェースと、前記第1無線インタフェースよりも高いデータレートによる通信を行う第2無線インタフェースを備え、
前記強化学習部により選択される行動は、前記第1無線インタフェースのみを使用、前記第2無線インタフェースのみを使用、及び、前記第2無線インタフェースを優先的に使用、の3つの行動のうちのいずれかの行動である
第1項ないし第4項のうちいずれか1項に記載の通信装置。
(第6項)
第1項ないし第5項のうちいずれか1項に記載の通信装置と、前記デバイスを含む通信システム。
(第7項)
複数の無線インタフェースを利用して無線通信を行う通信装置が実行する通信方法であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習ステップと、
前記強化学習ステップにより決定された数のパケットを前記デバイスに送信する送信ステップと
を備える通信方法。
101 アンテナ
110 通信I/F部
120 制御部
130 無線通信部
131 受信部
132 無線通信信号生成部
135 RF部
140 スケジューラ部
141 通信品質測定部
142 全体無線リソース割当算出部
143 個別無線リソース割当算出部
150 強化学習部
151 Qテーブル管理部
152 状態算出部
153 報酬算出部
154 リスク評価部
200 無線端末
1000 ドライブ装置
1001 記録媒体
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インタフェース装置
1006 表示装置
1007 入力装置
1008 出力装置
Claims (8)
- 複数の無線インタフェースを利用して無線通信を行う通信装置であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習部と、
前記強化学習部により決定された数のパケットを前記デバイスに送信する送信部と
を備える通信装置であり、
前記強化学習部は、各無線インタフェースでのパケットロス率に基づく満足度レベルを状態とし、各デバイスが使用する無線インタフェースの組み合わせ及び各無線インタフェースで送信するパケットの数を行動とするリスク回避型の強化学習により、状態に対する行動を学習する
通信装置。 - 前記強化学習部は、パケット送信先の複数のデバイスからフィードバックを受信する受信部を更に備え、
前記強化学習部は、前記フィードバックに基づいて、前記パケットロス率を算出する
請求項1に記載の通信装置。 - 複数の無線インタフェースを利用して無線通信を行う通信装置であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習部と、
前記強化学習部により決定された数のパケットを前記デバイスに送信する送信部と
を備える通信装置であり、
前記強化学習部は、全デバイスに対する平均パケット受信成功率と、QoS目標値が未達成の状態であるリスク状態によるペナルティーに基づいて即時報酬を計算し、過去の即時報酬を用いて、高リスク行動に対する報酬の低下を反映するように、平均効用関数を最大化するポリシーを算出する
通信装置。 - 複数の無線インタフェースを利用して無線通信を行う通信装置であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習部と、
前記強化学習部により決定された数のパケットを前記デバイスに送信する送信部と
を備える通信装置であり、
前記通信装置は、第1無線インタフェースと、前記第1無線インタフェースよりも高いデータレートによる通信を行う第2無線インタフェースを備え、
前記強化学習部により選択される行動は、前記第1無線インタフェースのみを使用、前記第2無線インタフェースのみを使用、及び、前記第2無線インタフェースを優先的に使用、の3つの行動のうちのいずれかの行動である
通信装置。 - 請求項1ないし4のうちいずれか1項に記載の通信装置と、前記デバイスを含む通信システム。
- 複数の無線インタフェースを利用して無線通信を行う通信装置が実行する通信方法であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習ステップと、
前記強化学習ステップにより決定された数のパケットを前記デバイスに送信する送信ステップと
を備える通信方法であり、
前記強化学習ステップにおいて、前記通信装置は、各無線インタフェースでのパケットロス率に基づく満足度レベルを状態とし、各デバイスが使用する無線インタフェースの組み合わせ及び各無線インタフェースで送信するパケットの数を行動とするリスク回避型の強化学習により、状態に対する行動を学習する
通信方法。 - 複数の無線インタフェースを利用して無線通信を行う通信装置が実行する通信方法であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習ステップと、
前記強化学習ステップにより決定された数のパケットを前記デバイスに送信する送信ステップと
を備える通信方法であり、
前記強化学習ステップにおいて、前記通信装置は、全デバイスに対する平均パケット受信成功率と、QoS目標値が未達成の状態であるリスク状態によるペナルティーに基づいて即時報酬を計算し、過去の即時報酬を用いて、高リスク行動に対する報酬の低下を反映するように、平均効用関数を最大化するポリシーを算出する
通信方法。 - 複数の無線インタフェースを利用して無線通信を行う通信装置が実行する通信方法であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習ステップと、
前記強化学習ステップにより決定された数のパケットを前記デバイスに送信する送信ステップと
を備える通信方法であり、
前記通信装置は、第1無線インタフェースと、前記第1無線インタフェースよりも高いデータレートによる通信を行う第2無線インタフェースを備え、
前記強化学習ステップにより選択される行動は、前記第1無線インタフェースのみを使用、前記第2無線インタフェースのみを使用、及び、前記第2無線インタフェースを優先的に使用、の3つの行動のうちのいずれかの行動である
通信方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2022020561A JP7720587B2 (ja) | 2022-02-14 | 2022-02-14 | 通信装置、通信システム、及び通信方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2022020561A JP7720587B2 (ja) | 2022-02-14 | 2022-02-14 | 通信装置、通信システム、及び通信方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2023117803A JP2023117803A (ja) | 2023-08-24 |
| JP7720587B2 true JP7720587B2 (ja) | 2025-08-08 |
Family
ID=87654028
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2022020561A Active JP7720587B2 (ja) | 2022-02-14 | 2022-02-14 | 通信装置、通信システム、及び通信方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7720587B2 (ja) |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009171353A (ja) | 2008-01-17 | 2009-07-30 | Advanced Telecommunication Research Institute International | 無線通信ネットワークおよびそれに用いられる無線装置 |
| WO2021121541A1 (en) | 2019-12-16 | 2021-06-24 | Telefonaktiebolaget Lm Ericsson (Publ) | Reliable device-to-device communication |
-
2022
- 2022-02-14 JP JP2022020561A patent/JP7720587B2/ja active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009171353A (ja) | 2008-01-17 | 2009-07-30 | Advanced Telecommunication Research Institute International | 無線通信ネットワークおよびそれに用いられる無線装置 |
| WO2021121541A1 (en) | 2019-12-16 | 2021-06-24 | Telefonaktiebolaget Lm Ericsson (Publ) | Reliable device-to-device communication |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2023117803A (ja) | 2023-08-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Xu et al. | Constrained reinforcement learning for resource allocation in network slicing | |
| US8422444B2 (en) | Dynamic channel and transmission rate selection | |
| EP4044691B1 (en) | Power adjusting method and access network device | |
| US20130225220A1 (en) | Apparatus and method for scheduling transmission resources to users served by a base station using a prediction of rate regions | |
| US11641223B2 (en) | Method for controlling transmission mode of access node in ultra-dense radio network, and apparatus therefor | |
| EP3871443B1 (en) | Cloud-server based client steering involving client steering daemons | |
| CN114025359B (zh) | 基于深度强化学习的资源分配与计算卸载方法、系统、设备及介质 | |
| Balevi et al. | A clustering algorithm that maximizes throughput in 5G heterogeneous F-RAN networks | |
| CN116033556B (zh) | 一种实现高能效大规模urllc的资源分配方法 | |
| CN115552973A (zh) | 用于网络负载平衡优化的方法和装置 | |
| US7940690B2 (en) | Apparatus and method for determining transmission mode in wireless communication system | |
| US10555215B2 (en) | Management apparatus, communication system, and allocation method | |
| CN114302497B (zh) | 一种应用于非授权毫米波段异构网络共存的调度方法 | |
| CN118647087A (zh) | 资源调度方法、装置、设备、介质及产品 | |
| EP4305823B1 (en) | Devices and methods for collaborative learning of a transmission policy in wireless networks | |
| EP2519058B1 (en) | Method for attaching a user terminal to a base station of a network | |
| Kaneko et al. | A Multi-Agent Risk-Averse Reinforcement Learning Method for Reliability Enhancement in Sub-6GHz/mmWave Mobile Networks | |
| JP7720587B2 (ja) | 通信装置、通信システム、及び通信方法 | |
| Tian et al. | MSRA: Mode Selection and Resource Allocation for Cooperative Vehicle-Infrastructure System | |
| Zhai et al. | Antenna subarray management for hybrid beamforming in millimeter-wave mesh backhaul networks | |
| EP2613405B1 (en) | Antenna array control method and access point using the same | |
| Nassar et al. | Reinforcement learning-based resource allocation in fog RAN for IoT with heterogeneous latency requirements | |
| US10980041B1 (en) | Method and apparatus for scheduling in wireless communication system | |
| JP2024154278A (ja) | 集約装置、通信システム、通信方法、及びプログラム | |
| Shin et al. | Deep reinforcement learning assisted multi-operator spectrum sharing in cell-free MIMO networks |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20220215 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20220215 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240426 |
|
| RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20240701 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20240702 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20250430 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20250630 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250715 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250718 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7720587 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |