JP7720587B2

JP7720587B2 - 通信装置、通信システム、及び通信方法

Info

Publication number: JP7720587B2
Application number: JP2022020561A
Authority: JP
Inventors: 憲一河村; 大輔村山; 俊朗中平; 貴庸守山; めぐみ金子; ディンティハーリー
Original assignee: Nippon Telegraph and Telephone Corp; Inter University Research Institute Corp Research Organization of Information and Systems; NTT Inc USA
Current assignee: Inter University Research Institute Corp Research Organization of Information and Systems; NTT Inc; NTT Inc USA
Priority date: 2022-02-14
Filing date: 2022-02-14
Publication date: 2025-08-08
Anticipated expiration: 2042-02-14
Also published as: JP2023117803A

Description

本発明は、無線通信システムにおけるパケットスケジューリングに関連するものである。。

現在、無線通信システムは発展し、マルチバンド・マルチアクセスのシステムによるヘテロジニアスなネットワークになっている。セルラー通信では、第５世代移動通信（５Ｇ）が実用化され、１ＧＨｚ以下の周波数から、ミリ波帯まで幅広い周波数が利用され、スモールセルからマクロセルまで様々なサイズのセルが重畳するように提供される世界になってきている。

また、もう一つの代表的な無線アクセスシステムである無線ＬＡＮでも、２．４／５／６０ＧＨｚ帯の無線周波数が利用されており、６ＧＨｚ帯の利用も検討されている。スマートフォンなどの無線端末はセルラーと無線ＬＡＮのアクセスに対応したＩ／Ｆを一般的に備え、またそれぞれのＩ／Ｆにおいて複数のバンドへの対応となっている。端末は複数の周波数、アクセス方式から接続する無線基地局を選択し、通信を行うことが一般的となってきており、デュアルコネクティビティなど、１台の端末が複数の基地局を統合利用することも行われる。

このようなヘテロジニアス環境において、端末がどのＩ／Ｆでどの基地局を選択するかはシステム全体で制御し、最適化を図ることがシステムのリソースの有効利用に有効である。

また、５Ｇの発展として、ｕＲＬＬＣ（Ultra-Reliable and Low Latency Communications、超高信頼低遅延通信）等、従来の無線通信ではあまり使われていなかった超高信頼・超低遅延な用途に向けた通信機能の実現が目標とされている。

高信頼性（低パケットロス）、低遅延性を実現するための従来技術の一つとして、複数の無線Ｉ／Ｆ、複数のバンドで冗長的に同一データを送信し、受信側で合成する手法（例えば非特許文献１）がある。

Cisco Parallel Redundancy Protocol Over Wireless https://www.cisco.com/c/ja_jp/td/docs/wireless/outdoor_industrial/iw3702/technote/b_prp_dg.html Yue Gao, Kry Yik Chau Lui, Pablo Hernandez-Leal, "Robust Risk-Sensitive Reinforcement Learning Agents for Trading Markets," RL4RealLife Workshop in Int. Conf. on Machine Learning (ICML), 2021.

非特許文献１の技術では、基本的に、求められるＱｏＳレベルに応じて、固定的に冗長させる無線Ｉ／Ｆあるいはバンドを設定するため、必要以上に無線リソースを使用する場合があり、無線リソースの利用効率が悪い。また、環境の変化に応じて、柔軟に必要なリソース量を反映できない。

本発明は上記の点に鑑みてなされたものであり、環境の変化に追随しつつ所望の通信品質と無線リソースの利用効率の向上とを両立させるための技術を提供することを目的とする。

開示の技術によれば、複数の無線インタフェースを利用して無線通信を行う通信装置であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習部と、
前記強化学習部により決定された数のパケットを前記デバイスに送信する送信部と
を備える通信装置であり、
前記強化学習部は、各無線インタフェースでのパケットロス率に基づく満足度レベルを状態とし、各デバイスが使用する無線インタフェースの組み合わせ及び各無線インタフェースで送信するパケットの数を行動とするリスク回避型の強化学習により、状態に対する行動を学習する
通信装置が提供される。

開示の技術によれば、環境の変化に追随しつつ所望の通信品質と無線リソースの利用効率の向上とを両立させるための技術が提供される。

無線通信システムの構成例を示す図である。無線基地局（又は無線端末）の構成図である。無線基地局（又は無線端末）の構成図である。動作概要を示すフローチャートである。システムモデルを説明するための図である。強化学習を説明するための図である。アルゴリズム１を示す図である。装置のハードウェア構成例を示す図である。

以下、図面を参照して本発明の実施の形態（本実施の形態）を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。

（システム構成例）
図１に、本実施の形態における無線通信システムの構成例を示す。図１に示すように、本システムは、無線基地局１００と、複数の無線端末２００を含む。図１の例では、無線基地局１００はインターネットに接続されている。

本実施の形態では、後述する強化学習の手法により、複数の無線インタフェースを備える無線基地局１００が、デバイス（無線端末）に送信するパケットについて、それを送信する無線インタフェース、及び、その無線インタフェースで送信するパケット数を決定して、送信を行う。なお、パケット数を決定することをパケットスケジューリングと呼んでもよい。ただし、本実施の形態に係る手法は、無線端末２００においても適用することが可能である。無線基地局と無線端末を総称して通信装置と呼んでもよい。

また、後述する具体例では、無線インタフェースをＳｕｂ－６ＧＨｚとｍｍＷａｖｅの２種類として説明しているが無線インタフェースはこれらに限られない。また、「無線インタフェース」を、「周波数」であると解釈してもよい。つまり、本実施の形態は、複数周波数をアグリゲーションして使用する形態において、周波数の選択、及び、パケット数決定を後述する強化学習の手法により実現できる。

図２に、無線基地局１００の構成例を示す。無線端末２００も図２に示す構成と同様の構成を備えることとしてよい。

図２に示すように、無線基地局１００は、通信Ｉ／Ｆ部１１０、制御部１２０、無線通信部１３０、アンテナ１０１を有する。

無線通信部１３０は、スケジューラ部１４０、受信部１３１、無線通信信号生成部１３２、ＲＦ部１３５を備える。スケジューラ部１４０は、強化学習部１５０、通信品質測定部１４１、全体無線リソース割当算出部１４２、個別無線リソース割当算出部１４３を有する。「個別無線リソース割当算出部１４３、受信部１３１、無線通信信号生成部１３２、ＲＦ部１３５、アンテナ１０１」は、無線インタフェースの数だけ備えられる。ただし、「個別無線リソース割当算出部１４３、受信部１３１、無線通信信号生成部１３２、ＲＦ部１３５、アンテナ１０１」のうちのいずれかが、複数インタフェースで共有されてもよい。また、「個別無線リソース割当算出部１４３、受信部１３１、無線通信信号生成部１３２、ＲＦ部１３５、アンテナ１０１」を「無線インタフェース」と呼んでもよい。

強化学習部１５０は、Ｑテーブル管理部１５１、状態算出部１５２、報酬算出部１５３、リスク評価部１５４を備える。各部の動作は下記のとおりである。

通信Ｉ／Ｆ部１１０は、例えばインターネット等との通信を行う。制御部１２０は、例えば、ＣＰＵとメモリを備え、装置全体の制御を行う。無線通信部１３０は無線通信に係る動作を実行する。

スケジューラ部１４０はパケットスケジューリング等を実行する。受信部１３１は他の通信装置からの信号（例：無線端末からのフィードバック）をアンテナ及びＲＦ部を介して受信する。無線通信信号生成部１３２は、送信するパケットのデータから無線で送信する信号を生成する。ＲＦ部１３５は、信号を搬送波に乗せる等の処理を実行する。なお、スケジューラ部１４０はコンピュータとプログラムによっても実現でき、プログラムを記録媒体に記録することも、ネットワークを通して提供することも可能である。

通信品質測定部１４１は、例えば、送信パケット数と、通信相手からのフィードバック（例：ＡＣＫ／ＮＡＣＫ）に基づき、通信品質（例：パケットロス率）を測定する。なお、本実施の形態では、各デバイスからの瞬時のＣＳＩフィードバック（ＡＣＫ／ＮＡＣＫ等）を得られないが、散発的なＣＳＩフィードバックを得られる場合を想定しており、散発的なＣＳＩフィードバックから通信品質の統計値（全デバイスにわたる平均値等）を取得することができる。

全体無線リソース割当算出部１４２は、フレーム毎に強化学習部１５０が決定する行動に基づき、送信するパケット総数に対して、各無線インタフェースに割り当てる量を決定する。また、個別無線リソース割当算出部１４３は、フレーム毎に強化学習部１５０が決定する行動に基づき、該当する無線インタフェース（個別無線リソース割当算出部１４３に接続される無線インタフェース）における送信パケット数に対応する無線リソース量を決定する。

なお、無線基地局１００（又は無線端末２００）を図３に示す構成で表すこともできる。図３に示すように、無線基地局１００は、強化学習部１０、送信部２０、受信部３０を有する。強化学習部１０は強化学習部１５０と同様の処理を行う。送信部２０は、送信に関する処理（例：送信リソース割当算出、パケット送信）、受信部３０は、受信に関する処理（例：フィードバック受信、通信品質算出）を行う。

（強化学習部１５０について）
本実施の形態では、無線基地局１００（もしくは無線端末２００）において、複数の無線インタフェース（もしくは複数の周波数）をアグリゲーションする構成を採用している。

各無線インタフェースの送信パケットに対する無線リソースの割当を行うスケジューラ部１４０に強化学習部１５０を備えることで強化学習を適用（１）し、自律的に所望の通信品質を得るための最適な接続を学習して行うとともに、複数Ｑテーブルの並列更新（単独Ｑテーブルも含む）に基づくRisk-averse learning（リスク回避学習）手法（非特許文献２）（２）を用いることで、通信の信頼性を重視した行動選択を可能としている。

上記の（１）の強化学習の適用について、本実施の形態では、状態ｓ（ｔ）を各無線インタフェースでのパケットロス率（ＡＣＫのフィードバックより検出）情報に基づくSatisfaction Level（満足レベル）とし、行動ａ（ｔ）を各デバイス（送信元が無線基地局の場合は無線端末）に対して使用する無線インタフェースの組み合わせとパケットスケジューリング（各無線インタフェースで送信するパケット数）とする。本実施の形態では、Risk-Averse Average Q-learning（リスク回避平均化Ｑ学習）により、状態ｓ（ｔ）から各デバイスに対する最適な行動ａ（ｔ）を学習する。

本実施の形態で想定されるｕＲＬＬＣの場合，低遅延性を保つため瞬時のＣＳＩフィードバックを利用できない。本実施の形態では、瞬時のチャネル状態が未知でも良好なRisk-averse学習ができるように無線インタフェース選択とパケットスケジューリング法を設計している。

上記の（２）のRisk-averse learning（リスク回避学習）手法に関して、Risk-Averse Learningの、Risk(分散の大きさ)に反応する評価関数の概念を示す式（後述する式（１１）、式（１２））に、過去の報酬ｒの分散（リスク）に機敏に反応する項を入れることにより、高リスク行動に対する報酬の低下を反映させている。過去の報酬ｒの分散に反応して評価に反映する項とは、後述する式（１２）（式（１１）をテイラー展開した式）における２番目の項（Ｖａｒがある項）である。

後述する具体的において説明するとおり、本実施の形態では、瞬時報酬は全てのデバイスにわたる平均パケット受信成功率、及びリスク状態によるペナルティー（ｅｘ．信頼性・遅延等のＱｏＳターゲットが未達成の状態）を反映する。

図２に示す強化学習部１５０において、Ｑテーブル管理部１５１は、Ｑテーブルの保持、初期化、更新等を行う。状態算出部１５２は、状態ｓ（ｔ）を算出する。報酬算出部１５３は、ｓ（ｔ）、ａ（ｔ）に対する報酬ｒを算出する。リスク評価部１５４は、Ｑテーブルに基づいて、評価関数を計算し、行動を選択する。なお、評価関数の計算は報酬算出部１５３が行ってもよい。

ここで、強化学習に関連する無線基地局１００の動作概要を図４のフローチャートを参照して説明する。

Ｓ１０１において、状態算出部１５２が、各無線インタフェースでのパケットロス率（ＡＣＫのフィードバックより検出）情報に基づくSatisfaction Level（満足度レベル）を取得し、状態ｓ（ｔ）を計算する。

Ｓ１０２において、リスク評価部１５４は、Ｑテーブル管理部１５１において管理されている複数Ｑテーブル（もしくは単独Ｑテーブル）に基づいて、ε－ｇｒｅｅｄｙ法により行動ａを決定する。

Ｓ１０３において、強化学習部１５０は決定した行動ａを、全体無線リソース割当算出部１４２、個別無線リソース割当算出部１４３等に通知することで、無線基地局１００は、行動ａを実行する。

Ｓ１０４において、通信品質測定部１４１によりパケットロス情報が取得され、パケットロス情報は強化学習部１５０における報酬算出部１５３に渡される。

Ｓ１０５において、報酬算出部１５３は報酬を算出する。Ｓ１０６において、Ｑテーブル管理部１５１は、複数Ｑテーブル（もしくは単独Ｑテーブル）の更新を行う。

以下、本実施の形態における無線基地局１００の動作（特に強化学習部１５０による動作）を、具体的な無線インタフェースを使用する例を用いてより詳細に説明する。

（システムモデル）
本実施の形態では、図５に示すように、複数のデバイスを収容する複数のＡＰから構成される無線ネットワークにおけるダウンリンク（ＤＬ）送信を例にとって説明する。各ＡＰは、Ｓｕｂ‐６ＧＨｚおよびｍｍＷａｖｅ（ミリ波）インタフェースを備えているものとする。各ＡＰは、無線基地局１００に相当する。デバイスは無線端末２００に相当する。以下では、無線基地局１００が本発明に係る強化学習の動作を行うものとして説明するが、無線端末２００も同様の動作が可能である。

図５に示すように、ＡＰｂはデバイスの集合Κに所望のパケットを送信する。また、デバイスの集合Κは、他の全てのＡＰｂ´≠ｂからＤＬ干渉を受信する。

各スケジューリングフレームｔの開始において、ＡＰｂは各デバイスｋ∈ＫへのＬ_ｋ（ｔ）個のパケットを持つものとする。各パケットｌ∈Ｌ_ｋ（ｔ）は、ｄビットのサイズであり、デバイスｋ∈Ｋに送信されるものである。

ＡＰｂは、Ｓｕｂ－６ＧＨｚインタフェース上のＮ個のサブチャネルと、ｍｍＷａｖｅインタフェース上のＭ個のビームを介してこれらのパケットを送信する。各Ｓｕｂ－６ＧＨｚサブチャネル又は各ｍｍＷａｖｅビームは、各スケジューリング時間フレームにおいて、あるユニークなデバイスに割り当てることができる。Ｓｕｂ－６ＧＨｚでは異なるサブチャネル、ｍｍＷａｖｅでは異なるビームを介して、各フレームで複数のデバイスをサポートすることができる。

Ｓｕｂ－６ＧＨｚ帯では、サブチャネルｎにおけるＡＰｂからデバイスｋに対する信号対干渉＋雑音比（ＳＩＮＲ）は、

と表される。ここで、ＡＰｂからデバイスｋへのサブチャネルｎにおける送信電力ｐ_ｂｋｎ ^ｓｕｂは、サブチャネル間で等しいと仮定する。Ｗ_ｓｕｂはサブチャネルあたりの帯域幅である。ｈ_ｂｋｎ ^ｓｕｂの項は、サブチャネルｎ上のＡＰｂとデバイスｋとの間のチャネル電力（channel power）であり、ｈ_ｂｋｎ ^ｓｕｂ（ｔ）＝｜^～ｈ_ｂｋｎ ^ｓｕｂ（ｔ）｜^２で与えられる。なお、本明細書のテキストにおいて、記載の便宜上、文字の頭に記載する記号を文字の前に記載する場合がある。「^～ｈ」はその例である。ここで、^～ｈ_ｂｋｎ ^ｓｕｂ（ｔ）は、スモールスケールおよびラージスケールフェージング効果を含む複素チャネル係数である。σ_ｎ ^２は、加算性白色ガウス雑音（ＡＷＧＮ）電力を表す。Ｉ_ｂｋｎ ^ｓｕｂは、ＡＰｓｂ´≠ｂからデバイスｋへのサブチャネルｎ上の干渉電力である。

ｍｍＷａｖｅインタフェースについてはアナログビームフォーミングを想定し、ビームｍ上でのＡＰｂからデバイスｋへの送信ビーム幅とビーム方向はそれぞれθ_ｂｋｍ及びβ_ｂｋｍと表され、各ビームｍにおける対象デバイスｋ及び時間フレームｔに応じて調整される。

単純化のために、一般性を損なうことなく、デバイスｋにおける受信ビーム利得Ｇ_ｋ ^Ｒｘは固定であると想定する。得られるレートを最大化するために、θ_ｂｋｍは最も狭いビーム幅に設定され、β_ｂｋｍはＡＰｂからデバイスｋへの視線（ＬｏＳ）方向によって与えられる。したがって、ＡＰｂに収容されるデバイスｋにおけるビームｍのＳＩＮＲは、次のように与えられる。

ここで、ｐ_ｂｋｍ ^ｍＷ、ｈ_ｂｋｍ ^ｍＷは、それぞれ、ビームｍ上のＡＰｂとデバイスｋとの間の送信電力およびチャネル電力であり、Ｗ_ｍｗは、帯域幅である。チャネル電力ｈ_ｂｋｍ ^ｍＷは、ビームｍ上の送信ビーム幅と方向の関数であり、下記のとおりである。

ここで、ＰＬ_ｂｋｍは、ビームｍ上のＡＰｂとデバイスｋとの間のパスロスを示し、Ｇ_ｂ（θ_ｂｋｍ，β_ｂｋｍ）は、ＡＰｂとデバイスｋとの間のメイン送信ビーム利得であり、下記のようにモデル化される。

ここでεはサイドローブビームゲインである。式（２）において、Ｉ_ｂｋｍ ^ｍＷは、全てのＡＰｓｂ´≠ｂからＡＰｂに収容されるデバイスｋへの干渉電力であり、それらのサイドローブビーム利得に基づいて計算される。

したがって、ＡＰｂに収容されるデバイスｋの実現可能なレートは、次のとおりである。

ここで、ν＝｛Ｓｕｂ，ｍＷ｝（Ｓｕｂ６ＧＨｚまたはｍｍＷａｖｅ）である。デバイスのアプリケーションの低遅延要件の下では、デバイスからＡＰｓへの瞬時のＣＳＩフィードバックは想定されない。従って、ＡＰｓは達成可能なレート（式（５））を知ることなく割り当てを決定する必要がある。

インタフェースνのフレームｔにおけるデバイスｋへの送信パケット数を、ｌ_ｋ ^ν（ｔ）∈｛０，…，Ｌ_ｋ（ｔ）｝と表す。Ｌ_ｋ（ｔ）は、フレームｔにおけるキューに入れられたパケットの総数であるので、ｌ_ｋ ^ｓｕｂ（ｔ）＋ｌ_ｋ ^ｍＷ（ｔ）≦Ｌ_ｋ（ｔ）である。各インタフェース上において、デバイスｋの正常に受信できたパケット数Ω_ｋ ^ν（ｔ）は、ＡＰｂによりデバイスｋのＡＣＫフィードバックに基づいて下記のように計算できる。

ここで、ω_ｋｌ ^ν（ｔ）は、フレームｔにおけるインタフェースν上のパケットｌに対するデバイスｋからのフィードバックを示し、下記のとおりである。

更に、期間Ｔ_ｓのフレーム内において、インタフェースν上でデバイスｋにより正常に受信されたサイズｄビットのパケットの最大数は、

として与えられる。

ここで、ｒ_ｂｋ ^ν（ｔ）はＡＰにおいて未知なので、ｌ_{ｋ，ｍａｘ} ^νは、ＡＰにおいて未知である。従って、ｌ_ｋ ^ν（ｔ）≦ｌ_{ｋ，ｍａｘ} ^ν（ｔ）である場合、つまり、デバイスｋの割り当てられたサブチャネル又はビームにおいて、送信パケットの数がデバイスｋで受信し得るパケットの数よりも小さい場合において、これら全てのパケットは正常に受信され、それらのＡＣＫはＡＰにフィードバックされると想定する。しかし、ｌ_ｋ ^ν（ｔ）≧ｌ_{ｋ，ｍａｘ} ^ν（ｔ）である場合、ｌ_ｋ ^ν（ｔ）－ｌ_{ｋ，ｍａｘ} ^ν（ｔ）パケットはＮＡＣＫ状態になる。

上記に基づいて、下記のとおり、フレームｔまでのパケットロス発生を両インタフェースにわたって平均をとったものを、フレームｔにおけるデバイスｋのＰＬＲ（パケットロス率）と定義する。

ここで、

は、フレームτにおける両インタフェースにわたるパケット正常伝達レート（ＰＳＲ:Packet Successful Delivery Rate）を示す。各インタフェースにおけるフレームｔのデバイスｋのＰＬＲは下記のように更新される。

以下、本実施の形態に係る手法を詳細に説明する。

（マルコフ決定過程（ＭＤＰ）について）
ここでの目標は、各デバイスの個々のＰＬＲ制約を満たしながら、すべてのデバイスにわたって平均化された長期ＰＳＲを最大化（ここではρ_ｍａｘ）することである。この問題は、図６に示すように、状態空間、行動空間、遷移確率および報酬関数によって特徴づけられるＭＤＰとしてモデル化することができる。図５において、状態ｓ_ｔは、全てのデバイスに対する、ＰＬＲの満足レベル（及びＡＣＫフィードバック状態）である。行動ａ_ｔは、全てのデバイスに対する、インタフェース選択及びパケットスケジューリングである。本実施の形態では、状態ｓ（ｔ）、行動ａ（ｔ）を元に、報酬ｒ（ｔ）を得て、目的関数を最大化することで、行動の最適化を行う。

各ＡＰ（無線基地局）はインタフェース選択及びパケットスケジューリングの決定を行うエージェントである。各フレームｔにおいて、ＡＰは、現在の状態ｓ_ｔを知っている。状態ｓ_ｔは、当該ＡＰに関連するデバイスの現在のＰＬＲ満足レベルと前回のフレームｔ－１におけるそれらのフィードバック状態からなる。ｓ_ｔに基づいて、ＡＰは行動ａ_ｔを取る。すなわち、ＡＰは、現在のフレームｔにおける各デバイスの各インタフェースにおけるパケット数を決定し、環境から即時報酬ｒ_ｔを取得し、新たな状態ｓ_ｔ＋１に遷移する。

即時のＣＳＩやインタフェースの統計等の情報は未知なので、ＡＰは、遷移確率Ｐ（ｓ_ｔ＋１｜ｓ_ｔ，ａ_ｔ）の知識を有していない。本実施の形態では、この問題をＲＬ（強化学習）のフレームワークを用いて解決する。

（リスク回避強化学習：Risk-Averse Reinforcement Learning）
厳しい信頼性の要求を最もよく満足させるために、本実施の形態では、リスク回避平均化Ｑ学習（ＲＡＱＬ：Risk-Averse Average Q-learning）と呼ばれるＲＳＲＬ（Risk-Sensitive Reinforcement Learning）のアプローチを用いる。ＱＬのように期待されるリターンを最大化することを目標とする伝統的なＲＬ法と比較して、ＲＳＲＬはリスクの概念を導入しており、そのリスクは、報酬の分散とリンクしている。ＲＡＱＬは、更なる分散の減少を達成しており、それによりリスクを減少させる。

伝統的なＲＬのように目的関数として期待報酬をとることに代えて、目的関数として下記のような報酬の期待効用（expected utility）を用いる。

上記の式（１１）において、期待は、行動を選択するための確率論的ポリシーπ：Ｓ×Ａ→［０，１］、及び、両インタフェースにわたるチャネル実現ｈにわたるものである。テイラー展開をとることにより下記の式（１２）が得られる。

β＜０により、分散が最小となりつつ期待報酬が最大化されるので、目的関数がリスク回避になる。

なお、上記の式（１１）、式（１２）における記号の意味は下記のとおりである。

Ｊ_π：マルコフ決定過程における、ポリシーπによる平均効用関数（即時報酬ｒ_ｔの割引和）
Π：ポリシー（方策）
Ｅ_π，ｈ：ポリシーπ、無線チャネル（伝搬路等）の状態ｈの下での期待値
ｒ_ｔ：過程ｔにおける即時報酬値
β：パラメータ
Ｖａｒ［］：［］の分散
Ｏ（）：（）のオーダー
後述するように、本実施の形態では、式（２２）を更新ルールとして使用することにより、複数Ｑテーブルを同時に学習する。そして、真の分散の近似として、これらＱテーブルのサンプル分散が使用される。この分散から、リスク回避＾Ｑテーブルが計算され、行動選択に使用される。

（ＲＡＱＬベースのインタフェース選択及びパケットスケジューリング法）
次に、本実施の形態においてＡＰ（無線基地局１００）が実行する、ＲＡＱＬに基づくアルゴリズムを詳細に説明する。状態空間と行動空間は次のように定義される。

状態：ｓ（ｔ）は、下記の式（１３）、式（１４）のとおり、フレームｔにおける全てのデバイスｋ∈Κに対する、ＰＬＲの現在のＱｏＳ満足レベル、及び、フレームｔ－１に送信されたパケットに対する直近のＡＣＫフィードバックである。ｓ（ｔ）にＡＣＫフィードバックを含まないこととしてもよい。

ここで、

である。

行動：ａ（ｔ）は、各デバイスのパケットが送信されるべきインタフェース選択を示す。行動空間サイズの爆発を回避して、提案手法をスケーラブルにするために、次に説明するように、本実施の形態では、インタフェース選択タスクとパケットスケジューリングタスクを、デバイスｋに対する３つの行動ａ_ｋ（ｔ）に集約している。ＡＰは、即時ＣＳＩの知識を持たないが、散発的なフィードバックにより、平均パスロスあるいは平均ＳＩＮＲなどの長期ＣＳＩが既知であると仮定することは適切である。

従って、各ＡＰは、各デバイスの平均ＣＳＩに基づいて、サブチャネル及びビーム割り当てを行うことができる。この場合、全てのサブチャネルは各デバイスにおいて同等であり、従って、ＡＰは各デバイスに割り当てられる各サブチャネルをランダムに選択することができる。そして、各ＡＰのスケジューリングタスクは、各デバイスにおけるサブチャネル毎に送信されるパケット数を決定することに相当する。フレーム長Ｔ_ｓの期間におけるＡＰｂから送信されデバイスｋにより正常に受信されるパケットの最大数は、下記の式（１５）のように推定できる。

^～ｒ_ｂｋ ^νは、インタフェースνにおけるデバイスｋの既知の平均レートである。各行動ａ_ｋ（ｔ）は、下記のとおりである。

ａ_ｋ（ｔ）＝０：Ｓｕｂ－６ＧＨｚインタフェースのみが使用され、送信パケット数は、

である。

ａ_ｋ（ｔ）＝１：ｍｍＷａｖｅインタフェースのみが使用され、送信パケット数は、

である。

ａ_ｋ（ｔ）＝２：Ｓｕｂ－６ＧＨｚインタフェースとｍｍＷａｖｅインタフェースの両方が使用されるが、高データレートを利用して送信パケット数を最大化するようにｍｍＷａｖｅの優先度を高くする。

最後に、サブチャネルとビームの数の制約の下で、全てのデバイスに対する行動ａ（ｔ）が下記の式（２０）のとおりに与えられる。

報酬：ｒ（ｓ（ｔ），ａ（ｔ））は、複数デバイスにわたる平均ＰＳＲにより与えられる、フレームｔにおける行動ａ（ｔ）の実行により達成される即時報酬を表す。特に、この報酬関数は、式（１４）で規定されるリスク状態も考慮している。ＡＰが式（６）におけるΩ_ｋ ^ν（ｔ）を取得するためのＡＣＫ／ＮＡＣＫフィードバックに基づいて、報酬は下記の式（２１）により計算される。

式（２１）の各記号の意味は下記のとおりである。

ｒ（ｓ（ｔ），ａ（ｔ））：過程ｔにおける即時報酬値
Ω_ｋ ^ｓｕｂ（τ）：Ｓｕｂ６ＧＨのＩ／Ｆで送信が成功したパケット数
Ω_ｋ ^ｍＷ（τ）：ミリ波のＩ／Ｆで送信が成功したパケット数
ｌ_ｋ ^ｓｕｂ（τ）：Ｓｕｂ６ＧＨのＩ／Ｆで送信されるパケット数
ｌ_ｋ ^ｍＷ（τ）：ミリ波のＩ／Ｆで送信されるパケット数
ｕ_ｋ ^ｓｕｂ（ｔ）：Ｓｕｂ６ＧＨのＩ／Ｆでのパケットロス率ρが要求品質ρ_ｍａｘに達しているかどうかで変わる変数
ｕ_ｋ ^ｍＷ（ｔ）：ミリ波のＩ／Ｆでのパケットロス率ρが要求品質ρ_ｍａｘに達しているかどうかで変わる変数
式（１４）から明らかなように、ｕ_ｋ ^ν（ｔ）＝０である場合、すなわち、デバイスｋが、式（１４）におけるＰＬＲを満足しないリスク状態にある場合、報酬にはペナルティーが科せられる。

本実施の形態における、ＲＡＱＬベースのインタフェース選択及びパケットスケジューリング方法は図７に示すアルゴリズム１により実行される。つまり、無線基地局１００は、例えばプログラムをＣＰＵで実行することで本アルゴリズムを実行する。各記号の意味は下記のとおりである。

ε：探索率
λ：減衰率
Ｉ：Ｑテーブルの枚数
λ_ｐ：リスク制御パラメータ
Ｑ：Ｑテーブル
Ｖ：Ｑテーブル更新回数
α：学習率
アルゴリズム１において、最初に、ＡＰは、状態ｓの下で各行動ａの選択数をカウントするテーブルＶとともにＩ個のＱテーブルを初期化する。対応する学習率αもまた０に初期化され、ランダム状態からアルゴリズムが開始する（１～２行）。

各フレームｔにおいて、Ｑテーブルがランダムに選択され、後述する式（２４）によりリスク回避＾Ｑテーブルを計算するためにＱテーブルが使用される（３～５行）。従来のＱＬと異なり、ＲＡＱＬでは、Ｑ関数を下記の式（２２）により更新する。

式（２２）における「ｘ_０」は定数であり、例えばｘ_０＝－１と設定される。α（ｓ（ｔ），ａ（ｔ））は、状態行動ペア（ｓ（ｔ），ａ（ｔ））の学習率であり、γは、減衰率であり、ｕ（ｘ）は、単調増加凹効用関数であり、以下で表される。

βは、Risk Averseな特性を持たすためのパラメータであり、ここではβ＜０である。リスク回避＾Ｑテーブルは、下記の式（２４）により計算される。

λ_ｐは、リスクコントロールパラメータであり、^－Ｑ（ｓ，ａ）＝（１／Ｉ）Σ_ｉ＝１ ^ＩＱ^ｉ（ｓ，ａ）は平均Ｑテーブルである。

次に、現在の状態と探索率εが与えられると、εグリーディー戦略により行動ａ（ｔ）が選択される。ＡＰは、選択された行動に基づきパケットを送信し、即時報酬（式（２１））を受け取る（６～９行）。そして、環境が新たな状態に遷移する（１０～１６行）。このプロセスが、フレームの最大数Ｔに達するまで繰り返される。

（ハードウェア構成例）
無線基地局１００と無線端末２００はいずれも、例えば、コンピュータにプログラムを実行させることにより実現することも可能である。このコンピュータは、物理的なコンピュータであってもよいし、クラウド上の仮想マシンであってもよい。以下、無線基地局１００と無線端末２００を総称して通信装置と呼ぶ。

すなわち、通信装置は、コンピュータに内蔵されるＣＰＵやメモリ等のハードウェア資源を用いて、通信装置で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体（可搬メモリ等）に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。

図８は、上記コンピュータのハードウェア構成例を示す図である。図８のコンピュータは、それぞれバスＢＳで相互に接続されているドライブ装置１０００、補助記憶装置１００２、メモリ装置１００３、ＣＰＵ１００４、インタフェース装置１００５、表示装置１００６、入力装置１００７、出力装置１００８等を有する。なお、通信装置において、表示装置１００６を備えないこととしてもよい。

当該コンピュータでの処理を実現するプログラムは、例えば、ＣＤ－ＲＯＭ又はメモリカード等の記録媒体１００１によって提供される。プログラムを記憶した記録媒体１００１がドライブ装置１０００にセットされると、プログラムが記録媒体１００１からドライブ装置１０００を介して補助記憶装置１００２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１００１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１００２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

メモリ装置１００３は、プログラムの起動指示があった場合に、補助記憶装置１００２からプログラムを読み出して格納する。ＣＰＵ１００４は、メモリ装置１００３に格納されたプログラムに従って、通信装置に係る機能を実現する。インタフェース装置１００５は、ネットワークに接続するためのインタフェースとして用いられる。表示装置１００６はプログラムによるＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）等を表示する。入力装置１００７はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置１００８は演算結果を出力する。

（実施の形態の効果）
本実施の形態に係る技術により、環境の変化に追随しつつ所望の通信品質と無線リソースの利用効率の向上とを両立させるための技術を提供することができる。

（付記）
本明細書には、少なくとも下記各項の通信装置、及び通信方法が開示されている。
（第１項）
複数の無線インタフェースを利用して無線通信を行う通信装置であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習部と、
前記強化学習部により決定された数のパケットを前記デバイスに送信する送信部と
を備える通信装置。
（第２項）
前記強化学習部は、各無線インタフェースでのパケットロス率に基づく満足度レベルを状態とし、各デバイスが使用する無線インタフェースの組み合わせ及び各無線インタフェースで送信するパケットの数を行動とするリスク回避型の強化学習により、状態に対する行動を学習する
第１項に記載の通信装置。
（第３項）
前記強化学習部は、パケット送信先の複数のデバイスからフィードバックを受信する受信部を更に備え、
前記強化学習部は、前記フィードバックに基づいて、前記パケットロス率を算出する
第２項に記載の通信装置。
（第４項）
前記強化学習部は、全デバイスに対する平均パケット受信成功率と、ＱｏＳ目標値が未達成の状態であるリスク状態によるペナルティーに基づいて即時報酬を計算し、過去の即時報酬を用いて、高リスク行動に対する報酬の低下を反映するように、平均効用関数を最大化するポリシーを算出する
第１項ないし第３項のうちいずれか１項に記載の通信装置。
（第５項）
前記通信装置は、第１無線インタフェースと、前記第１無線インタフェースよりも高いデータレートによる通信を行う第２無線インタフェースを備え、
前記強化学習部により選択される行動は、前記第１無線インタフェースのみを使用、前記第２無線インタフェースのみを使用、及び、前記第２無線インタフェースを優先的に使用、の３つの行動のうちのいずれかの行動である
第１項ないし第４項のうちいずれか１項に記載の通信装置。
（第６項）
第１項ないし第５項のうちいずれか１項に記載の通信装置と、前記デバイスを含む通信システム。
（第７項）
複数の無線インタフェースを利用して無線通信を行う通信装置が実行する通信方法であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習ステップと、
前記強化学習ステップにより決定された数のパケットを前記デバイスに送信する送信ステップと
を備える通信方法。

以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１００無線基地局
１０１アンテナ
１１０通信Ｉ／Ｆ部
１２０制御部
１３０無線通信部
１３１受信部
１３２無線通信信号生成部
１３５ＲＦ部
１４０スケジューラ部
１４１通信品質測定部
１４２全体無線リソース割当算出部
１４３個別無線リソース割当算出部
１５０強化学習部
１５１Ｑテーブル管理部
１５２状態算出部
１５３報酬算出部
１５４リスク評価部
２００無線端末
１０００ドライブ装置
１００１記録媒体
１００２補助記憶装置
１００３メモリ装置
１００４ＣＰＵ
１００５インタフェース装置
１００６表示装置
１００７入力装置
１００８出力装置

Claims

複数の無線インタフェースを利用して無線通信を行う通信装置であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習部と、
前記強化学習部により決定された数のパケットを前記デバイスに送信する送信部と
を備える通信装置であり、
前記強化学習部は、各無線インタフェースでのパケットロス率に基づく満足度レベルを状態とし、各デバイスが使用する無線インタフェースの組み合わせ及び各無線インタフェースで送信するパケットの数を行動とするリスク回避型の強化学習により、状態に対する行動を学習する
通信装置。
前記強化学習部は、パケット送信先の複数のデバイスからフィードバックを受信する受信部を更に備え、
前記強化学習部は、前記フィードバックに基づいて、前記パケットロス率を算出する
請求項１に記載の通信装置。
複数の無線インタフェースを利用して無線通信を行う通信装置であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習部と、
前記強化学習部により決定された数のパケットを前記デバイスに送信する送信部と
を備える通信装置であり、
前記強化学習部は、全デバイスに対する平均パケット受信成功率と、ＱｏＳ目標値が未達成の状態であるリスク状態によるペナルティーに基づいて即時報酬を計算し、過去の即時報酬を用いて、高リスク行動に対する報酬の低下を反映するように、平均効用関数を最大化するポリシーを算出する
通信装置。
複数の無線インタフェースを利用して無線通信を行う通信装置であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習部と、
前記強化学習部により決定された数のパケットを前記デバイスに送信する送信部と
を備える通信装置であり、
前記通信装置は、第１無線インタフェースと、前記第１無線インタフェースよりも高いデータレートによる通信を行う第２無線インタフェースを備え、
前記強化学習部により選択される行動は、前記第１無線インタフェースのみを使用、前記第２無線インタフェースのみを使用、及び、前記第２無線インタフェースを優先的に使用、の３つの行動のうちのいずれかの行動である
通信装置。
請求項１ないし４のうちいずれか１項に記載の通信装置と、前記デバイスを含む通信システム。
複数の無線インタフェースを利用して無線通信を行う通信装置が実行する通信方法であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習ステップと、
前記強化学習ステップにより決定された数のパケットを前記デバイスに送信する送信ステップと
を備える通信方法であり、
前記強化学習ステップにおいて、前記通信装置は、各無線インタフェースでのパケットロス率に基づく満足度レベルを状態とし、各デバイスが使用する無線インタフェースの組み合わせ及び各無線インタフェースで送信するパケットの数を行動とするリスク回避型の強化学習により、状態に対する行動を学習する
通信方法。
複数の無線インタフェースを利用して無線通信を行う通信装置が実行する通信方法であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習ステップと、
前記強化学習ステップにより決定された数のパケットを前記デバイスに送信する送信ステップと
を備える通信方法であり、
前記強化学習ステップにおいて、前記通信装置は、全デバイスに対する平均パケット受信成功率と、ＱｏＳ目標値が未達成の状態であるリスク状態によるペナルティーに基づいて即時報酬を計算し、過去の即時報酬を用いて、高リスク行動に対する報酬の低下を反映するように、平均効用関数を最大化するポリシーを算出する
通信方法。
複数の無線インタフェースを利用して無線通信を行う通信装置が実行する通信方法であって、
あるデバイスへのパケットを送信する無線インタフェースと、当該無線インタフェースにより前記デバイスに送信するパケットの数を、リスク回避型の強化学習を用いて決定する強化学習ステップと、
前記強化学習ステップにより決定された数のパケットを前記デバイスに送信する送信ステップと
を備える通信方法であり、
前記通信装置は、第１無線インタフェースと、前記第１無線インタフェースよりも高いデータレートによる通信を行う第２無線インタフェースを備え、
前記強化学習ステップにより選択される行動は、前記第１無線インタフェースのみを使用、前記第２無線インタフェースのみを使用、及び、前記第２無線インタフェースを優先的に使用、の３つの行動のうちのいずれかの行動である
通信方法。