摘要
为了提供一个各方面更优的全自动天面自适应调整方案,在降低维护成本的同时实现更优覆盖效果,从5G天面的信号辐射方向调整方法入手,对5G基站自适应天馈系统的智能调节系统设计关键技术进行研究,提出对基于深度强化学习的基站天面自适应调节策略。基于此设计了5G基站自适应天馈系统,可以使用电信公司RSRP信号覆盖地图作为数据源,获取当前状态的观测值并自动分析数据,对天面进行自动调整。在虚拟环境下,对基于强化学习的系统进行了模拟搭建与仿真训练,结果符合预期。
近年来,中国在第五代移动通信技术的研发上抢占先
为了提供一个各方面都更优的全自动天面自适应调整方案,让天面调整优化策略能够完全脱离人工干涉,并在最大限度降低维护成本的同时实现更优覆盖效果,研究设计一个5G基站自适应天馈系统,它基于深度强化学习技
在5G场景下,基站天面的角度可以进行数字程
电信公司提供了实时的参考信号接收功率(reference signal receiving power, RSRP)信号覆盖地图。5G场景下,服务区内的用户被接入移动通信网络后,移动终端将采集信道特征(信号强度、比特率、时延、丢包率等)反馈给接入站。接入站通过移动通信基站定位技术算出用户坐标,并按地理区域划分用户集,将采集到的用户数据分组汇集,得到实时的信号覆盖情况分布数据。通过上述手段采集用户信号质量RSRP值,以∆t为更新间隔,在地图上对应的位置上以不同的颜色呈现当前时刻各位置的信号覆盖情况。
如

图1 电信公司RSRP信号覆盖地图
Fig. 1 RSRP signal coverage map of Telecom company
用不同的颜色表示出该
, | (1) |
其中:代表RSRP信号覆盖等级为的方格数量,是从好到坏分成7个等级的RSRP取值范围,其目的是对覆盖较好的情况给予一个正向激励,对覆盖较差的情况给予负向激励。同时,环境观测值也可以抽象成小区内不同颜色的格子分布,可以当作一张灰度图进行处理。因此,整个过程也可以被描述为:根据当前时刻小区的灰度图特征,预测如何对小区内所属天面的角度进行调整,从而让整个小区的覆盖情况趋向于最好。
在处理天馈系统这种复杂的合作-竞争环境时,不妨引入多智能体深度确定性策略梯度(MADDPG)算法的Actor-Critic框架设
除了小区内的多智能体问题,相邻小区之间也是合作-竞争共存的关系。在MADDPG中,Critic网络负责集中式训练,需要区域内的全局信息;Actor网络负责分布式执行,只需要智能体自己的环境观测数据。因此,Actor与Critic网络可以传入不同的观测数据,不妨让Critic网络使用小区内的环境状态信息,让Actor网络不再局限于智能体所属的小区,而是使用智能体潜在覆盖范围内的状态信息。一个天面的潜在覆盖区域包含它在调整过程中所有可能覆盖的范围,以潜在覆盖区域作为Actor网络的输入,就可以让智能体执行决策时考虑到跨区域的信息。
在此,给出基于MADDPG自适应优化系统的流程总览,如

图2 基于MADDPG的5G基站自适应天馈系统部署流程总览
Fig. 2 An overview of the deployment process of 5G base station adaptive antenna feed system based on MADDPG
的训练过程可以像单智能体算法一样,直接用一个共享的经验回放池更新所有智能体的Actor与Critic网络。整个过程可以是单线程枚举的。每次迭代中,首先枚举所有智能体,让它们获取自己的环境观测值并执行确定性行为预测。执行所有智能体的行为后,对环境的更新就进入下一个状态,并将本次交互信息放入全局的经验回放池中。之后再次枚举每个智能体,为它们随机取出一批经验数据进行训练,然后进入下一次迭代。待环境状态稳定后,判断算法是否收敛,若未收敛,则重置虚拟环境继续进行预训练。
在多智能体强化学习中,Distributed-
MADDPG允许每个智能体关注毫不相关的局部环境状态,使用完全独立的回报函数,并不要求对环境状态进行统一化处理。不过,为了加速整个算法的收敛速度,让虚拟环境下训练好的神经网络能够快速部署到业务场景中,依然需要对每个智能体的观测值进行归一化处理。
在天面获取状态的局部观测值时,可能会因为基站参数、地理环境等的影响,得到一个与其他天面维度不同的张量。同时,基于地面的RSRP覆盖情况获得,其分布情况并不能很好地对应天面的角度朝向。所以,需要从天面的角度出发对环境状态进行采样,以方位角为横轴、俯仰角为纵轴,从而保证状态分布的一致性。如

图3 归一化采样示意图
Fig. 3 Schematic diagram of normalized sampling
该采样过程有2个基本前提。首先,单个运营商的基站都是同一规格,各天面的可调范围基本一致。其主要影响因素是基站高度与预制倾角,因此可以通过分割角度的方式进行采样。另一方面,应在最远覆盖范围内进行采样,也就是说可调俯仰角的上限应低于天面在可容忍衰减区间内覆盖到地面的角度。如果超过该角度,则天面的信号将在严重衰减后射到地面,此时可认为天面对地面设备无覆盖。
在归一化采样时,根据天面不同角度到地面的投影来采集样本点,很容易导致部分样本点采到空值。在预训练过程中,无论是在虚拟环境还是真实业务场景下,RSRP覆盖地图都可能存在大量无法获得采样的空白值区域,归一化采样将不可避免地取得部分空值。于是,希望找到一种方法来填补这些空白样本。借鉴邻插值的思想,对无法采样的点使用二维线性探测的方式进行修补。

图4 线性探测补点的代码流程
Fig. 4 Code flow of linear detection complement
前面详细描述了整个系统的设计与算法训练过程,在此将给出系统部署到真实业务场景下的流程,以及基于带约束的马尔可夫决策问题(constraint markov decision process, CMDP)的站间通信过程。
为了保证系统的鲁棒性,提出先在虚拟环境预训练,再将网络参数迁移到业务场景的系统设计。在部署到业务场景之前,首先需要根据真实的小区环境,建立对应的虚拟环境模型。该虚拟环境建模需要考虑真实的基站布局、信道衰减以及空间环境影响,并提供合理的干扰仿真机制。基于真实环境,为该小区搭建专属的MADDPG网络,每一个基站的3个天面各拥有一张Actor-Critic网络,每个基站将在自己的移动边缘计算节点上同时部署3个天面的强化学习算法。强化学习的训练过程是先探索再学习。为了避免在部署前期出现过于激进的探索,可以借鉴迁移学习的思想,让算法先在已建好模的虚拟环境中训练,然后取收敛到趋近平稳状态的神经网络梯度值作为初始值,部署到真实环境中,让预训练后的网络指导现实中的天面调整,同时也在真实环境下执行下一步训练过程。
研究将天馈系统按地理位置与行政关系划分成多个小区,将单一小区内部的信号覆盖优化问题建模成多智能体的马尔可夫决策问
这里,虚拟环境基于电信公司RSRP信号覆盖地图。虚拟环境包含一个区域,区域内有M个基站,每个基站上有3个天面,每个天面有其垂直覆盖角度、水平覆盖角度、俯仰角调整范围、方位角调整范围等参数,每个基站有其高度、位置等参数。本系统以区域为单位进行训练,区域内的每一个天面都是单独的智能体,因此智能体的数量有个。参考RSRP信号覆盖地图,以 m为每个格子的边长,整个区域拥有个格子,每个格子的颜色代表该100
虚拟环境参考OpenAI Gym的格式设计接口,执行的行为是调整方位角。与调整俯仰角 。,要达成的状态空间是重组成一维数据后的RSRP覆盖地图。可以通过“reset”接口来重置环境,通过“step”接口来传入行为(需要指定作为行动者的天面)并获得执行操作后的环境状态。
为了模拟真实的城市环境,使用瑞利衰减模

图5 虚拟环境搭建与基于Tkinter的可视化界面绘制
Fig. 5 Virtual environment construction and visual interface drawing based on Tkinter
实验基于 python 3.9 下的 pytorch 1.8 环境,在 macOS Big Sur 11.2(处理器 Intel Core i9 9880H,内存 16 GB 2667 MHz DDR4,显卡 AMD Radeon Pro 5500M 8 GB)平台完成开发与可执行性调试,并在Windows10 20H2(处理器 Intel Xeon Gold 6133,内存256 GB DDR4 ECC,显卡 GTX 1070ti 8 GB×2)平台下使用 cuda_11.1 进行模型训练。
在多智能体强化学习环境中,神经网络的尺寸相对较小,主要的时间开销来自于环境更新与数据预处理过程。尤其是 CMDP 求解中的策略采样算法,将在一次更新中花费大量时间,多次进行环境状态转移与线性探测补点操作。上述操作都是基于 CPU 的。选择 40 核 80 线程的双路 Intel Xeon Gold 6133 以提供较好的 CPU 计算能力。在显卡方面,考虑到这并非核心需求,因此选用了2张 GTX 1070ti 以提供 16 GB 的显存容量。为了直观表现算法的有效性,可以通过可视化的方式呈现充分训练后算法在环境中的预测表现。如果取5 000次经历后的算法数据,即50×1

图6 充分训练的算法在10交互中环境的更新情况
Fig. 6 Environment update of the fully trained algorithm in ten interactions
结合电信公司提供的基站信号覆盖地图中收集到的实时覆盖数据,研究了5G基站自适应天馈系统设计相关问题。通过改进MADDPG算法和修改Critic网络显著以降低整个算法的空间复杂度;为自适应天馈系统设计了一套基于人工智能算法的调度方案,从而实现真实业务场景下的CMDP策略采样。在系统设计中,为每个天面划分潜在的覆盖区域,将该区域的RSRP分布作为每一个状态下的观测值,研究了天馈系统在各观测值下的信号辐射方向调整策略。针对5G环境,在多智能体强化学习方面设计了一套环境观测值的归一化采样方案,让预训练出的算法模型可以迁移到真实业务场景下;提出线性探测补点的方法,从而避免观测值中出现空值点,保证预测的可靠性。所用智能调节算法能够有效避免智能体的激进探索,在大幅度提高算法收敛性能的同时,降低了算法的空间复杂性,可为整个系统在业务场景下的部署提供理论支撑。
参考文献
周俊, 权笑, 马建辉. 5G无线优化面临的挑战及应对策略[J]. 电信科学, 2020, 36(1): 58-65. [百度学术]
Zhou J, Quan X, Ma J H. Challenge and strategy of 5G radio optimization[J]. Telecommunications Science, 2020, 36(1): 58-65. (in Chinese) [百度学术]
赵国锋, 陈婧, 韩远兵, 等. 5G移动通信网络关键技术综述[J]. 重庆邮电大学学报(自然科学版), 2015, 27(4): 441-452. [百度学术]
Zhao G F, Chen J, Han Y B, et al. Prospective network techniques for 5G mobile communication: a survey[J]. Journal of Chongqing University of Posts and Telecommunications (Natural Science Edition), 2015, 27(4): 441-452. (in Chinese) [百度学术]
杜威, 丁世飞. 多智能体强化学习综述[J]. 计算机科学, 2019, 46(8): 1-8. [百度学术]
Du W, Ding S F. Overview on multi-agent reinforcement learning[J]. Computer Science, 2019, 46(8): 1-8. (in Chinese) [百度学术]
殷昌盛, 杨若鹏, 朱巍, 等. 多智能体分层强化学习综述[J]. 智能系统学报, 2020, 15(4): 646-655. [百度学术]
Yin C S, Yang R P, Zhu W, et al. A survey on multi-agent hierarchical reinforcement learning[J]. CAAI Transactions on Intelligent Systems, 2020, 15(4): 646-655. (in Chinese) [百度学术]
Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529-533. [百度学术]
Goodfellow I, Bengio Y, Courville A, et al. Deep learning [M]. US:MIT press Cambridge, 2016. [百度学术]
Littman M L. Markov games as a framework for multi-agent reinforcement learning [J]. Machine Learning Proceedings, 1994: 157-163. [百度学术]
Foerster J N, Assael Y M, de Freitas N, et al. Learning to communicate with deep multi-agent reinforcement learning[EB/OL]. 2016: arXiv: 1605.06676. https://arxiv.org/abs/1605.06676. [百度学术]
Hong Z W, Su S Y, Shann T Y, et al. A deep policy inference Q-network for multi-agent systems[EB/OL]. 2017: arXiv: 1712.07893. https://arxiv.org/abs/1712.07893. [百度学术]
Hessel M, Modayil J, Van Hasselt H, et al. Rainbow: combining improvements in deep reinforcement learning[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2018, 32(1): 3215-3222. [百度学术]
Foerster J, Nardelli N, Farquhar G, et al. Stabilising experience replay for deep multi-agent reinforcement learning[C]//Proceedings of the 34th International Conference on Machine Learning - Volume 70. August 6 - 11, 2017, Sydney, NSW, Australia. New York: ACM, 2017: 1146–1155. [百度学术]
Babaeizadeh M, Frosio I, Tyree S, et al. GA3C: GPU-basedA3C for deep reinforcement learning[EB/OL]. 2016: arXiv: 1611.06256. https://arxiv.org/abs/1611.06256. [百度学术]
Abbas N, Zhang Y, Taherkordi A, et al. Mobile edge computing: a survey[J]. IEEE Internet of Things Journal, 2018, 5(1): 450-465. [百度学术]
高松涛, 程日涛, 邓安达. 5G天馈系统下倾角设置原则研究[C]//5G网络创新研讨会(2020)论文集. 北京:移动通信,2020: 272-275. [百度学术]
Gao ST , Cheng R T , Deng A D . Research on setting principle of dip angle of 5G antenna feed system [C]//5G Network Innovation Seminar (2020). Beijing, China: Mobile Communications, 2020: 272-275. (in Chinese) [百度学术]
Gupta A, Jha R K. A survey of 5G network: architecture and emerging technologies[J]. IEEE Access, 2015, 3: 1206-1232. [百度学术]
Galindo-Serrano A, Giupponi L. Distributed Q-learning for aggregated interference control in cognitive radio networks[J]. IEEE Transactions on Vehicular Technology, 2010, 59(4): 1823-1834. [百度学术]
Sklar B. Rayleigh fading channels in mobile digital communication systems Part II: Mitigation[J]. IEEE Communications Magazine, 1997, 35(7): 102-109. [百度学术]