无人机辅助空天地一体化网络:近期学习算法的技术综述
本文回顾和分析了一种名为“空天地一体化网络”(SAGIN)的新型网络范式,其中无人机(UAVs)发挥着关键作用。SAGIN利用空间、空中和地面组件,通过优化无人机在其中的轨迹规划、部署和资源分配,以满足关键性能要求,如吞吐量、覆盖范围、公平性和系统负载。
SAGIN 概述
SAGIN 结合了地球同步(GEO)、中地球轨道(MEO)和低地球轨道(LEO)卫星、高空伪卫星(HAPS/LAPS)系统以及地面网络(如蜂窝网络),为用户提供按需网络接入,特别是在未服务区、服务不足区或恶劣及过载条件下。无人机作为空中基站(BS),通过其机动性显著提升 SAGIN 的性能和韧性。
问题陈述
本文构建了一个通用的无人机辅助 SAGIN 优化问题,考虑了二维(2D)和三维(3D)无人机轨迹,并目标最大化一个预先定义的奖励函数,该函数结合了用户公平性、基站负载等因素。优化问题被解耦为无人机轨迹设计和信道分配两个子问题。
基于SAGIN的强化学习
本文重点讨论了强化学习(RL)和粒子群优化(PSO)算法在 SAGIN 中的应用。RL 算法因其适应动态环境、复杂决策能力和从经验中学习的能力而被选中,而 PSO 则因其基于群体的优化、全局和局部搜索的平衡、简单性和效率而被选中。
Q-学习算法
Q-学习是一种无模型、基于价值和离线策略的强化学习算法,通过迭代更新状态-动作对的 Q 值来最大化累积奖励。研究展示了 Q-学习在无人机轨迹设计和路径规划中的应用,以满足 QoE 要求并实现系统性能目标,如最大化覆盖范围和吞吐量、最小化干扰以及优化 QoE。
MAB 算法
多臂老虎机(MAB)算法通过选择动作并观察其结果来学习最优策略,通常用于解决资源分配问题。研究展示了 MAB 在无人机网络中的应用,例如抗干扰信道选择、无人机卸载任务和 NOMA 网络中的资源管理。
深度强化学习
深度强化学习(DRL)算法结合了强化学习和函数逼近,使用深度神经网络(DNNs)来近似 Q 值函数。研究展示了 DRL 在 SAGIN 中的应用,例如轨迹设计、资源管理和应急通信。
基于满意度的学习
基于满意度的学习方法旨在满足系统要求,而不是最大化奖励函数。研究展示了基于满意度的学习方法在无线网络中的资源管理、无人机放置和 SAGIN 联合资源管理和三维无人机轨迹设计中的应用。
PSO for SAGIN
粒子群优化(PSO)是一种基于种群的启发式算法,通过粒子之间的合作与竞争在复杂系统中寻找最佳解。研究展示了 PSO 在无人机部署、轨迹设计和资源分配中的应用,例如最大化覆盖概率、满足用户数量和最小化能耗和延迟。
仿真结果
仿真结果表明,在大多数情况下,三维基于满意度的学习算法(3D Satisfaction-CA)优于其他方法,在用户数量、中断用户、平均负载、公平性和平均奖励等方面表现最佳。二维方法在无人机数量较少时表现较好,但随着用户数量的增加,三维方法的优势更加明显。
结论
本文为无人机辅助 SAGIN 提供了设计和部署指南,并讨论了开放性挑战,例如无人机网络的详细建模、无人机在 SAGIN 中的角色变化、目标函数和约束的设置以及将无人机集成到太空网络和电信网络中的挑战。未来研究方向包括扩展系统模型、改进 DRL 算法、结合 PSO 与其他方法以及考虑更复杂的场景和应用。
摘要一种名为“空天地一体化网络”(SAGIN)的新型网络范式。无人机(UAVs)在SAGIN中发挥着关
I. 引言近期的非静止轨道(NGSO)卫星网络、空中和地面网
FIGURE 1.农村/偏远地区和功能故障/超载的陆地网络。在这种情况下,无人机被视为空中基站。
。[9],[10]这些挑战在文献中尚未得到系统地解决。最近的调查论文如表所示1不涵盖SAGIN系统模型的
挑战,例如[14],[15],[16],[17],[18],[19],[20],这些是基于连续凸近似、基于惩罚的算法以及针对通用和单个无人机
问题。[23],[24]在用户层面做出的一些假设可能与现实相去甚远,例如统计用户和固定的用户-基站关联
IV. 基于SAGINS的强化学习RL是一种基于反馈的机器学习(ML)技术,其中智能u=x t y t h t( ( )
体通过选择动作并观察其结果来学习与环境交互。[49],[50]理论上,强化学习算法使用由环境和一系列组
wherekas[47]time , otherwiseBCK) = 0.
∑)∑)为了找到基座(BSs)的负载,我们使用定点迭代。∈¯2
法之一。[49],[54]. 在这方面,我们打算对Q学习算法在无人机系统中的应用进行综述。为了更好地理解其
in[25]解决SAGIN(卫星接入网)的联合骨干网和接入链路优化问题。通过卫星-基站回程链路中的卫星-基
算法3在多智能体环境中呈现DQN方法。bb N,;w eval,−.
19:20:21:end for
图5。algorithm.
如所述。(5)此外,随着用户数量的增加,每基站的平均负载增加,从而导致掉线用户数量上升。然而,对
in(7)随着用户数量的增加,三维满意度-CA方案在平均公平性和负载方面表现出优越性能,与其他方法相比
图15。4个SBS系统和150名用户。
FIGURE 18.与4架无人机、4套SBS系统及300名用户。
IX. 结论将无人机集成到太空网络和电信网络上面临着复杂性、
2020, Art. no. 8820284, doi:10.1155/2020/8820284[40] C.-Q. 戴,X. 李, 和 Q. 陈, “智能协调任务调度