王克文1, 2,张维庭*3,孙童3 (1.北京交通大学,电气工程学院,北京100044;2.国能新朔铁路有限责任公司,内蒙古鄂尔多斯010300;3.北京交通大学,电子信息工程学院,北京100044) 摘要:针对快速响应和大范围覆盖的应用场景需求,如卫星数据处理和车辆远程控制,本文聚焦于采用分层控制和人工智能技术的方法,设计一种空天地一体化算力网络资源调度机制。将空天地网络划分为三个域,分别部署域控制器,负责本地域的资源管理;同时,通过卫星和无人机的覆盖范围进行地面区域划分,确保地面区域能够得到有效的服务保障,以实现高效地数据传输和任务处理。为了优化空天地算力网络资源利用率,引入多智能体强化学习算法,对不同场景下产生的计算任务进行实时处理;将每个域控制器视为具备任务调度和资源分配能力的智能体,在满足时延和能耗约束下,通过协同学习和分布式决策实现计算任务智能调度和高效分配。实验结果表明,该机制能够有效提高资源利用率和任务响应时间。 关键词:空天地一体化;算力网络;任务调度;资源分配;多智能体强化学习doi:10.19678/j.issn.1000-3428.0069471 Resource Scheduling MechanismforSpace-Air-GroundIntegrated Computing Power Networks Wang Ke-Wen1, 2, Zhang Wei-Ting*3,Sun Tong3(1. School of Electronics and Electrical Engineering, Beijing Jiaotong University, Beijing 100044, China;2.Guoneng Xinshuo Railway Co., LTD., Ordos 010300, China;3. School ofElectronic and Information Engineering,Beijing JiaotongUniversity, Beijing 100044, China) 【Abstract】In response to the demand for fast response and large-scale coverage of applicationscenarios, such as satellite data processing and vehicle remote control, this paperfocuses onutilizinghierarchical control and artificial intelligence technology to design a resource schedulingmechanismforspace-air-ground integrated computingpowernetworks. Divide the air, space,andground networksinto three domains, and deploy domain controllers respectively to be responsiblefor resource management in thecorrespondinglocal domain.Meanwhile, the areas are dividedthrough the coverage of satellites and drones to ensure that the areas can achieve effective serviceguarantees,and efficient data transmissionand task processing.Aimingtooptimize the resourceutilization of air-space-groundintegratedcomputing power networks, a multi-agent reinforcementlearning-based schedulingalgorithm isproposed, in whicheach domain controlleris consideredasan agent with task scheduling and resource allocation capabilities.Intelligent resource schedulingand efficient resource allocationforcomputingtasksare realized through collaborative learningand distributed decision-makingwiththesatisfiedconstraints of delay and energy consumption.As such, the computing tasks generated in different scenarios are processed in real time.Simulation results showthatthe proposed mechanism caneffectively improve resource utilizationand task response time. 【Key words】space-air-ground integration; computing power network; task scheduling; resourceallocation; multi-agent reinforcement learning 量的新兴应用服务,如工业自动化、智能交通系统等,这些服务产生了海量数据需要传输和处理[1-2]。6G通信技术为这些应用提供了高可靠低延迟的连接服务。然而,在偏远 0概述 随着全球互联网的快速发展,涌现出大 山区,地面的蜂窝网络无法实现全覆盖,尤其遇到极端天气时,地面的基础通信设施(如基站)容易受到破坏,无法提供稳定的通信服务[3]。为此,研究学者提出了空天地一 体 化 网 络 (Space-Air-Ground IntegratedNetwork,SAGIN)[4]。它将天基网络、空基网络与地面网络相结合,主要包括地面算力中心、服务器、无人机和卫星等计算节点,为全球的智能应用提供泛在的计算服务[5]。 分配提供了新的解决思路。 本文的贡献可概括如下。 (1)介绍了SAGIN的一般应用场景,在其三层网络中分别部署天基、空基和地基控制器,利用深度强化学习对各个域控制器进行赋能,实现动态分层控制。 (2)建立智能应用设备与SAGIN的无线通信模型,提出计算任务调度和资源分配的时延和能耗模型,将该场景下计算任务调度、计算和存储等资源分配问题建模为马尔可夫过程,提出了基于多智能体近端策略优化(Multi-Agent Proximal Policy Optimization,MAPPO)的任务调度和资源分配算法。(3)对该算法进行仿真实验,验证了该算法可提高复杂应用场景下计算任务的响应时间和减小各设备的能耗开销。 在SAGIN架构中,天基网络和空基网络节点的计算资源和链路带宽资源有限,而地基网络中部署了很多服务器和智能算力中心,算力资源相对丰富。在能源方面,不同轨道上卫星的能量存储不同,并且空基网络中的无人机等设备也都面临着能源约束。同时,卫星、无人机以及移动用户等节点的不断运动使得SAGIN成为一个高度时变的网络,其通信链路、网络拓扑和负载在不断变化[6]。SAGIN中相关服务的调用通常涉及多维空间的协同。例如,紧急灾害遥感需要遥感卫星和无人机的配合[7]。此外,对计算密集型应用而言,如高清视频的传输处理,需要大量算力资源进行图像渲染和视频解码;对时延敏感型应用而言,如车辆自动驾驶,车内部传感器的数据需要实时处理[8]。上述问题使得在SAGIN场景下对计算任务的调度和资源分配问题变得复杂,因此,提出新的计算架构解决此问题显得尤为重要。 1系统模型 重点介绍了SAGIN的应用场景,构建了处理用户任务的计算模型和通信模型,将最小化时延和能耗的综合开销作为优化目标,求解优化问题。 1.1网络场景 本文设计的SAGIN的一般场景如图1所示,其中,重点关注SAGIN多维的资源管理和分配。该SAGIN架构旨在通过全球的无缝覆盖以及空、天、地三域的协同计算,以支持具有不同需求的各种应用场景的计算服务。SAGIN控制架构包括空基网络、天基网络和地基网络。 传统的优化算法,如启发式算法,普遍依赖于基于经验和直觉预设的规则与策略,难以适应高度动态多变的SAGIN环境。并且,该算法容易陷入局部最优,不利于实现对SAGIN的全局优化[9]。此外,对于传统的基于博弈论的优化算法,SAGIN的众多异构节点间的博弈关系错综复杂,导致建模难度大幅提升。 在地基网络中,本文重点研究三种可以处理计算任务的设备,包括物联网设备,有线网络设备和专用计算设备。由于覆盖范围有限,5G/6G蜂窝网络可能无法覆盖偏远地区,因此,这些地区广泛部署了物联网来处理小型计算任务,例如视频监控、图像和声音等传感数据的融合。在SAGIN架构的支持下,物联网设备可以实现全球可扩展连接,与其他各域协同执行计算任务,将一些计算密集型任务通过无人机、卫星或者经过中继转发到云服务器和地面网络的算力中心进行计算,提高网络的计算能力。 与上述传统优化算法相比,深度强化学习技术利用深度神经网络作为策略函数的近似器,能够有效处理高维、连续的状态和动 作 空 间[10]。 智 能 体 通 过 与 动 态 多 变 的SAGIN环境持续交互,根据环境反馈的奖励信号,自适应地调整和优化决策,无需依赖预先设计的复杂规则和精确模型[11]。这种自主学习范式为智能化的任务调度和资源 在地面的有线网络中,路由器、交换机、网关等网络设备构成了核心网络,主要负责 逐跳的计算任务转发。计算设备通常位于网络边缘,主要集中在一些大型算力中心,算力中心的服务器由中央处理单元(CentralProcessing Unit,CPU)、 图 形 处 理 单 元(Graphics Processing Unit,GPU)和现场可编 程 门 阵 列 (Field Programmable GateArray,FPGA)等一个或多个处理模块组成,负责即时任务处理[12]。通过路由器和交换机等网络设备,用户产生的计算任务可传输到计算设备中。另外,通过引入计算能力,路由器设备可以同时具备转发和计算功能。当计算任务经过计算赋能路由器设备时,它可以在本地处理任务,也可以将任务转发到其他设备[13]。因此,对于一些小型计算任务,在任务转发沿途即可完成计算并返回给用户。 本文将SAGIN架构划分为天基域、空基域和地基域,分别部署天基控制器、空基 控制器和地基控制器,主要负责各自物理域中信息聚合、任务的调度和资源管理分配。对于智能应用设备产生的计算任务,域控制器将决定该任务的调度位置和资源分配量。在地基网络,地基控制器可以部署在地面中继站或基站中。在空中网络,空基控制器部署在无人机中。在太空网络,天基控制器可以部署在LEO或者卫星地面站中。首先通过新型带内遥测技术,灵活地感知三个域中的资源信息[17],这其中包括可用的计算、存储、带宽、频谱资源以及剩余能源供应,这些资源信息作为DRL模型的状态输入。将每个域控制器视为一个智能体,智能体将根据状态进行分析和学习,并做出相应的动作。然后,环境会给出该动作的奖励信号,以指导智能体调整其决策。不断重复上述过程,实现网络管理和优化。域控制器需要动态做出对计算任务的调度和资源分配决策,即:将计算任务调度到哪个计算域执行,对于本地计算域分配多少资源来执行该计算任务。