电子科技大学 UNIVERSITYOFELECTRONICSCIENCEANDTECHNOLOGYOFCHINA 硕士学位论文 MASTERTHESIS 论文题目空天地一体化网络中无人机 智能任务调度算法研究 学科专业信息与通信工程 学号202121010740 作者姓名王宇辉 指导教师孙罡教授学院信息与通信工程学院 ResearchonIntelligentTaskSchedulingAlgorithmsforUnmannedAerialVehiclesin SpaceAirGroundIntegratedNetwork AMasterThesisSubmittedto UniversityofElectronicScienceandTechnologyofChina DisciplineInformationandCommunicationEngineering StudentID202121010740 AuthorWangYuhui SupervisorProf.SunGang SchoolSchoolofInformationandCommunication Engineering 摘要 摘要 空天地一体化网络被认为是下一代网络的关键结构,天基网络和空基网络是协助和卸载计算任务的潜在候选方案。在空天地一体化网络的任务调度中,无人机作为空基网络的主要节点,负责收集和处理来自地面设备的计算任务。无人机可以根据任务的特征和自身的状态,选择将任务进行本地计算或卸载到地面基站或天基网络中。本文以性能优化为目标,分别针对资源竞争场景及多智能体合作场景设计空天地一体化网络的无人机智能任务调度算法,使无人机能够合理地分配计算任务到不同的目标设备,以最大化网络效用和系统收益。 为解决资源竞争场景下负载不均衡、排队时延长的问题,本文中设计了基于比例公平感知拍卖和近端策略优化的任务调度算法,将任务调度过程分解为两个部分:资源分配和智能任务卸载决策。算法首先设计了比例公平的拍卖机制,以拍卖的方式实现了计算资源的预分配,解决了卸载决策的相互影响导致的资源竞争问题,均衡了任务负载,并保证了分配的比例公平性。通过基于深度强化学习算法的任务卸载决策,结合环境信息、任务的异构特征和预分配的资源量,智能化地调度任务,提高了任务的完成率和系统的收益。 针对多智能体合作场景下系统决策成本高、智能体协作不足的问题,提出了基于分簇的多智能体合作任务调度算法。该算法由动态无人机分簇算法和合作卸载算法两部分组成。动态无人机分簇算法利用卫星的协调能力和无人机的自主能力,将无人机分为不同的簇,每个簇由一个簇首无人机负责管理和决策,实现了分布-集中式的控制模式。合作卸载算法利用簇首无人机上布置的智能体,基于多智能体强化学习框架,通过卫星的信息传播和参数共享,实现了多智能体的集中训练和分布执行,保证了系统的整体收益。 本文通过理论分析和仿真实验,从系统收益、负载均衡、公平性、任务完成情况和环境适应等方面,分析了本文所提算法的性能和特点,展示了其在不同场景和参数下的表现和优势。仿真实验结果表明,本文所提算法都能够有效地提高空天地一体化网络中的任务调度性能,相较于对比算法,具有更高的系统收益和更好的负载均衡性、公平性、收敛性及环境适应能力。 关键词:空天地一体化网络,任务调度,深度强化学习,比例公平拍卖,无人机分簇算法 ABSTRACT Space-Air-GroundIntegratedNetworks(SAGIN)isconsideredasthekeystructureofthenextgenerationnetwork.Thespacesatellitesandairnodesarepotentialcandidatestoassistandoffloadthecomputingtasks.Unmannedaerialvehicles(UAVs)responsibleforcollectingandprocessingcomputingtasksfromgrounddevices.UAVscanbechosentoperformlocalcomputingoroffloadtaskstogroundbasestationsorspace-basednet-workaccordingtothecharacteristicsofthetasksandtheirownstates.Thisthesisaimsatperformanceoptimization,anddesignsintelligenttaskschedulingalgorithmsforSAGINforresourcecompetitionscenarioandmulti-agentcooperationscenariorespectively,en-ablingUAVstoreasonablyallocatecomputingtaskstodifferenttargetdevices,soastomaximizethenetworkutilityandsystembenefit. Tosolvetheproblemofloadimbalanceandlongqueuingdelayintheresourcecom-petitionscenario,thisthesisdesignsaproportionalfairness-awareauctionwithproximalpolicyoptimizationtaskschedulingalgorithm,whichdecomposesthetaskschedulingprocessintotwoparts:resourceallocationandintelligenttaskoffloadingdecision.Thealgorithmfirstdesignsaproportionalfairauctionmechanism,whichrealizesthepre-allocationofcomputingresourcesbyauction,solvestheresourcecompetitionproblemcausedbythemutualinfluenceofoffloadingdecisions,balancesthetaskload,anden-surestheproportionalfairnessoftheallocation.ByusingthedeepreinforcementlearningPPOalgorithmfortaskoffloadingdecision,thealgorithmintelligentlyschedulestasksbycombiningtheenvironmentalinformation,theheterogeneouscharacteristicsoftasksandthepre-allocatedresourceamount,andimprovesthetaskcompletionrateandsystembenefit. Toaddresstheproblemofhighsystemdecisioncostandinsufficientcooperationofagentsinthemulti-agentcooperationscenario,acluster-basedmulti-agentcooperativetaskschedulingalgorithmisproposed.Thealgorithmconsistsoftwoparts:dynamicUAVclusteringalgorithmandcooperativeoffloadingalgorithm.ThedynamicUAVclusteringalgorithmusesthecoordinationabilityofsatellitesandtheautonomyofUAVstodivideUAVsintodifferentclusters,eachclusterismanagedanddecidedbyaclusterheadUAV,torealizeadistributed-centralizedcontrolmode.ThecooperativeoffloadingalgorithmusestheagentsdeployedontheclusterheadUAVs,adoptsthemulti-agentreinforcement learningframeworkbasedonMADDPG,realizesthecentralizedtraininganddistributedexecutionofmulti-agentsthroughtheinformationpropagationandparametersharingofsatellites,ensuringtheoverallprofitabilityofthesystem. Thisthesisanalyzestheperformanceandcharacteristicsoftheproposedalgorithmsfromtheaspectsofsystembenefit,loadbalance,fairness,taskcompletionsituationandenvironmentaladaptationthroughtheoreticalanalysisandsimulationexperiments,andshowstheperformanceandadvantagesoftheproposedalgorithmsindifferentscenariosandparameters.ThesimulationresultsshowthattheproposedalgorithmscaneffectivelyimprovethetaskschedulingperformanceintheSAGIN,andhavehighersystembenefitandbetterloadbalance,fairness,convergenceandenvironmentaladaptabilitythanthecomparisonalgorithms. Keywords:Space-Air-GroundIntegratedNetworks,TaskSchedule,DeepReinforcementLearning,ProportionalFairnessAuction,UAVClustering. 目录 第一章绪论1 1.1研究工作的背景与意义1 1.2国内外研究历史与现状4 1.2.1SAGIN中任务调度通用优化模型4 1.2.2SAGIN中任务调度经济模型5 1.2.3SAGIN中任务调度强化学习模型5 1.3本文的主要贡献与创新7 1.4本论文的结构安排8 第二章相关技术介绍10 2.1拍卖理论10 2.1.1可分割物品拍卖11 2.1.2公平性原则13 2.2强化学习14 2.2.1策略梯度方法15 2.2.2近端策略优化算法18 2.3多智能体强化学习18 2.4本章小结20 第三章空天地一体化网络无人机任务调度架构21 3.1空天地一体化网络架构21 3.2计算任务模型23 3.3边缘计算过程建模23 3.4传输模型24 3.5问题分析26 3.6空天地一体化网络无人机任务调度流程27 3.7本章小结29 第四章面向资源竞争的无人机智能任务调度算法31 4.1竞争场景任务调度问题31 4.2比例公平感知的智能任务调度算法31 4.3基于比例公平拍卖的资源分配算法31 4.3.1比例公平拍卖流程33 4.3.2比例公平拍卖机制34 4.4竞争场景智能任务卸载算法36 4.4.1竞争场景任