您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[Swarm]:Swarm-GPT:将大型语言模型与机器人编排设计的安全运动规划相结合(中文) - 发现报告

Swarm-GPT:将大型语言模型与机器人编排设计的安全运动规划相结合(中文)

信息技术2024-08-24-Swarm在***
AI智能总结
查看更多
Swarm-GPT:将大型语言模型与机器人编排设计的安全运动规划相结合(中文)

,,卢卡斯·布伦克2,3和安吉拉·P·舍利格2,3AoranJiao1 、TanmayP.Patel1 、SanjmiKhurana1 、Anna‑MariyaKorol1VivekK.Adajania3 、UtkuCulha2 、SiqiZhou2, 多伦多大学航空航天研究所1多伦多大学工程科学系2慕尼黑工业大学计算机工程系3 抽象的 本文介绍了Swarm‑GPT,这是一个将大型语言模型(LLM)与安全群体运动规划相结合的系统,为可部署的无人机群体编排提供了一种自动化的新颖方法。Swarm‑GPT使用户能够通过自然语言指令自动生成同步的无人机表演。Swarm‑GPT注重安全性和创造力,通过将生成模型的创造力与基于模型的规划算法的有效性和安全性相结合,解决了无人机编排领域的一个关键空白。通过提示LLM根据提取的音频数据生成一组唯一的航路点来实现此目标。轨迹规划器会处理这些航路点以确保无碰撞且可行的运动。可以在执行之前在模拟中查看结果,并通过动态重新提示进行修改。 模拟到现实的迁移实验表明,Swarm‑GPT能够准确复制模拟无人机轨迹,平均模拟到现实均方根误差(RMSE)为28.7毫米。迄今为止,Swarm‑GPT已在三场现场活动中成功展示,体现了预先训练的模型在现实世界中的安全部署。 1简介 几千年来,舞蹈一直是人类表达和娱乐的有力媒介。然而,我们对机器人动力学和控制的掌握直到最近才扩展到舞蹈和表演领域。机器人编舞在娱乐业的一个典型应用是无人机表演,其中许多无人驾驶飞行器(UAV)在半空中变形成复杂的图案,与音乐节奏同步[1–3]。arXiv:2312.01059v1 让机器人拥有舞蹈能力是一个自然的进步,但并非易事[4]。在目前的应用中,机器人的时空运动通常由专家手动编排,以平衡表现力和安全性。生成机器人舞蹈编排可能很费力;随着机器人数量的增加,舞蹈设计和安全性分析的复杂性很快就会变得难以解决[5]。 在这项工作中,我们提出了Swarm‑GPT一种自动化无人机编排流程,可将语言指令转换为一群纳米无人机的编排动作。为了促进基于语言的无人机编排的直观交互和安全部署,该系统结合了(a)高级运动生成层,该层利用大型语言模型(LLM)的生成能力来设计独特的无人机群编排;(b)低级安全层,该层使用基于模型的群规划框架来确保将LLM生成的编排可行且安全地部署到物理机器人上。 通过模拟和物理实验,我们展示了如何有效地弥合高级自然语言指令与低级机器人控制和协调之间的差距。Swarm‑GPT是一个概念验证,展示了LLM指导的无人机群控制的可行性,并且可以安全地完成。我们的工作表明,LLM可以用作非专家用户的直观界面,以生成复杂的无人机行为,同时通过底层安全控制和规划算法进行增强,从而通过设计实现安全协调。 据我们所知,Swarm‑GPT是第一个能够直接使用LLM进行无人机编排的系统。我们的贡献如下:(i)使非专家能够使用自然语言对无人机群编排进行编程和修改;(ii)将大型语言模型与基于模型的安全过滤器无缝集成,以确保安全执行;(iii)在实时无人机实验中展示Swarm‑GPT。 2相关工作 机器人编舞。机器人编舞研究涵盖不同的机器人平台,包括人形机器人[6–9]和非拟人机器人,如机械臂[10]、无人机[1–3]和四足机器人[6,7]。虽然之前的研究主要集中在通过映射音乐特征来实现流程自动化(如[7,8,2,3]),但编舞过程仍然需要手动调整和领域专业知识,并且提供直观反馈的手段很少,尤其是对于非专家用户而言。这项工作专注于无人机群编舞,并介绍了一种使用自然语言反馈工具的自动化流程,用于同步时空运动生成。 机器人领域的LLM。通过自然语言进行机器人决策最近开始受到关注[11,12],尤其是在视觉语言导航[13]、基于语言的机器人可供性[14]、基于语言的轨迹修改[15]以及通过基于LLM的代码生成进行高级任务规划[16,17]等领域。这些示例凸显了利用LLM促进与机器人系统自然交互的潜力。在这项工作中,我们追求类似的目标,但重点是基于语言的无人机群编排及其在现实世界中的安全部署。 安全的机器人群体决策。安全的机器人决策方法通常利用我们对机器人的先验知识来提供所需的安全保障[18]。在群体协调的背景下,基于模型的运动规划提供了一种明确考虑安全性和可行性约束的自然方法。基于模型的群体运动规划的最新进展包括集中式方法[19,20]和分布式方法[21–23]。鉴于分布式方法[21–23]的可扩展性优势,在本文中,我们采用了最先进的分布式无人机群体运动规划框架[23]作为基于LLM的群体编排设计的安全过滤器。这种集成通过有效利用我们对机器人的先验知识,同时最大限度地保留LLM产生的运动,解决了安全部署的挑战。 3方法论 在本节中,我们概述了所提出的Swarm‑GPT框架。图2显示了Swarm‑GPT系统的框图,附录A中包含了进一步的技术细节。 LLM接口。LLM接口为用户提供了一种通过自然语言提供高级任务规范(例如歌曲选择和群体行为)的方法。同时,使用音频分析工具librosa提取所选歌曲的特征[24]。语言输入和提取的音乐特征共同构成了带有初步说明的LLM提示模板 附录A.1中的过程。给定语言输入、歌曲音频文件和高级先验知识关于操作环境的物理限制。我们包括提示的细节 轨迹优化模块是一种安全基于最先进的过滤器无人机的驱动极限以及无人机的椭圆形碰撞包络线)框架,AMSwarm[23]。AM‑Swarm安全过滤器允许我们整合我们对机器人系统的先验知识(例如,最大允许速度和安全轨迹优化。安全分布式无人机群体运动规划 匹配LLM生成的编排路径点。无碰撞群体轨迹最适合并随后计算可行和 附录A.2进一步讨论了基于AMSwarm的安全过滤器设计。 轨迹修改(重新提示)。无人机群模拟器gym‑pybullet‑drones[25]。用户可以将生成的编排部署到真实的无人机上命令并使用可视化这些航点被视为位置 更新了LLM输出。根据重新提示更新航路点。碰撞避免和处理应用于更快,更高”),将其附加到原始提示中。然后,LLM通过以下方式修改群集:系统或通过重新提示对其进行修改。要重新提示,用户可以输入自定义提示(例如,“go 4仿真与实验评估 模拟和实时实验。在本节中,我们介绍了关键的评估结果;额外的http://tiny.cc/Swarm‑GPT。讨论包含在附录B中。机器人实验的视频可通过以下链接获取:欢乐,碟中谍主题,太阳来了},并在两者中蜂拥多达九架无人机所提出的Swarm‑GPT系统已使用四首不同类型的歌曲(Perfect、Ode 模拟到现实迁移的评估。我们使用gym‑pybullet‑drones[25]作为Swarm‑GPT的模拟器。该模拟器配备了与真实无人机平台相同的控制器。为了检查以及Swarm‑GPT的生成能力。说明,无人机群中模拟到真实的平均RMSE不超过60毫米sim‑to‑real的传输间隙,输入模拟器和真实系统的控制信号是完全相同的。传输质量,我们使用模拟来收集大量数据来说明安全特性最坏情况。六种编排的平均RMSE为28.7毫米。由于模拟与现实的准确度较高模拟x、y、z位置与地面真实x、y的均方根误差(RMSE),图中绘制了六种不同编排配置的z位置。如图3所示 通过自然语言进行设计。图4显示了应用前后的碰撞事件次数这既考虑了无人机的真实尺寸,也考虑了气动效应(如下洗流) 。[23]动态和机器人约束。我们的流程通过经过充分测试和强大的安全过滤器补充了LLM的创造力。总的来说,该流程实现了人类可以实现的安全无人机运动在97次模拟试验中,只有21.65%的原始LLM生成的轨迹没有发生碰撞。我们的安全过滤器。为了计算碰撞事件,我们考虑椭圆形防撞包络在安全算法之后,这一数字达到了100% ,这意味着所有碰撞都被消除了。我们注意到对安全约束的响应。法学硕士是极好的创造性工具,但它们的意识有限 在实际部署过程中,可能会存在额外的动态不确定性或不完善之处;这些不确定性可以通过使用稳健安全的公式来系统地解释[18]。 图4:应用AMSwarm安全过滤器之前和之后轨迹上碰撞百分比的直方图。所有数据点均由九架无人机群收集。 图3:六种不同编排的模拟到真实RMSE汇总。 提示和与音乐同步。为了确保舞蹈编排和音乐之间的准确同步并促进直观的交互,我们指示ChatGPT在所提供音乐的节拍的提取时间戳处生成航点,同时实现所需的行为(例如“对称编队”)。图5显示了一个例子,其中一个舞蹈编排中的6架无人机的(x,y)位置与每个大实心点处的节拍时间绘制在一起。无人机群保持所需的队形,并围绕节拍时间明显改变其轨迹。 图6显示了重新提示的进一步示例,其中无人机被指示“飞得更快”。 5结论 我们提出了一种新颖的生成编排系统Swarm‑GPT,它集成了高级LLM和低级安全无人机群运动规划,以实现安全且交互式的无人机群编排。 实验证明了设计方法,表明将LLM与基于模型的安全滤波器设计相结合以实现安全的实际部署的有效性。 参考 [9]M.Boukheddimi、D.Harnack、S.Kumar、R.Kumar、S.Vyas、O.Arriaga和F.Kirchner,“基于音乐的轨迹优化的机器人舞蹈生成”,载于IEEE/RSJ国际智能机器人与系统会议(IROS)论文集,2022年,第3069‑3076页。[16]I.Singh、V.Blukis、A.Mousavian、A.Goyal、D.Xu、J.Tremblay、D.Fox、J.Thomason和A.Garg,“Progprompt:使用大型语言模型生成情境机器人任务计划”,载于《IEEE国际机器人与自动化会议(ICRA)》论文集,2023年,第11523‑11530页。[8]G.Xia、J.Tay、R.Dannenberg和M.Veloso,“由音乐节拍和情感驱动的自主机器人舞蹈”,载于《自主代理和多代理系统国际会议论文集》,2012年,第205‑212页。[7]E.Guizzo,“突飞猛进:独家观察波士顿动力公司如何重新定义[15]A.Bucker、L.Figueredo、S.Haddadin、A.Kapoor、S.Ma、S.Vemprala和R.Bonatti,《Latte:语言轨迹变换器》,载于《IEEE国际机器人与自动化会议(ICRA)》论文集,2023年,第7287‑7294页。机器人敏捷性”,IEEESpectrum,第56卷,第12期,第34‑39页,2019年。[6]波士顿动力公司,“你爱我吗?”,2020年12月,[在线]可访问:https://www.youtube.com/watch?v=fn3KWM1kuAw。[14]A.Brohan、Y.Chebotar、C.Finn、K.Hausman、A.Herzog、D.Ho、J.Ibarz、A.Irpan、E.Jang、R.Julian等人,“尽我所能,而不是照我说的做:将语言融入机器人可供性”,载于《机器人学习会议论文集》,2023年,第287‑318页。苏黎世联邦理工学院,技术报告,2017年,[在线]网址:http://hdl.handle.net/20.500.11850/125498。[13]C.Huang、O.Mees、A.Zeng和W.Burgard,“机器人导航的视觉语言图”,载于《IEEE国际机器人与自动化会议(ICRA)》论文集,2023年,第10608‑10615页。[5]M.Waibel、B.Keays和F.Augugugliaro,“无人机表演:创意潜力和最佳实践”,[12]S.Vemprala、R.Bonatti、A.Bucker和A.Kapoor,“机器人ChatGPT:设计原则和模型能力”,2023年,[在线]可访问:http://arxiv.org/abs/2306.17582。[4]M.Apostolos、M.Littman、S.Lane、D.Hand