您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[微软]:ChatGPT 机具人 - 设计和模型能力 2023 中文版 25 页 - 发现报告
当前位置:首页/行业研究/报告详情/

ChatGPT 机具人 - 设计和模型能力 2023 中文版 25 页

机械设备2023-07-31微软G***
ChatGPT 机具人 - 设计和模型能力 2023 中文版 25 页

2023-2-20 ChatGPTfor机器人技术: Design原则and模型能力 SaiVemprala*,Rogerio博纳蒂*,亚瑟巴克,andAshishKapoor Microsoft自主系统and机器人技术Research Thispaper介绍an实验性study关于the使用ofOpenAIChatGPT[for 机器人技术应用。我们大纲a战略那个结合设计原则for提示工程andthe创建ofa高层函数图书馆which允许ChatGPTto适应 todiffherent机器人技术任务,模拟器,and形式因素。我们焦点我们的评价上theeff经济性ofdiffherent提示工程技术and对话框策略朝向the 执行of各种类型of机器人技术任务。我们探索ChatGPT的能力to使用自由形式对话框,解析XML标签,andto合成代码,在加法tothe使用of任务规格fic提示 函数and闭环推理通过对话。我们的study包含a范围of 任务内the机器人技术域,从基本合乎逻辑,几何,and数学推理 allthe方式to复杂域suchas天线导航,操纵,and具体体现agents. 我们显示那个ChatGPTcanbeeffecian在解决几个ofsuch任务,while允许用户to 交互与it主要是via自然语言说明。在加法to这些研究,我们 介绍an开源研究工具calledPromptCraft,which包含a平台where 研究人员can协作上传and投票上examplesof不错提示方案for 机器人技术应用程序,as良好的asa样本机器人技术模拟器与ChatGPT一体化,makingit更容易for用户to得到开始与使用ChatGPTfor机器人。 视频and博客:aka.ms/ChatGPT-Robotics PromptCraft,AirSim-ChatGPT代码:https://github.com/microsoft/PromptCraft-Robotics 1.Introduction The快速晋升在自然语言处理(NLP)hasledtothe发展of大语言 模型(LLMs),suchasBERT[GPT-3[andCodex[那个are革命性a宽范围of 应用。These模型have已实现非凡结果在各种任务suchas文本代, 机器翻译,and代码合成,在其他人。A最近加法to这个集合of模型wastheOpenAIChatGPT[a预培训生成文本模型whichwasfi网络调谐使用人类反馈。不像 以前的模型whichOperate主要是upona单提示,ChatGPT提供特别是令人印象深刻相互作用技能通过对话框,组合文本代与代码合成。我们的目标在这个paperisto调查如果andhowthe能力ofChatGPTcan概括tothe域of机器人。 机器人技术系统,不像纯文本应用程序,需要a深理解of真实世界物理学,环境-ronmentalcontext,andthe能力to执行物理actions.A生成机器人技术模型需要tohavea健壮常识知识anda复杂世界模型,andthe能力to交互与用户to 解释and执行命令在方式那个are物理可能and那个makes感觉在the真正的世界。 These挑战fall超越the原始范围of语言模型,asthey必须不是仅理解the 意义ofa给定文本,但是还翻译the意图intoa逻辑序列of物理actions. 在最近年Therehave已被diffherent尝试to合并语言into机器人技术系统。These 相等贡献,随机订单。 * ©2023微软。All权利reserved. 图1:Current机器人技术管道需要a专业工程师在the回路towrite代码to改进the过程。我们的目标与ChatGPTistohavea(潜在非技术性)用户上the回路,交互与the语言模型通过 高层语言命令,andcableto无缝部署各种平台and任务。 effortshave很大程度上聚焦上使用语言令牌嵌入模型,LLM特点,and多模态模型特征forfic形式因素or场景。Applications范围从视觉语言导航[ 6基于语言的人类机器人相互作用[8and视觉语言操纵控制[1011 然而,尽管the电位优势of使用LLM在机器人,最多ofthe现有方法are 受限由a刚性范围andlimited设置of功能,or由他们的开环性质那个does不是允许 forfiuid相互作用and行为更正从用户反馈。 模型suchasGPT-3,LaMDA,andCodex还显示promise在零射机器人技术场景whentask 与高层代理人规划[13or代码代[15These早期演示启发我们 to调查ChatGPTasa潜在的更多多才多艺工具forthe机器人技术域,asit合并the 优势of自然语言and代码代模型沿着与thefi灵活性of对话。ChatGPT的 能力toengage在a自由形式对话框and捕获长上下文允许用户to交互与the模型在a 更多自然时尚,与fiexible行为更正。 在这个paper,我们aimto演示the电位ofChatGPTfor机器人技术应用。我们大纲a键概念那个解锁the能力to解决机器人技术应用程序与ChatGPT,whichisthe创建ofa高层函数图书馆。给定那个机器人技术isa多样化fi场where几个平台,场景,and工具存在,There存在an广泛的品种of图书馆andAPI。相反of问LLMto输出代码fic toa平台ora图书馆,which可能涉及广泛的fi网络调谐,我们相反创建a简单高层 函数图书馆forChatGPTto交易与whichcan然后be链接在the后端tothe实际APIforthe平台of选择。因此,我们允许ChatGPTto解析用户意图从自然对话框,and转换那个toa逻辑链接of高层函数calls.我们还大纲几个提示工程指导方针那个 帮助ChatGPT解决机器人技术任务。 我们的研究显示那个ChatGPTis有能力的of解决各种机器人相关任务在a零射时尚, while适应to多个形式因素,and允许for闭环推理通过交谈。在 addition,我们aimto显示电流模型局限性,and提供想法上howto克服他们。我们的主要捐款are已列出下面: •我们演示a管道for应用ChatGPTto机器人技术任务。The管道涉及几个提示- ING技术suchas自由形式自然语言对话,代码提示,XML标签,and闭环 推理。我们还显示how用户can杠杆a高层函数图书馆那个允许the模型to 快速解析人类意图and生成代码for解决the问题; •我们实验评估ChatGPT的能力to执行a品种of机器人技术任务。我们显示the模型的 图2:机器人技术管道employmentChatGPT与the用户上the回路to评估the输出的质量and安全。 能力and限制when解决数学,合乎逻辑,and几何操作,and然后 探索更多复杂场景涉及具体体现代理商,天线导航,and操纵。我们 include两者仿真and真实世界实验那个结果从ChatGPT的plans; •我们介绍a协作开源平台,PromptCraft,where研究人员can工作一起to 提供examplesof正(and负)提示策略when工作与LLM在the机器人技术 context.提示工程isa主要是经验科学,and我们想要to提供a简单接口 for研究人员to贡献与知识asa社区。Over时间我们aimto提供diffherent 环境where用户can试验他们的提示,and欢迎新捐款; •我们释放a仿真工具那个builds上MicrosoftAirSim[组合与aChatGPT整合。 ThisAirSim-ChatGPT仿真包含a样本环境for无人机导航and目标tobea 启动点for研究人员to探索howChatGPTcan启用机器人技术场景。 With这个工作我们希望to打开向上新机会and大道for未来研究熔断LLMand 机器人。我们相信那个我们的fi编码将启发and指南进一步研究在这个令人兴奋fi现场,铺路 the方式forthe发展of新,创新机器人技术系统那个can交互与人类在a自然, 直观方式。For更多details,我们鼓励读者to视图详细视频of我们的实验在the 项目网页。 2.机器人技术与ChatGPT 提示LLMfor机器人技术控制姿势几个挑战,suchas提供a完成and准确描述ofthe问题,识别the右设置of允许函数callsandAPI,and偏置the 答案结构与特殊arguments.Tomakeeffecian使用ofChatGPTfor机器人技术应用程序,我们 constructa管道组成ofthefollowing步骤: 1.首先,我们definea高层机器人函数图书馆。This图书馆canbefictothe形式因素or 场景of兴趣,andshould地图to实际实施上the机器人平台whilebeingnamed 描述性够了forChatGPTto跟随; 2.接下来,我们builda提示forChatGPTwhich描述the目标while还识别the设置of 允许高层函数从the图书馆。The提示can还包含信息关于约束, orhowChatGPTshould结构其回应; 3.The用户still上the回路to评估代码输出由ChatGPT,要么通过直接分析or通过模拟,and提供反馈toChatGPT上the质量and安全ofthe输出代码; 4.After迭代上theChatGPT生成实现,thefinal代码canbe已部署到the机器人。我们显示a视觉描绘of这个管道在图2forthe示例ofa家庭机器人。 2.1.Constructionand描述ofthe机器人技术API图书馆 机器人技术beinga公认的fi现场,There已经存在a众多of图书馆,要么黑匣子or 开源,那个canbeusedfor基本功能在两者the感知and行动域(例如对象检测and分割,映射,运动规划,controls,抓)。If适当规格fied在the 提示,theLLMiscableto使用这些pre-defiNed函数for机器人推理and执行。 One重要提示设计requirementis那个allAPInames必须be描述性ofthe总体函数行为。清除namesare必要的to允许theLLMto原因超过功能性连接betweenAPIand产生the希望结果forthe问题。因此,我们candefine高层功能,whichActas包装纸超过实际实施从the各自库。For例如,a函数named detect_object(object_name)could内部链接toanOpenCV函数ora计算机视觉模型,而某物喜欢move_to(x,y,)could内部调用a运动规划and障碍物回避 管道沿着与the适当的低水平电机命令fora无人机。清单sucha集合of 高层函数在the提示is键在允许ChatGPTto创建逻辑序列of行为原语,and在泛化todiffherent场景and平台。 视情况而定上thecontext,我们推荐解释the函数ofAPIand如果需要,breaking他们向下into子组件与清除输入and输出,类似to代码文档。在图3我们 当前an示例ofa不错API提示战略forahome厨师机器人场景。The战略已提交 允许ChatGPTto原因关于the订单and内容of任务根据tothe函数the机器人is实际上 cableto执行。在对比,我们引用the感兴趣阅读器toAppendixA.1fora