英伟达发布全新自主移动机器人平台Isaac AMR。英伟达CEO黄仁勋在中国台北 国际电脑展(COMPUTEX)上演示了自主移动机器人平台Isaac AMR.Isaac AMR是 一个用于模拟、验证、部署、优化和管理自主移动机器人车队的平台,包含了边缘 到云的软件服务、计算以及一套参考传感器和机器人硬件,可加快自主移动机器人 (AMR)的开发和部署速度,减少成本和缩短产品上市时间。Isaac AMR建立在NVIDIA Nova Orin架构的基础上。Nova Orin如同Isaac AMR的“大脑”和“眼睛”。它将 包括立体相机、鱼眼相机、2D和3D激光雷达在内的多个传感器与强大的NVIDIA Jetson AGX Orin系统模块集成在一起。Isaac AMR通过开放式工业数字化开发平台 Omniverse驱动的Isaac Sim上进行符合物理学的模拟来简化机器人的操作。这可以 创造出逼真的数字孪生,从而在落地到物理世界之前,就能为每个客户开发、测试 和定制机器人应用,大大降低了部署AMR的运营成本和复杂性。 多模态GPT通向行业机器人,ViT+GPT成为典型范式。行业机器人相对通用机器 人,聚焦于特定领域,分为工业机器人、服务机器人和特种机器人。行业机器人的 实现难度相对通用机器人更低,而多模态GPT的发展是通往行业机器人的钥匙。多 模态GPT助力机器人在交互能力、规划控制能力、泛化能力、感知能力等多方面得 到极大提升。ViT模型将语言模型的transformer架构用于视觉模型,代替了传统的 CNN,统一了CV和NLP的架构,ViT应用于各种模态,使用transformer编码器得 到包含输入模态特征的编码,可行性已经得到了包括谷歌的PaLM-E模型在内的业界 众多工作的验证,成为了多模态GPT的典型范式。 软件开发平台走向完善,功能全面效率提升。1)开源机器人操作系统ROS降低开发 门槛。机器人的开发是一个系统工程,涉及机械、电子、软件等众多技术,这让代 码复用和模块化变得必不可少,开源机器人操作系统ROS是一组软件库和工具,可 帮助开发人员构建机器人应用程序。从驱动程序到最先进的算法,再到强大的开发 工具,ROS为开发人员提供了一个标准的软件平台,提供从研究和原型设计一直到 部署和生产的支持。2)NVIDIA Isaac机器人开发平台提供端到端解决方案,降低开 发成本、简化开发流程并加速产品部署,包括训练机器人、仿真和测试、构建机器 人以及部署和管理。3)斯坦福、UCBerkeley和Meta合作的机器人平台ALOHA能 使用低成本硬件学习细粒度的双手操作。精细的操作任务,对于机器人来说十分困 难,因为它们需要精确、接触力的仔细协调和闭环视觉反馈。执行这些任务通常需 要高端机器人、精确的传感器或仔细的校准,这些都可能很昂贵且难以设置。ALOHA 是一个低成本系统,可以直接从真实演示中执行端到端模仿学习。我们认为,从模 型层面和开发工具层面,具身智能的软件体系都正在完善,这将为行业机器人的落 地速度加快做出巨大贡献。 建议关注: 算法&行业机器人潜力:大华股份、海康威视、千方科技、中科信息、云从科技、中 科创达、亿嘉和、萤石网络、商汤科技等。 硬件供应商:拓普集团、三花智控、鸣志电器、绿的谐波、柯力传感、汉威科技等。 风险提示:机器人技术迭代不及预期风险;经济下行超预期风险;行业竞争加剧风险。 1、英伟达发布全新自主移动机器人平台Isaac AMR NVIDIA创始人兼首席执行官黄仁勋在COMPUTEX上的主题演讲中推出全新自主移动机器人(AMR)平台Isaac AMR,能为移动机器人带来先进的测绘、自主和模拟能力。 Isaac AMR是一个用于模拟、验证、部署、优化和管理自主移动机器人车队的平台,包含了边缘到云的软件服务、计算以及一套参考传感器和机器人硬件,可加快AMR的开发和部署速度,减少成本和缩短产品上市时间。 图表1:Isaac AMR演示 以前,自主导航软件应用往往要为每个机器人重新编码,这使得在不同机器人之间实现自主性变得复杂。此外,仓库、工厂和配送中心都十分庞大,面积经常达到一百万平方英尺以上,因此很难为机器人测绘并不断更新地图。而且将AMR整合到现有工作流程、机群管理和仓库管理系统的过程可能也十分复杂。 Isaac AMR建立在NVIDIA Nova Orin架构的基础上。Nova Orin如同Isaac AMR的“大脑”和“眼睛”。它将包括立体相机、鱼眼相机、2D和3D激光雷达在内的多个传感器与强大的NVIDIA Jetson AGX Orin系统模块集成在一起。该参考机器人硬件预先集成了Nova Orin,使开发人员能够在自身所处的环境中轻松评估Isaac AMR。 图表2:Nova Orin集成多种传感器 IsaacAMR通过连接DeepMap的云服务,加速大型环境的测绘和语义理解,在无需资深技术团队的情况下,将机器人对大型设施的测绘时间从数周缩短到数天,并实现厘米级精度。它可以生成丰富的3D地图,并用它们为多种类型的AMR创建占用地图和语义地图。此外,Isaac AMR通过多模式导航以NVIDIA cuOpt软件的云端车队优化功能赋予机器人自主性,缩短了在大型、高度动态和非结构化环境中开发和部署机器人的时间。 经过加速的模块化框架为机器人提供了实时摄像头和激光雷达感知能力。借助先进的路径规划器、行为规划器和语义信息的使用进行规划和控制,机器人能够在复杂的环境中自主运行。开发人员可以在一个低代码/无代码界面上轻松、快速地开发和定制适合不同场景和用例的应用。 最后,Isaac AMR通过在开放式工业数字化开发平台NVIDIA Omniverse驱动的Isaac Sim上进行符合物理学的模拟来简化机器人的操作。这可以创造出逼真的数字孪生,从而在落地到物理世界之前,就能为每个客户开发、测试和定制机器人应用,大大降低了部署AMR的运营成本和复杂性。 2、多模态GPT通向行业机器人,VIT+GPT是典型范式 行业机器人,相对于通用机器人,聚焦于完成特定行业的需求,又可以分为三大类: 工业机器人:应用于制造业代替人工,目前已经广泛应用于汽车、电子、化工等行业。 服务机器人:应用于直接服务人类用户,包括零售、餐饮、医疗、教育等场景。 特种机器人:应用于极端环境或是特殊任务,比如在极端天气、矿难、洪灾、火灾等事件中进行救援或是太空、深海探索等特殊场景。 行业机器人的实现难度相对通用机器人更低,而多模态GPT的发展是通往行业机器人的钥匙。多模态GPT助力机器人在交互能力、规划控制能力、泛化能力、感知能力等多方面得到极大提升。 交互能力:传统的模型往往只能让机器人理解少数特定指令,甚至无法通过自然语言下达指令。GPT模型能让机器人更好地理解人类指令,从而更好地完成各类需求,使用自然语言与机器人交互也能极大提升用户交互体验。 规划控制能力:传统的机器人模型难以实现复杂任务,GPT模型具备很强的逻辑能力,可以赋能机器人完成复杂的规划控制操作。这种能力在ChatGPT的代码能力上便能体现,写代码是逻辑性很强且需要多步骤的复杂任务。2022年谷歌的论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》也探索过使用思维链提示法,能激发出大型语言模型处理复杂问题的推理能力。 泛化能力:机器人应用的下游场景差别很大,若想要实现应用大规模快速落地,需要增强模型泛化能力,提升模型的通用性,以降低推广成本。GPT模型作为生成式模型,具备很强泛化能力,比如chatgpt有很强的多语言能力,即使其大部分训练数据为英文,并且在翻译、对话和文本生成等各类不同任务。 感知能力:多模态的发展让机器人可以同时处理包括视觉、文本、传感器等不同模态的输入,赋予机器人更强的感知能力。 ViT应用于各种模态,使用transformer编码器得到包含输入模态特征的编码,可行性已经得到了以上业界众多工作的验证,成为了多模态GPT的典型范式。ViT模型将语言模型的transformer架构用于视觉模型,代替了传统的CNN,统一了CV和NLP的架构。 Transformer架构从2017年被提出以来,迅速代替RNN成为了自然语言处理的主流架构,但视觉领域依然以CNN结构为主。2020年10月,谷歌推出Vision Transformer(ViT)模型,证明了不使用CNN,直接将Transformer结构应用于视觉模型也可以很好地执行图像分类任务。Transformer将句子中的每个词(token)并行输入编码器,ViT直接将图像拆分为多个块,将每个块的位置和包含的图像信息当做是一个词,输入到编码器中,训练好的编码器可以将图像输出为一个包含了图像特征的编码,类似于在语言模型中将一句话输出为一个包含了语言信息的编码,之后通过MLP层将编码器的输出转化为不同分类的概率。 图表3:ViT模型架构 2023年3月6日,谷歌推出有5620亿参数的PalM-E模型,将540B PaLM和ViT-22B结合。通过ViT将连续的具体观察结果(例如图像、状态估计或其他传感器模态)以类似于语言的方式注入到语言模型中,可以执行多种具体任务,包括机器人操作规划、视觉问题解答、生成字幕等。并具备能与数据集中不存在的物体交互的泛化能力。 图表4:PaLM-E操控机器人在被干扰的情况下从抽屉取出薯片 3、软件开发平台功能全面,效率提升 3.1开源机器人操作系统ROS降低开发门槛 机器人的开发是一个系统工程,涉及机械、电子、软件等众多技术,这让代码复用和模块化变得必不 可少。2010年Willow Garage公司发布了开源机器人操作系统ROS,ROS是一组软件库和工具,可帮 助开发人员构建机器人应用程序。从驱动程序到最先进的算法,再到强大的开发工具,ROS为开发人 员提供了一个标准的软件平台,提供从研究和原型设计一直到部署和生产的支持。 ROS的生态系统包括中间件、工具、能力和社区。 图表5:ROS生态系统 中间件:ROS的核心是提供一个消息传递系统,通常称为“中间件”或“管道”。在机器人应用程序 与硬件交互时,通信是首要需求之一。ROS内置且经过良好测试的消息传递系统,通过匿名发布/订阅 模式管理分布式节点之间的通信细节。 工具:要高效地构建机器人应用程序,需要良好的开发工具。ROS有它们,包括:调试,可视化,日 志等等,这些工具可以加快开发团队的进度。 能力:ROS是机器人软件的聚宝盆。无论需要GPS的设备驱动程序、四足动物的行走和平衡控制器, 还是移动机器人的地图系统,ROS都能满足需求。从驱动程序到算法,再到用户界面,ROS提供了构 建块,让用户可以专注于应用程序。ROS项目的目标是降低构建机器人应用程序的门槛。任何对有用 机器人有好主意的人都应该能够使这个想法成为现实,而不必了解有关底层硬件和软件的所有内容。 社区:ROS社区庞大、多样化且全球化。从学生和爱好者到跨国公司和政府机构,形形色色的人和组 织都在推动ROS项目的发展。 3.2NVIDIA Isaac机器人开发平台提供端到端解决方案,降低开发成本、简化开发流程并加速产品部署 机器人的开发过程相当复杂,时间长,挑战大,成本高。在许多用例和场景中,缺乏结构化的环境也 很普遍。NVIDIA Isaac机器人开发平台解决了这些挑战,端到端解决方案可帮助降低成本、简化开发 流程并加速产品上市。 图表6:NVIDIA Isaac提供机器人开发端到端解决方案 1)训练机器人:通过Isaac Replicator生成的合成数据进行增强,使用NVIDIA TAO工具包进行训练 2)仿真和测试:利用本地和云端提供NVIDIA Isaac Sim创建物理精准的逼真环境,