本次会议集中讨论了人形机器人及其在人工智能领域的最新进展,强调了人形机器人作为一种结合AI技术的新型硬件产品,在感知、决策规划和运动控制方面展现出相较于现有AI设备的显著优势。特别指出人形机器人作为连接物理世界与AI技术的重要桥梁,其商业落地的速度预计将超过其他AI相关产品。会议上还探讨了AI技术在不同应用场景下的潜力,对比分析了人形机器人与AI手机、AIP C的技术路径和发展前景。尽管人形机器人和自动驾驶都在不断发展,但由于技术复杂性,两者暂时仍然面临挑战。讨论还提到了获取机器人数据的不同方法,包括真实采集和仿真合成,并指出了仿真平台在提高训练效率和降低成本方面的潜力。此外,介绍了当前市场上的各种人形机器人公司及其各自的技术路线和应用场景,其中特斯拉的Optimus项目被视为创新和快速进步的代表。最后,一些AI 初创公司和专注于智能机器人研发的公司也因其技术及商业化方面的快速发展而受到关注。这场讨论反映了人形机器人技术正经历从技术研发到产品及商业化的转变,同时也揭示了这一领域内激烈的竞争和不断扩大的应用范围。 Q:人形机器人的发展历程与关键组成部分是什么?A:人形机器人的发展参照人类理解和应用物理世界的进程,由感知、决策规划和运动控制三个核心环节组成。相较于传统的人工智能设备如AI手机和AIPC,它们主要体现在第三人称智能层面,作为 信息展示和交互的载体,并不具备自我智能升级能力。Q:为什么认为人形机器人有望成为接近AI技术路径的产品?A:相比于其他AI落地应用场景(如PC手机、MR眼镜、智能驾驶等),人形机器人基于第一视角 获取真实数据和信息并能在迭代模型中形成闭环的特性使其被认为是更接近AI技术路径的产品。此外 ,由于特斯拉等企业已经完成了软硬件开发,并预计将在2025年实现量产,其产业链分工明确且有清晰的商业化落地场景,因此人形机器人的落地速度可能会相对较快。Q:自动驾驶领域目前的模型演进状况如何?A:自动驾驶领域的感知模块已采用神经网络技术,而在决策规划方面,特斯拉最新的FSDV12版 本开始使用神经网络,并展现出良好的市场效果。当前,自动驾驶的端到端解决方案主要有两种类型:一种是两段式架构,感知部分和决策规划部分各自独立;另一种则是将感知和决策规划整合为一个完整任务,通过神经网络直接连接输出行为指令,特斯拉可能更倾向于后者,但其他厂商目前多停留在两段式阶段。Q:人形机器人模型的主要构成及演化趋势是什么?当前人形机器人模型发展的核心挑战及其解决策略是什么?A:人形机器人模型大致分为两大部分:感知与规控,主要借助多模态大语言模型赋能;运动控制则更为复杂,涉及全身关节之间的交互关系,早期依赖工程师编写的规则。近年来,随着技术的发展,Google推出的RTL模型采用大量机械臂运动数据构建运动控制模型,并逐步向一站式的端到端RTTwo演化,其中加入了动作模态以增强识别周围环境的能力。人形机器人在感知、规控和运动控制等多方面面临复杂场景,使得它们仍更多地采用两段式干扰端设计。然而,发展趋势明确指向一站式端到 端方案,尤其是通过加强数据基础(包括大量人体运动轨迹和外界物理世界交互数据)来强化模型性能 。获取此类数据主要有两种方式,一是真实采集,例如斯坦福大学通过远程操作系统记录操作路径或特斯拉员工携带传感器记录复杂动作;二是仿真合成,通过对现有数据进行调整并拓展至更多复杂场景,大幅增加训练效率并降低成本。 Q:仿真合成数据在人形机器人发展中扮演什么角色?A:仿真合成数据作为真实采集数据的重要补充,不仅能够大量快速生成数据以提高训练效率,而且相较于真人采集成本较低。它可以应用于多种场合,比如英伟达发布的论文中展示了利用仿真平台进行机器人转笔动作的案例。此外,仿真平台如NVIDIA’sIsaac也因其高物理事件还原度、丰富 的工具链生态和体系,成为理想的训练和测试验证场所。Q:模型部署到实际机器人前为何要在仿真平台中验证?A:在模型训练完成后,将其直接部署到实际机器人时可能会导致损坏等问题,因此通常会在仿真平台上进行验证以降低测试成本。然而,由于仿真场景与物理世界可能存在较大差异,即仿真模拟的物理还原度不高或物理规律不一致,导致部署后的策略往往需要进一步调整以适应端侧环境。Q:如何提高仿真平台与真实物理世界的对接效率?A:为了减少从仿真到现实部署时的复杂工作流程,理想状态是尽可能缩小仿真模拟与真实物理世界的差距。英伟达正在通过与波士顿动力等公司的合作,在特定较为简单的运动控制场景下实现仿真模拟与真实物理场景的直接无缝对接,从而减少了后期调优和适配的必要性,并且这一进程仍在不断推进和完善中。 Q:人形机器人技术研发的关键挑战及优化方向有哪些? A:从技术角度来看,当前面临的挑战主要包括提升多模态模型的能力,增强机器人感知和控制能力;加大运动控制方面的数据采集力度并持续训练模型,以提高其灵活性及对不同场景的适应性;通过高效的仿真平台辅助整个研发过程,加快模型训练和迭代速度,进而提高研发效率。此外,人形机器人研发正逐渐从技术研发阶段过渡至产品化和商业化的阶段。Q:人形机器人产业发展呈现出怎样的产业链模式?A:类似自动驾驶的发展路径,人形机器人产业也形成了两种主要的产业链模式。第一种是全栈自研模式,以特斯拉为代表,不仅自主研发硬件(如芯片)还涉及云端训练芯片及算法等各方面;第二种是以主机厂商作为设计主导,部分芯片和软件方案可能来自外部供应商,但随着市场需求和技术进步,越来越多厂商转向自研或者采用平台化开发方式。英伟达的入局打破了过去特斯拉一家独大的局面,为更多公司提供了完整的人形机器人开发链路和支持。 Q:有哪些不同类型的机器人公司? A:当前存在多种类型的机器人公司,其中包括早期从事零部件制造后来扩展至产业链的公司,如天链机器人,它们推出的适用于教育工厂等场景的人形机器人售价约在50到100万元人民币之间。另一 类是平台型公司,如770公司,这类公司通常由地方政府投资结合头部机器人公司的牵头形成,致力 于开发开源软件和硬件平台。Q:是否还有一些特定领域的机器人项目值得关注? A:在北京等地,由优必选和小米牵头,并获得亦庄国资投资成立了专注于机器人行业的公司,如天工平台。这类平台以政府引领和行业头部企业为核心力量,有望推动产业生态协作进程并值得关注. Q:特斯拉的Optimus项目有何重要进展?A:特斯拉的Optimus项目进展迅速,仅两年时间便已推出成型产品并在实际场景中展示了其应用潜力。据马斯克预测,该产品将在2024年底到2025年初完成硬件改版,并于2025年开始 限量生产,计划生产1000至数千台用于迭代与零部件适配调优。Q:特斯拉如何利用现有资源推动Optimus项目的发展?A:特斯拉依靠三个方面的能力支持Optimus项目的推进:一是来自自动驾驶系统FSD的持续 优化与迭代,为机器人决策规划提供了突破性成果和技术上限预期;二是特斯拉推出的多模态模型Group,极大增强了机器人感知和规控端的性能;三是特斯拉积极进行大规模算力投入,包括采购英伟达H100芯片和与其他公司合作租赁算力,以及自主研发哈德威尔系列芯片应用于产品中。Q:波士顿动力公司的技术团队成员有哪些特点?A:波士顿动力的核心技术团队聚集了许多领域内的顶尖专家。其中包括曾在AIHMC长期研究双足机器人领域的知名学者Jerry,他在双足机器人领域有着超过二十年的研究经验,并对波士顿动力 的技术发展起到了关键作用。此外,该公司还吸引了来自谷歌DeepMind的AI工程师、特斯拉负责电池零部件研发的经理以及拥有丰富控制系统经验的总监等各路精英加盟。Q:致远公司在团队构成及资源支持上有哪些亮点? A:致远公司由B站UP主、华为天才少年智慧军及交通大学严维新教授共同组建而成,形成了一软一硬的高效组合。其中严维新教授不仅是交大博士生导师,在康养和医疗机器人领域深耕多年,还担任上海人工智能研究院首席科学家,为致远提供了大量科研资源。截至当前,该公司已完成了六至七轮融资 ,除了财务投资人外,还包括临港新片区基金等地方政府引导基金以及比亚迪、上汽等产业伙伴的支持 ,确保了公司在硬件与软件研发上的双重优势。Q:致远公司发布的产品及其商业化应用场景如何? A:致远公司于八月份发布了名为“远征”的产品,该产品的双足行走能力和云端赋能的人身智能框架使其能够在一定程度上实现逻辑链条拆解等功能,在特定场景下的感知和任务理解达到了较高水平。在商业化方面,致远已与临港集团、上海机场集团和中国电信达成战略合作,并与比亚迪开展工厂端外观检测合作,显示出强大的市场潜力和广阔的应用前景。