行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

AI+专题系列点评（九）：OpenAI大模型加速发展，人形机器人Figure01面市

信息技术 2024-03-20 吴鸣远华创证券喜马拉雅

Figure 01机器人：深度学习与多模态交互的创新

概述

研发背景：Figure是一家由波士顿动力、特斯拉、Google DeepMind和Archer Aviation等公司前员工创立的机器人企业，成立于两年前，近期展示了与OpenAI的合作成果——人形机器人Figure 01。
核心能力：Figure 01具备深度学习能力，接入OpenAI大模型，能够理解并执行人类指令和任务，展现高级视觉和语言智能。

技术亮点

多模态交互：Figure 01能够接收摄像头拍摄的图像和机载麦克风捕捉的语音，通过OpenAI预训练的多模态模型处理，实现视觉和语言的无缝对接。
端到端控制：整个过程采用端到端的神经网络控制，无需中间编码步骤，直接从视觉输入预测并执行高频率（200Hz）的复杂动作（如手腕姿势和手指关节角度）。
自主学习：所有行为均通过机器人的自我学习获得，展示出强大的短期记忆、推理和决策能力，速度接近人类水平。

应用前景

劳动力替代：用于解决劳动力短缺问题，减少从事危险或重复性劳动的工人数量。
家庭助手：在家庭环境中，Figure 01可以承担家务、陪伴家庭成员等多种角色。
行业应用：在工业、零售、医疗等多个领域，提供高效、精准的服务和操作支持。

投资策略

关注领域：算力基础、服务器、大模型开发、AI+应用（如绘图、视频处理）。
推荐企业：海光信息、寒武纪、龙芯中科、中科曙光、浪潮信息、紫光股份、高新发展、神州数码、拓维信息、科大讯飞、商汤、三六零、金山办公、万兴科技、美图、虹软科技、当虹科技等。

风险提示

技术发展：多模态技术、算力基础设施、AI应用需求的不确定性。
商业化挑战：大规模生产和部署、安全性保障、用户接受度等问题。

结论

Figure 01展示了人形机器人领域的一次重大技术突破，通过深度学习和多模态交互能力，为AI技术与实际应用的融合开辟了新路径。随着其在家庭、工业、医疗等领域的广泛应用潜力，以及对AI技术创新的推动，Figure 01及其背后的Figure公司值得投资者密切关注。然而，商业化成功仍面临多重挑战，包括技术持续优化、成本控制、安全标准制定和市场需求评估等。

事项： 3月14日，由波士顿动力、特斯拉、GoogleDeepMind和Archer Aviation等大厂的前员工创立不到两年的机器人企业Figure，向市场展示了其与新投资方及合作伙伴OpenAI的首次合作成果—人形机器人Figure 01。评论： Figure 01具备深度学习能力。Figure 01机器人接入OpenAI大模型，能够与人类对话，理解并执行人类的指令和任务。据介绍，高级视觉和语言智能搭载于OpenAI模型，同时，Figure神经网络提供快速、低级、灵巧的机器人动作。 Figure 01技术路径实现突破，为大模型和现有方案结合提供了新思路。Figure 01将摄像头拍摄到的图像和机载麦克风捕捉的语音，转录为文本输入到由OpenAI预训练的大型多模态模型中。该模型能够理解图像和文本，在处理整个对话历史、包括过去的图像后做出语言回应，这些回应再通过文本转语音最终传递给人类。所有行为都由神经网络视觉运动转换器策略驱动。以10Hz频率输入机载图像，交给大模型处理，大模型推理预测下一步行为，将像素映射到200Hz、24个自由度的动作（包括手腕姿势和手指关节角度），直接输出结果，这为大模型和现有方案结合提供了新思路。整个过程依靠端到端（end-to-end neural networks）的机器人控制，无需经过中间过程的编码。 Figure 01未来发展方向明确，应用领域广阔。Figure未来将在人形机器人的系统硬件、成本、安全、批量生产计划及人工智能技术做出改良，人形机器人将会用于解决严重的劳动力短缺问题，并减少从事不安全工作的工人数量，人类将有能力创造和生产更多的东西。投资策略。Figure 01搭载ChatGPT，技术路径实现突破，性能惊艳，应用领域广阔。有望带动AI技术创新和商业世界的发展，涉及算力、大模型以及AI+应用（绘图、视频）等领域。建议关注：1）算力基础：海光信息、寒武纪、龙芯中科；2）服务器：中科曙光、浪潮信息、紫光股份、高新发展、神州数码、拓维信息等；3）大模型：科大讯飞、商汤、三六零等；4）AI+应用：金山办公、万兴科技、美图、虹软科技、当虹科技。风险提示。多模态技术发展不及预期、算力基础设施建设不及预期、AI应用需求不及预期。一、Figure 01具备深度学习能力 Figure 01是具备深度学习能力的通用人形机器人。Figure研发的Figure 01机器人接入了OpenAI的大模型，能够与人类对话，理解并执行人类的指令和任务。据介绍，高级视觉和语言智能搭载于OpenAI模型，同时，Figure神经网络提供快速、低级、灵巧的机器人动作。图表1 Figure 01是通用人形机器人（一）Figure 01执行效果惊艳 Figure 01多模态交互能力强大，并能流畅执行相关任务。Figure 01搭载OpenAI大模型，官网发布的视频中，Figure 01能准确回答出它“看见”的事物，具备良好的视觉识别和理解能力、强大的多模态交互能力；当问及Figure 01能够吃点什么东西时，Figure 01将桌上的苹果递给了提问者，并表示这是“唯一我可以从桌上为你提供的食物”，展示出其语言识别和理解能力；同时，视频通过Figure 01清理桌面垃圾、整理晾碗架等场景，表现其强大的短期记忆、流畅的执行能力、推理和决策能力。据Figure AI创始人Bratt Adcock称，所有这些行为都没有经过远程操作，而是通过机器人的自我学习获得。整个视频以正常的1.0倍速连续拍摄，Figure 01的速度正在接近人类。图表2 Figure 01执行效果惊艳（二）Figure 01技术路径实现突破 Figure01技术路径实现突破，为大模型和现有方案结合提供了新思路。Figure 01将摄像头拍摄到的图像和机载麦克风捕捉的语音，转录为文本输入到由OpenAI预训练的大型多模态模型中。该模型能够理解图像和文本，在处理整个对话历史、包括过去的图像后做出语言回应，这些回应再通过文本转语音最终传递给人类。所有行为都由神经网络视觉运动转换器策略驱动。以10Hz频率输入机载图像，交给大模型处理，大模型推理预测下一步行为，将像素映射到200Hz、24个自由度的动作（包括手腕姿势和手指关节角度），直接输出结果，这为大模型和现有方案结合提供了新思路。整个过程依靠端到端（end-to-end neural networks）的机器人控制，而无需经过中间过程的编码。图表3 Figure 01技术路径实现突破二、Figure 01未来发展方向明确 Figure 01未来发展方向明确，应用领域广阔。Figure未来将在人形机器人的系统硬件、成本、安全、批量生产计划及人工智能技术做出改良，人形机器人将会用于解决严重的劳动力短缺问题，并减少从事不安全工作的工人数量，人类将有能力创造和生产更多的东西。例如，在家庭中，Figure 01可以根据主人的指令进行打扫、烹饪等家务活动，甚至可以参与家庭成员之间的交流，成为一个全能的家庭助手。在工业和商业领域，Figure 01的应用前景同样广阔。它可以在工厂中执行精确的操作，提高生产效率；在零售业，它可以作为销售顾问，为顾客提供个性化的购物体验；在医疗领域，它甚至可以协助医生进行手术或进行患者护理。Figure 01的多功能性和灵活性使其成为各行各业的得力助手。图表4 Figure三大长期规划

点击免费查看完整报告

AI+专题系列点评（九）：OpenAI大模型加速发展，人形机器人Figure01面市

Figure 01机器人：深度学习与多模态交互的创新

概述

技术亮点

应用前景

投资策略

风险提示

结论

你可能感兴趣

Figure01：OpenAI大模型赋能人形机器人

计算机行业AI+专题系列（十八）：OpenAI发布GPT-4o：AI应用或加速落地

AI+专题系列点评（十二）：AdobePremierePro引入主流视频大模型，视频编辑能力有望大幅提升

AI+专题系列点评（十四）：商汤科技引领AGI时代，“日日新”多模态大模型又日新

AI+专题系列点评（二十九）：DeepSeek+发布最新论文，大模型长文本推理革命

AI+专题系列点评（二十四）：国内大模型全面升级，坚定看好AI应用

AI+专题系列点评（十三）：国内大模型追赶势头迅猛，生数科技预期今年实现Sora同等效果

AI+专题系列点评（五）：开源大模型Gemma点评

AI+专题系列点评（七）：Gemini、Sora、V-JEPA三大模型对比点评

传媒行业通用预训练模型技术拆解：AIGC系列专题，“大模型+小样本”快速适配下游场景，“AI+传媒”的效力取决于适配与迭代