fb 订j //;J/ 序言 有个论断是这么说的: FOREWORD 两千年前的古人穿越到一千年前以后,需要适应的东西可能不多。而一千前的古人穿越到一百年前,变化也不至于大到难以适应。但如果一百年前的古人穿越到现在,甚至只是有人“冬眠”个10年、20年,面对的现实变化,堪称天翻地覆。 虽然有段子调侃的成分,但也基本是现状的写实。而变化的核心驱动因素,就是日新月异的科技⸺它已经并且还在持续带来颠覆式变革。 这是我们这代人的幸运所在,毫无疑问,我们身处一个科技大爆炸、创新密集发生的周期。 于是也是基于对周期的感知,从2021年开始,量子位智库,以一个前沿科技“瞭望所”的姿态,开启了对年度前沿科技趋势的总结、梳理和展望,希望能为更多关注科技变革的人提供参考。 区别于其他智库和研究机构,在量子位智库成立之前,我们通过量子位的方式,站在AI及前沿科技的信息聚合中心,已超过5年,这让我们可以更加近距离观测前沿科技在产学研交汇地带正在发生的一切,也让我们对前沿科技进入大众视野的节奏更有把握。 「大规模预训练模型预示通用智能。」 这是量子位智库《2021年十大前沿科技报告》中传送的趋势,2年前,大模型不算“正道”,谈通用人工智能多少有点科幻色彩。但量子位智库,最后还是把这条趋势写进了年度报告,广而告之。 而2年后的今天,大模型带来的范式变革,AGI的可能性和可能性话题,基本已经成为了新共识。 似的还包括新型AI芯片及其架构、固态电池提升储能上限、量子计算软硬件协同、AR打开XR新纪元…… 我们相信,这些前沿科技或技术创新,最初可能只是一个点,但很快就会变成一条线、一个面,开启一个赛道、一个产业。 这也是量子位智库《十大前沿科技报告》系列想要传递的核心价值,希望能让更多人关注到前沿科技正在发生的变革、更早参与前沿科技创新,然后加入其中实现更大的变革。 当前,前沿科技进入成熟周期的时间正在不断缩短,前沿科技变成经济增长新动能的速度也正在越来越快。 既然已经生逢其时⸺ Ifnotnow,when?Ifnotus,who? 量子位智库总裁李根 特别鸣谢 科技合作伙伴 *以上排名无先后顺序 序言 2 / 1智能体热潮: ; 人机交互新范式已被大模型打开 3D生成进入涌现期: 新算法新模型爆发,质量效率可控性日新月异 分割模型大—统: 少 计算机视觉即将迎来「GPTB寸刻」 5 具身智能带来新想象: AGI终极场景下的全新终端 端到端自动驾驶成共识: 勺 BEV+Transformer重构技术路线 空间计算定义明确: 消费级产品间世,XR全栈链路打通 3 71mRNA打开新象限: 提供精准医疗新解法,开启生物医药新篇章 ? 脑机接口试验新阶段: 产品可靠性突破,A|提升数据解码能力 可回收火箭进入「中国轨道」: 1 o/ 工程化难题被突破,商业航天迎来模式闭环 可控核聚变里程碑: 点火成功,打开商用想象空间 其他提名前沿科技趋势2024前沿科技投资观点结语 P01 P08 P16 P22 P29 P35 P43 P49 P55 P63 P69P79 1 智能体热潮:人机交互新范式已被大模型打开 AlphaGo的胜利深刻启发了人们对智能体潜在影响的认识。�年后,大模型的崛起再次推动了AI智能体的发展,成为其强大的“动力引擎”。����年�月以来,产业界产生了多个杰出的AIAgent,如在游戏领域表现出色的英伟达Voyager智能体、协助人们完成日常任务的AI助理HyperWrite,以及专注于提供个人情感陪伴的AI助手Pi等,AIAgent的研究取得了突破性的进展。 大模型研究与智能体研究互惠互利 目前,许多研究利用大模型作为AIAgen(tAI智能体)的认知核心,模型的发展为智能体研究提供了质量保证。从智能体的角度来看待大模型,对大模型研究提出了更高的要求,同时也扩大了大模型的应用范围。 (�)大模型为智能体提供了突破性的技术方案 过去基于深度学习框架的智能体能够学习技能,但无法真正理解问题和技能。而大模型智能体带来了深度学习新范式,从思维 链到思维算法的推理技术和强大的自然语言理解,这些大模型拥有的技术能力,有望让智能体具备强大的学习和迁移能力,从而 (�)自主智能体实现复杂流程自动化,流程效率大幅提升 让创建广泛应用且实用的智能体成为可能。 首要任务,并不断重复这个过程,直到完成目标。准确度要求高,因而更需要调用外部工具辅助减少大模型不确定性的负面影响。 (�)模拟智能体更加拟人可信,能够提供情感和情绪价值 面对完善的自主智能体,当给定一个目标时,它们能自行创建任务、完成任务、创建新任务、重新确定任务列表的优先级、完成新的 模拟智能体主要分为强调情感情商的智能体以及强调交互的智能体,后者往往出现在多智能体环境中,可能涌现出超越设计者规划 (�)嵌入自主智能体的软件更符合用户的使用习惯 的场景和能力,大模型生成的不确定性反而成为优势,多样性使其有望成为AIGC重要组成部分。 在未来,大模型驱动的智能体极有可能带来交互方式的变革,从过去用户适应软件应用,变成应用软件适应用户个人习惯,为用户 的生活提供更加便利的服务。 “ LLM-basedAgent是大语言模型推理能力的展现,是一种能力,而不是一个完整的产品形态,这个能力可以应用于toB 和toC领域,toB领域对传统软件是一种补充,toC领域如游戏、内容,对于内容分发有生成+推荐的结合机会。 ⸺明势资本 “ ·技术驱动力:围绕AIAgent开发的技术框架、关键组件以及基础设施一直在过去的几个月中不断地演化和发展, 从底层驱动力上看,我们认为主要有两类驱动力在推动着AIAgent的发展: 并且,这种推动力不仅来自于闭源公司(如OpenAI),也来自于开源生态的努力(如AutoGPT)。随着底层技术的不断完 ·商业驱动力:由于AIAgent具备重构现有互联网应用生态的潜力,因此从商业角度考虑,有望构建围绕Agent的新 善与成熟,我们已经看到Agent的开发者生态和应用生态正在逐渐壮大。 应用生态的公司都有比较强的动力去推动AIAgent的发展。 在这之中,我们认为主要有几类玩家。一是LLM底层技术提供商,典型的代表就是OpenAI,他们不仅开发LLM底层技术, 也会做GPTs的应用生态;二是硬件厂商,他们希望能够延续原先移动应用生态的优势,抓住AI应用生态的机会;三是做 开发生态和应用生态的玩家和创业公司,他们也希望从应用开发者和用户的角度切入做新的应用生态。 ⸺BV百度风投 “ 基于强化学习的智能体需要建立基于具体场景的世界模型的仿真器,而LLM-basedAgent中大模型的强语言理解 能力使得与人相关的仿真器建设变得简单。过去没有大模型的情况下,需要穷举人的问答的各种情况,而现在通过 大模型的语言理解能力,智能体就可以在和人的互动中纠正错误并继续逐步推理。 ⸺澜码科技 2.LLM-basedAgent架构 “ 我们看好与LLM相关的整体技术栈,包括Agent技术。看好该技术的原因在于其重要性。我们认为AGI很可能是提升整 体生产力的核心技术,应用广泛性和对生产要素的替代能力具备划时代性特点,甚至可带动其他诸多前沿科技一起往 前发展(如带动算力中的Chiplet技术,带动机器人中的具身智能技术,等等)。而Agent将是迈向AGI的重要路径,目前 已看到诸多海外研发进展。虽然道阻且长,我们对其抱有很大期待。 ⸺泰合资本 1.AIAgent原理 1.AIAgent原理 “ 随着AIAgent的逐渐普及和成熟,我们相信未来也会形成一个Agent与Agent、人与Agent进行交互、协作与价值交互 的群体智能网络。在这样的群体智能网络之中,信息、商品、资金、服务可以高效地以Agent作为载体进行流动。 ⸺BV百度风投 AIAgent是能够感知环境并做出反应,通过决策和行动改变环境,并通过学习和反思持续迭代的智能体。 此前,智能体经历了符号智能体、交互式智能体、基于强化学习的智能体和具备迁移学习和元学习能力的智能体。在大模型爆发后,AIAgent就采用大模型作为智能体的核心组成部分,通过多模态感知和工具调用来扩展其 感知和行动的范围。 LLM-basedAgen(t基于大模型的智能体)集中了符号智能体推理规划的能力,具备了交互式智能体在反馈中学 习、与环境互动的能力,同时具备大模型的少量泛化能力,在任务间实现无缝转移,而无需更新参数。LLM-basedAgent正是基于大模型驱动的Agent,可以实现对通用问题的自动化处理。 “ 自主智能体(AIAgent/AutonomousAIAgent)长久以来一直是人工智能界研究的焦点。曾经也出现过一些如SOAR 的类似系统,但限于当时的技术水平,应用领域非常狭窄。随着大语言模型的智能涌现,基于大语言模型的自治智能 体拥有高度的智能水平,能够自主理解、拆解复杂、抽象的任务,也有更强的工具调用和感知外界反馈的能力,能够 自我反思从而对问题提出更优解,甚至能够构建群体智能。我们判断基于大语言模型的智能体将最终成为人类良好 的助手、同事和伙伴。 ⸺百度研究院 LLM-basedAgen(t基于大模型的智能体)的架构可以总结为以下四个模块:配置模块、记忆模块、规划模块和行动模块。 规划模块是智能体能力的核 心,一个好的规划决定了智 能体能否顺利执行以及解决 问题,规划模块首先将复杂 任务分解为简单的子任务, 然后逐一解决每个子任务, 以及不断根据反馈去重新调 整策略。规划模块赋予基于 大模型的智能体解决复杂任 务时需要的思考和规划能 力,使智能体更加全面、强 大、可靠。 在配置模块,需要给智能体 提供待解决问题的背景信息, 比如模拟人类时的年龄、性 别、职业等基本信息,让智能 体明确自身角色,智能体一 般通过IT人员,教师和领域 专家等特定角色来执行任务。 配置模块 记忆模块主要是传递知识, 让智能体拥有长期和短期的 记忆能力。智能体记忆从环 境中感知到的信息,并利用 记录的记忆来促进未来的动 作。记忆模块可以帮助智能 体积累经验、实现自我进化, 并以更加一致、合理、有效的 方式完成任务。 记忆模块 行动模块的目的在将智能体的 决策转化为具体的结果输出。 它直接与环境交互,决定智能 体完成任务的有效性。 行动模块 规划模块 基于大模型的自主智能体的架构 “ AIAgent是指能够独立思考、自主行动并可以与环境交互的软件程序或机器人等实体。Agent包含三步:PPA,即感知 (Perception)--规划(Planning)---行动(Action)。人工智能之父、图灵奖得主马文·明斯基(MarvinMinsky)在����年 出版了一本里程碑式的著作《思维的社会》(TheSocietyofMind),试图解读人类思维这个复杂的过程。Minsky认为 社会中的某些个体经过协商之后可求得问题的解,这些个体就是Agent,而Agent应具有社会交互性和智能性。 ⸺腾讯研究院 规划层面 思维算法(AlgorithmofThoughts) 过去常用思维链(Chain-of-Thought)和思维树(Tree-of-Thoughts)来引导模型任务分解,利用大模型的上下文学习能力模仿类似的任务分解和规划,但这两种技术依赖于大模型的大规模查询,有时单个问题的查询数量可以达到数百个,导致计算效率的下降。 04 微软联合弗吉尼亚理工大学推出思维算法(AlgorithmofThoughts)具有动态和可变的推理路径,通过维持一条不断发展的思维上下文链条,提高了推理效率并减少了计算成本。这种方法的优势在于它能够灵活地适应不同的问题和情境,并且能够根据需要进行调整和优化。 思维算法技术包括四个主要步骤: 思维链、思维树、思维算法路线对比 �.基于大模型的多智能体协同技术 (�)将复