生成AI的行为o1 BySonyaHuang,帕特·格雷迪,o1于2024年10月9日发布机构推理时代开始 两年来,生成式AI革命正在推动该领域从“快速思考”——即快速预训练响应——向“深入思考”——即推理时进行推理转变。这一演变正在解锁一批新的自主应用。 在我们的论文发表两周年之际“生成的AI:一个创造性的新世界“人工智能生态系统看起来非常不同,我们对即将发生的事情有一些预测。 生成式AI市场的底层正在在一个关键的规模化玩家和联盟组成的平衡状态中稳定下来,包括Microsoft/OpenAI、AWS/Anthropic、Meta和Google/DeepMind。只有拥有经济引擎并能够获取巨额资本的规模化玩家仍在竞争之中。尽管这场战斗远未结束(并且仍在不断升级),但目前的格局已经形成。博弈论时尚),市场的结构本身正在巩固,越来越清楚的是,我们将拥有越来越便宜且充足的下一类预测。 随着LLM市场结构趋于稳定,下一个前沿领域正在逐渐显现。注意力转向了推理层的发展与扩展,其中“系统2”思维占据主导地位。受到AlphaGo等模型的启发,这一层旨在赋予AI系统在推理时进行深思熟虑的推理、问题解决和认知操作的能力,而不仅仅是快速模式匹配。同时,新的认知架构和用户界面正在塑造这些推理能力向用户交付及交互的方式。 这一切对AI市场中的创始人意味着什么?这对现有的软件公司意味着什么?而在我们作为投资者看来,生成式AI栈中哪个层面最具前景? 在我们最新的关于生成式AI市场状态的文章中,我们将探讨基础的大语言模型层的整合如何为扩展这些高层次的推理能力和自主能力奠定了基础,并讨论新一代具有新颖认知架构和用户界面的“杀手级应用”。 永远的草莓田 The2024最核心的模型更新由OpenAI推出,该模型最初名为o1,曾用名Q*或Strawberry。这不仅重新确立了OpenAI在模型质量排行榜上的领先地位,还标志着架构上的显著改进。更具体地说,这是首个具备真正通用推理能力的模型,OpenAI通过推理时的计算实现了这一突破。 这表示什么?预训练模型在大量数据上进行下一个词预测。它们依赖于“训练时计算”。随着规模的扩大,一个emergent属性是基本的推理能力,但这种推理能力非常有限。如果你能教模型进行更直接的推理会怎样?这正是Strawberry所做的事情。当我们提到“推理时计算”,我们指的是让模型在给出响应之前停下来思考,这需要在推理时进行更多的计算 (因此称为“推理时计算”)。这里的“停下来思考”就是推理过程。 AlphaGoxLLM 那么,当模型停下来思考时,它在做什么呢? 让我们先brief地回到2016年3月的首尔。深度学习历史上一个最具里程碑意义的时刻就发生在这里:AlphaGo与传奇围棋大师李世石之间的对决。这不仅仅是一场人机对抗的比赛——这是世界看到人工智能不仅仅能够模仿模式的时刻。思考. AlphaGo与之前的棋类AI系统(如DeepBlue)有何不同?与大规模语言模型(LLMs)类似,AlphaGo首先通过一个包含约3000万步棋的数据集进行预训练,以模仿人类专家的水平,并通过自我对弈获取更多的数据。然而,与直接从预训练模型中产生即时反应不同,AlphaGo会花时间思考。在推理时,模型会在多种潜在未来场景中进行搜索或模拟,评估这些场景的价值,并根据预期价值最高的场景(或答案)做出回应。给予AlphaGo更多的时间,其表现会更好。在没有推理时计算资源的情况下,模型无法超越顶级的人类玩家。但随着推理时间的增加,AlphaGo的表现会越来越好——直到超越最顶尖的人类玩家。 让我们回到LLM的世界。在这里复制AlphaGo的最大挑战在于构建价值函数,即用于评估响应得分的函数。如果是在下围棋,这个过程相对直接:可以模拟整个游戏直到结束,确定胜者,然后计算下一步的预期值。如果是在编程,这个过程也相对直接:可以测试代码并验证其是否有效。但是,如何评分一篇草稿的文章?或者一个旅行计划?或者一份长文档中关键术语的总结?这正是当前方法在推理方面遇到困难的原因,这也是为什么Strawberry在接近逻辑的领域(如编程、数学和科学)表现较强,而在更加开放和无结构的领域 (如写作)表现较弱的原因。 虽然草莓的实际实施细节严格保密,但关键思想涉及围绕模型生成的思维链进行强化学习 。审查模型的思维链表明,正在发生一些根本且令人兴奋的变化,这些变化实际上类似于人类的思考和推理方式。例如,o1展示了当遇到困难时回溯的能力,这是扩展推理时间的一个emergent属性。此外,它还展示了像人类一样思考问题的能力(例如,通过可视化球面上的点来解决几何问题),以及以新的方式思考问题的能力(例如,在编程竞赛中以不同于人类的方式解决问题)。 并且研究人员正在探索许多新的想法以推动推理时计算的发展(例如,新的奖励函数计算方法、新的缩小生成器/验证器差距的方法),以期提高模型的推理能力。换句话说,深度强化学习领域仍然充满创新潜力。 再次凉爽,它正在启用一个全新的推理层。 系统1与系统2的思考 从预先训练的直觉响应(“系统1”)跃升至更深层次的、经过深思熟虑的推理(“系统2”)是AI领域的下一个前沿。模型不仅要知道事情,还需要能够在实时情况下暂停、评估并推理决策。 将预训练视为系统1层。无论模型是基于数百万围棋走法进行预训练(如AlphaGo)还是基于互联网规模的数千万兆字节文本进行预训练(如大规模语言模型),其任务都是模仿模式——无论是人类棋局还是语言。但模仿再强大,也并非真正的推理。它无法正确地通过复杂的新情况进行思考,尤其是那些未包含在训练数据中的情况。 这里就需要运用系统2思维,而这正是最新一波AI研究的重点。当一个模型“停下来思考” ,它不仅仅是在生成已学习的模式或根据过往数据进行预测。它是在生成一系列的可能性 ,考虑潜在的结果,并基于推理做出决策。 对于许多任务,System1绰绰有余。正如NoamBrown在我们最新的一集中指出的那样训练数据思考不丹的首都是不需要花太多时间的——你either知道它或者不知道它。这里快 速、基于模式的回忆效果最佳。 但在面对更复杂的问题——如数学或生物学的重大突破时,快速且直觉的反应已经不够。这些进展需要深入的思考、创新性的问题解决能力——最重要的是——时间。同样的道理也适用于人工智能。为了应对最具挑战性和意义的问题,人工智能需要超越仅仅在样本内快速响应,并花费时间来产生那种定义人类进步的深思熟虑的推理。 新的尺度定律:推理竞赛正在上演 最重要的见解来自o1纸镇上有一个新的缩放法。 培训前LLM遵循一个很好理解的标度律:您在预训练模型上花费的计算和数据越多 ,它的性能就越好。 该研究论文为扩展计算能力开辟了全新的维度:模型在推理阶段(或“测试时间”)获得的计算资源越多,其推理能力就越强。 来源:OpenAIo1技术报告 当模型能够思考数小时、数天甚至数十年时会发生什么?我们将解决黎曼猜想吗?我们将回答阿西莫夫的最后一个问题吗? 这种转变将使我们从一个庞大的培训前集群世界转向 推理云-可以根据任务的复杂性动态扩展计算的环境。 一个模型来统治他们所有人? 当OpenAI、Anthropic、谷歌和Meta扩大其推理层并开发越来越强大的推理机器时会发生什么?我们将拥有一个统领一切的模型吗? 生成式AI市场初期的一个假设是,一家模型公司会变得如此强大和全面,以至于它会吞并所有其他应用。这一预测到目前为止在两个方面是错误的。 首先,在模型层存在大量竞争,SOTA能力不断跃升。可能有人可能会通过广泛的领域自玩来实现持续的自我改进并取得突破,但目前我们还没有看到任何证据表明这一点。相反,模型层的竞争非常激烈,自上次开发者日以来,GPT-4每个令牌的价格下降了98 %。 其次,这些模型大多未能成为突破性的应用产品,仅有的例外是ChatGPT。现实世界是复杂的。优秀的研究人员并没有兴趣全面理解每一个可能的功能在每个垂直领域的端到端工作流程。对他们来说,在API层面停止探索并让开发者社区处理现实世界的复杂性既是合乎逻辑的选择,也是经济上的理性决策。这对于应用层来说是个好消息。 凌乱的现实世界:自定义认知架构 您作为科学家规划和执行行动以达成目标的方式与您作为软件工程师的工作方式大不相同。而且,即使是不同的软件工程公司,这种差异也依然存在。 随着研究实验室进一步拓展横跨领域的通用推理边界,我们仍然需要应用或领域特定的推理来交付实用的人工智能代理。混乱的现实世界需要大量的领域和应用特定的推理能力,这些能力无法有效地编码到通用模型中。 输入认知架构,或者如何理解您的系统:代码和模型交互的流程,该流程接收用户输入并执行操作或生成响应。 例如,在Factory工厂中,每款“仿生人”产品都有一个定制的认知架构,这种架构模仿人类思考方式来解决特定任务,比如审查拉取请求或编写并执行迁移计划以更新服务的后端。Factory的仿生人会分解所有依赖关系,提出相关的代码更改建议,添加单元测试,并邀请人类进行审核。在获得批准后,将在开发环境中运行这些变更,并在所有文件通过测试时合并代码。这与人类的操作类似——通过一系列离散的任务而非一个通用的黑箱答案来完成。 应用程序发生了什么? 想象一下你想在人工智能领域创业。你打算瞄准堆栈的哪一层?你想在基础设施层面竞争吗?祝你好运,能击败NVIDIA和超大规模云服务商。你想在模型层面竞争吗?祝你好运 ,能击败OpenAI和马克·扎克伯格。你想在应用层面竞争吗?祝你好运,能击败企业级IT和全球系统集成商。哦。等等。这其实听起来还挺可行的! 基础模型既神奇又混乱。主流企业无法处理黑箱、幻觉和笨拙的工作流程。消费者面对空白提示,不知道该问什么。这些是应用层的机会。 两年前,许多应用层公司被视为“仅仅是GPT-3之上的一个包装”。如今,这些包装被证明是构建持久价值的唯一可靠方法之一。最初被称为“包装”的东西已经演变为“认知架构”。 应用层AI公司不仅仅是基础模型之上的用户界面。恰恰相反,它们拥有复杂的认知架构 ,通常包括多个基础模型以及某种路由机制,用于检索和生成答案(RAG),包含确保合规性的护栏,以及模拟人类在处理工作流程时推理逻辑的应用逻辑。 服务即软件 云转型是软件即服务(SaaS)。软件公司转变为云服务提供商。这带来了3500亿美元的机会。 多亏了人工智能推理,人工智能的过渡是服务即软件.软件公司把劳动转化为软件。这意味着可address的市场不是软件市场,而是以服务市场的名义衡量的服务市场。万亿美元。 什么是销售工作?西erras就是一个很好的例子。B2C公司会在其网站上使用西erras与客户进行交流。待完成的任务是解决客户的问题。西erras按解决问题的数量收费。不存在“座位”这种概念,只有待完成的任务。西erras负责完成这些任务,并根据完成情况获得相应的报酬。 这是许多AI公司的发展方向。赛里玛(Sierra)得益于其优雅失败模式(即升级至人工代理)。并非所有公司都有这样的幸运。emerging趋势是首先作为副驾(human-in-the-loop)部署,并利用这些代表来赢得作为自动驾驶(nohumanintheloop)的机会。GitHubCopilot是这一模式的良好例证。 机构申请的新队列 随着生成AI的萌芽推理能力,一类新的代理应用程序开始出现。 这些应用程序层公司的形态是什么样的?有趣的是,这些公司的形态与它们的云服务predecessor有所不同: 云公司瞄准了软件利润池,而人工智能公司则瞄准了服务利润池。云公司按每座席($/seat)销售软件,而人工智能公司按成果收费($/outcome)。云公司倾向于自下而上的销售模式,实现无缝分销。人工智能公司则越来越多地采取自上而下的销售模式,并采用高接触、高信任度的交付模型。 我们正在看到这些代理型应用在知识经济的所有