计算机 OpenAIo1如何指引未来AI投资 OpenAI发布o1模型,数学、代码等领域大幅进步。2024年9月12日,OpenAI发布新的o1系列模型,包括OpenAIo1-preview和OpenAIo1-mini,旨在花更多时间思考后再做出反应。它们可以处理复杂的任务,解 决比以前的科学、编码和数学模型更难的问题。OpenAI在一系列不同的人工考试和ML基准上的测试表明,在绝大多数推理能力较强的任务中,o1的表现明显优于GPT-4o。 强化学习+思维链推理,大模型ScalingLaw开启新范式。与人类在回答难题之前会长时间思考的方式类似,o1在解决问题时会使用思维链。通过强化学习,o1学会训练其思维链并改进其使用的策略。随着强化学习的 计算量增加和思考时间的增加,o1的性能会持续提高。此前基于ScalingLaw的思想,扩大预训练模型大小、数据集大小和训练计算量,就能得到性能更强的模型,但幂律关系在数学上也意味着性能的提升边际回报将会放缓。我们认为o1成功验证了在后训练和推理阶段提升模型能力的新方向,其技术思路可能被业界其他大模型效仿,成为一种新的重要技术范式。 算力需求再度强化,模型准确度提升有望促进应用创新。o1模型在训练端增加了对强化学习的计算量,在推理端增加了模型进行思维链思考的计 算量,进一步强化了大模型对算力的需求。o1系列模型在代码和数学能力方面准确率有较大提升,利好AI编程、AI解题等领域应用。同时我们认为AI应用在各领域的创新进展与大模型在具体领域完成任务的准确度密切相关,例如需要完成长任务的Agent。智能助理很可能是AI时代的超级应用。 o1仍存在局限性,期待GPT-5准确度全面提升推动产业。o1目前提升较大的主要在数学、编程等有比较准确评判标准的领域,强化学习应用于其他领域或有一定难度。同时o1推理侧的思维链运算带来的较慢响应速 度也会对应用场景造成限制。目前预训练阶段的ScalingLaw仍然有效,o1探索出了在后训练和推理阶段能优化部分任务的准确度的方案,这令我们更期待未来的GPT-5系列模型是否能带来全面的准确度提升。若GPT-的准确度大幅上升,则可以乐观预期AI应用的创新和落地速度将会大幅加快,如各垂直行业的Copilot,能代替用户进行具体操作的AIAgent等。 建议关注 1)算力侧:寒武纪、中际旭创、新易盛、中科曙光、海光信息、浪潮信息、工业富联、神州数码、软通动力、协创数据、云赛智联、高新发展等。 2)端侧AI:立讯精密、东山精密、传音控股、鹏鼎控股、中科创达、漫步者。 风险提示:AI技术迭代不及预期风险;经济下行超预期风险;行业竞争加剧风险。 证券研究报告|行业周报 2024年09月16日 增持(维持) 行业走势 计算机沪深300 10% 0% -10% -20% -30% -40% 2023-092024-012024-052024-09 作者 分析师刘高畅 执业证书编号:S0680518090001邮箱:liugaochang@gszq.com 相关研究 1、《计算机:自动驾驶进展加速》2024-09-08 2、《计算机:计算机2024H1总结:收入端超预期,利润逐步探底》2024-09-02 3、《计算机:信创&华为加速共振》2024-09-01 请仔细阅读本报告末页声明 内容目录 OpenAI发布o1模型,数学、代码等领域大幅进步3 强化学习+思维链推理,大模型ScalingLaw开启新范式6 算力需求再度强化,模型准确度提升有望促进应用创新12 o1仍存在局限性,期待GPT-5准确度全面提升推动产业16 建议关注17 风险提示18 图表目录 图表1:o1在具有挑战性的推理基准上大大优于GPT-4o。实线表示pass@1准确率,阴影区域表示64个样本的多数投票(共识)表现3 图表2:o1在广泛的基准测试中都比GPT-4o有所改进,包括54/57个MMLU子类别4 图表3:在能够从更好的推理中受益的领域,人们更喜欢o1-preview5 图表4:o1-preview在关键越狱评估和用于评估模型安全拒绝边界的内部基准上相比GPT-4o取得显著改进6 图表5:o1模型引入了推理token7 图表6:o1性能随着训练时间和测试时间计算而平稳提升8 图表7:o1性能随着训练时间和测试时间计算而平稳提升9 图表8:Llama2在部分评测基准上的得分10 图表9:Llama3在部分评测基准上的得分11 图表10:o1-preview和o1-mini可以在ChatGPT的模型选择器中手动选择12 图表11:OpenAI各版本模型API价格13 图表12:a16z于2024年8月21日发布的AIWeb产品和AI移动应用top50榜单14 图表13:企业将LLM应用于不同场景的意愿15 图表14:强化学习概念图16 图表15:同一问题上o1-preview和o1-mini的回答速度比GPT-4o慢17 OpenAI发布o1模型,数学、代码等领域大幅进步 美国时间2024年9月12日,OpenAI宣布其开发了一系列新的AI模型,旨在花更多时间思考后再做出反应。它们可以推理复杂的任务,解决比以前的科学、编码和数学 模型更难的问题。OpenAI训练这些模型花更多时间思考问题,然后再做出反应,就像人类一样。通过训练,它们学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。作为早期模型,它们还不具备ChatGPT的许多实用功能,例如浏览网页信息以及上传文件和图片。对于许多常见情况,GPT-4o将在短期内变得更加强大。但对于复杂的推理任务来说,这是一个重大进步,代表了人工智能能力的新水平。 OpenAI首批发布的模型型号包括OpenAIo1-preview和OpenAIo1-mini,OpenAIo1-mini是一个较小的模型,在STEM方面表现出色。预计对于需要推理而无需广泛世界知识的应用程序,o1-mini将是一种更快、经济高效的模型。 OpenAI在一系列不同的人工考试和ML基准上的测试表明,在绝大多数推理能力较强的任务中,o1的表现明显优于GPT-4o。在OpenAI的测试中,o1模型更新在物理、化 学和生物学的具有挑战性的基准任务上的表现与博士生相似。OpenAI还发现它在数学和编码方面表现出色。在国际数学奥林匹克(IMO)资格考试中,GPT-4o仅正确解决了13%的问题,而推理模型得分为83%。他们的编码能力在比赛中得到了评估,并在Codeforces比赛中达到了第89个百分位。 图表1:o1在具有挑战性的推理基准上大大优于GPT-4o。实线表示pass@1准确率,阴影区域表示64个样本的多数投票(共识)表现 资料来源:OpenAI官网,国盛证券研究所 在许多推理能力较强的基准测试中,o1可与人类专家的表现相媲美。在2024年的美国数学竞赛AIME中,GPT-4o平均只解决了12%(1.8/15)的问题。o1在每个问题单个样 本中平均为74%(11.1/15),在64个样本中达成共识为83%(12.5/15),在使用学习到的评分函数对1000个样本重新排名时为93%(13.9/15)。13.9的分数使其跻身全国前500名学生之列,并超过了美国数学奥林匹克的分数线。OpenAI还在GPQADiamond上对o1进行了评估,这是一个很难的智能基准,测试化学、物理和生物学方面的专业知识。发现o1的表现超过了人类专家,成为第一个在这个基准上做到这一点的模型。在其他几个ML基准测试中,o1的表现都超过了最先进的水平。在启用视觉感知功能后,o1在 MMMU上的得分为78.2%,成为第一个与人类专家相媲美的模型。它还在57个MMLU 子类别中的54个上胜过GPT-4o。 图表2:o1在广泛的基准测试中都比GPT-4o有所改进,包括54/57个MMLU子类别 资料来源:OpenAI官网,国盛证券研究所 除了考试和学术基准之外,OpenAI还在广泛领域的具有挑战性的开放式提示上评估了人类对o1-preview和GPT-4o的偏好。在这次评估中,人类对o1-preview和GPT-4o提示的匿名回答中投票选出更喜欢的回答。在数据分析、编码和数学等推理能力较强的 类别中,o1-preview的受欢迎程度远远高于GPT-4o。然而,o1-preview在某些自然语言任务上并不受欢迎,这表明它并不适合所有用例。 图表3:在能够从更好的推理中受益的领域,人们更喜欢o1-preview 资料来源:OpenAI官网,国盛证券研究所 在模型安全方面,OpenAI指出,通过向模型教授安全规则以及如何在上下文中推理它们,发现推理能力直接有利于模型稳健性的证据:o1-preview在关键越狱评估和用于评 估模型安全拒绝边界的最严格的内部基准上取得了显着的改进。OpenAI认为使用思路链为安全性和协调性提供了重大进步,因为(1)它使我们能够以清晰的方式观察模型思维,(2)关于安全规则的模型推理对于分布外场景更具鲁棒性。 图表4:o1-preview在关键越狱评估和用于评估模型安全拒绝边界的内部基准上相比GPT-4o取得显著改进 资料来源:OpenAI官网,国盛证券研究所 强化学习+思维链推理,大模型ScalingLaw开启新范式 O1模型的强大推理能力来自于强化学习和思维链推理。OpenAI文档指出o1经过强化学习训练可以执行复杂的推理,o1在回答之前会思考,它可以在回应用户之前产生一个长的内部思维链。2024年9月14日阿里研究院公众号的文章指出o1大模型使用的强化学习技术是自我对弈强化学习(Self-playRL),这种方法让模型在没有外部指导 的情况下,通过不断尝试和错误来学习策略和优化决策。o1模型在这一领域的应用,类似于AlphaGo通过自我对弈来不断优化其决策模型,从而在围棋等完美信息游戏中取得成功。 与人类在回答难题之前会长时间思考的方式类似,o1在尝试解决问题时会使用思维链。通过强化学习,o1学会磨练其思维链并改进其使用的策略;学会识别和纠正错误;学会将棘手的步骤分解为更简单的步骤;学会在当前方法不起作用时尝试不同的方法。这个 过程极大地提高了模型的推理能力。 o1模型引入了推理token。模型使用这些推理token进行“思考”,分解对提示的理解并考虑多种生成响应的方法。生成推理标记后,模型会将答案生成为可见的完成标记,并从其上下文中丢弃推理标记。 图表5:o1模型引入了推理token 资料来源:OpenAI官网,国盛证券研究所 模型在直接提示下表现最佳。一些提示工程技术(如小样本提示或指示模型“逐步思考”)可能不会提高性能,有时甚至会阻碍性能。以下是一些最佳做法: 1)保持提示简单直接:模型擅长理解和响应简短、清晰的指令,而不需要大量的指导。 2)避免思路链提示:由于这些模型在内部进行推理,因此不需要提示它们“逐步思考”或“解释你的推理”。 3)使用分隔符来提高清晰度:使用三重引号、XML标签或章节标题等分隔符来清楚地指示输入的不同部分,帮助模型适当地解释不同的部分。 4)限制检索增强生成(RAG)中的附加上下文:提供附加上下文或文档时,仅包含最相关的信息,以防止模型过度复杂化其响应。 OpenAI表示大规模强化学习算法教会模型如何在高度数据高效的训练过程中利用其思路进行有效思考。随着强化学习的增加(训练时间计算)和思考时间的增加(测试时间计算),o1的性能会持续平稳提高。 资料来源:OpenAI官网,国盛证券研究所 据OpenAI论文《ScalingLawsforNeuralLanguageModels》,随着我们增加模型大小、数据集大小和用于训练的计算量,语言建模性能会平稳提高。为了获得最佳性 能,必须同时扩大这三个因素。当不受其他两个因素的瓶颈限制时,经验表明模型性能与每个单独因素呈幂律关系。 资料来源:《ScalingLawsforNeuralLanguageModels》Ja