中泰证券研究所专业|领先|深度|诚信 |证券研究报告| o1进展追踪与评测:Reasoning能力究竟有多强? 2024.09.17 分析师:闻学臣 执业证书编号:S0740519090007Email:wenxc@zts.com.cn 联系人:王雪晴Email:wangxq03@zts.com.cn ■o1模型带来推理能力的大幅提升,在数学、编程和科学问题中表现最好,有望加速相关应用落地。OpenAI发布o1模型,开放o1-preview和o1-mini版本给用户,o1-preview版本推理能力更强,o1-mini速度更快,价格便宜80%。GPQA diamond测试中,o1的表现超过了博士学位的人类专家;在我们的测试中,o1在推理类问题中表现普遍较4o更好,但在写作任务中表现接近。我们认为,o1在推理能力上的提升有助于解决复杂逻辑问题,将进一步加速相关应用落地。 ■o1的内部CoT过程大幅提升推理算力要求,对其提问次数限制更严格、定价更高,推理算力需求或将攀升。此次发布模型对用户提问次数有较大限制,Plus和Team用户可使用,o1-preview/o1-mini每周发送消息条数限制为30/50条。o1 的模型定价为输入$15/1Mtokens,输出$60/1Mtokens;较gpt-4o输入$5/1Mtokens,输出$15/1Mtokens定价更高。 ■训练方式采用强化学习加强CoT,scalinglaw是否依旧是模型主流迭代方向还需验证追踪。通过强化学习,o1能够改进其CoT过程,不断分解问题、纠错和尝试其他可行的解决办法,思考过程类似人类。随着强化学习(训练时间)的增加和思考(测试时间)的增加,o1的性能会持续提高。这种提升性能的方式与scalinglaw扩大预训练规模的方式有 所不同,强化学习+CoT或将成为模型迭代的新范式。 ■风险提示:AI技术落地不及预期、数据更新不及时、安全风险等 ■算力方向,当前基本面高景气确定性较高,建议关注浪潮信息、神州数码、中科曙光、海光信息、首都在线、云天励飞、紫光股份等; ■模型方向,建议关注科大讯飞、格灵深瞳、商汤、云从科技等; ■应用方向,金融场景建议关注恒生电子、顶点软件、同花顺、中科软、宇信科技、百融云、京北方、天阳科技、长亮 科技、新致软件等;医疗场景建议关注卫宁健康、创业慧康、嘉和美康、医渡科技、鹰瞳科技等;工业场景建议关注广联达明源云、国能日新、东方电子、云鼎科技、朗新集团等;其他建议关注焦点科技、万兴科技、萤石网络、鼎捷软件、拓尔思、佳发教育、神思电子、鸥玛软件、金桥信息等。 ■风险提示:AI技术落地不及预期、数据更新不及时、安全风险等 4 目 CONTENSONTE 中泰所 |领先|深度 1 o1:为推理而生的模型,强化学习 +CoT或成模型迭代新范式 1.1模型版本:OpenAI公布o1模型,公开发布o1-preview与o1-mini ■OpenAI发布了o1-preview和o1-mini两个版本的模型。其中o1-preview是这个模型的早期版本,而OpenAIo1-mini是这个模型的一个更快的版本,在编程领域非常有效。ChatGPTPlus和Team用户将能够在ChatGPT中访问o1模型。 ■在绝大多数推理能力较强的任务中,o1的表现明显优于GPT-4o。 图表:o1模型表现在多个基准中超越gpt4o 资料来源:OpenAI、中泰证券研究所 1.2强化学习+CoT训练方式大幅提升推理能力,推理算力需求或攀升 ■与人类在回答难题之前会长时间思考的方式类似,o1在尝试解决问题时会使用CoT(ChainofThoughts)。通过强化学习,o1不断更新其使用的CoT策略,能够学会识别和纠正错误,将棘手的步骤分解为更简单的步骤,并在当前方法不起作用时尝试不同的方法。这个过程极大地提高了模型的推理能力。 ■OpenAI对模型的调用次数限制较大,这可能源于较长的CoT过程需要更多推理算力。o1-preview和o1-mini都可以在模型选择器中手动选择,在发布时,每周发送消息次数限制为o1-preview30条消息和o1-mini50条消息。o1的模型定价较gpt-4o也更高。 输入定价输出定价 图表:模型定价(统计时间2024年9月13日) gpt-4o $5/1Minputtokens $15/1Moutputtokens o1-preview $15/1Minputtokens $60/1Moutputtokens o1-mini $3/1Minputtokens $12/1Moutputtokens 资料来源:OpenAI、中泰证券研究所 1.3o1使用三类数据集进行预训练 ■O1-preview和o1-mini在不同的数据集上进行了预训练,包括公开可用的数据、通过合作伙伴关系访问的专有数据和内部开发的定制数据集,这些数据集共同有助于模型的稳健推理和会话能力。 ■选择的公共数据(SelectPublicData):这两个模型在公开可用的数据集上进行训练,包括网络数据和开源数据集,关键包括推理数据和科学文献。这确保了模型精通一般知识和技术主题,增强了它们执行复杂推理任务的能力。 ■来自数据合作伙伴的专有数据(ProprietaryDatafromDataPartnerships):包括付费内容、专门档案和其他特定领域的数据集,这些数据集对特定行业的知识和用例提供更深入的见解。 ■过滤和提炼数据(DataFilteringandRefinement):数据处理过程中进行了严格的过滤以减少从训练数据中获得的个人信息;OpenAI还结合使用了审核API和安全分类器,以防止使用有害或敏感的内容。 1.4人类偏好评测:推理问题中o1大幅领先,写作等部分任务表现不如gpt-4o ■在数据分析、编码和数学等推理能力较强的类别中,o1-preview的受欢迎程度远远高于gpt-4o。然而,o1-preview在某些自然语言任务上并不受欢迎,这表明它并不适合所有用例。 图表:人类偏好评测结果 资料来源:OpenAI、中泰证券研究所 1.5挑战ScalingLaw的结论:训练/推理时间越久,能力越强 ■OpenAI发现随着强化学习的增加(以训练时间计算)和思考时间的增加(以测试时间计算),o1的性能会持续提高。 OpenAI也认为这种扩展训练和测试时间的限制与扩展大模型预训练规模的限制完全不同。 图表:o1的模型表现随训练和测试时间而增强 O1的模型表现随训练和测试时间增加而增强 图表:ScalingLaw ScalingLaw:模型表现随消耗算力(预训练数据集、参数规模)增大而增强 资料来源:OpenAI、中泰证券研究所资料来源:ScalingLawsforNeuralLanguageModels、中泰证券研究所 10 目 CONTENSONTE 中泰所 |领先|深度 2多维问题测评 Answer InternelCoT o1-previewChatGPT4o 4o能够回答出LLVM领域里的O1Preview概念 ChatGPT4o 较长的CoT推理过程; o1-preview给出了正确回答 ChatGPT4o回答错误 给出参考资源 o1-preview 该截图为部分截取回答; 给出示例代码 资料来源:ChatGPT、问题来自小红书用户VisionPro爱好者、中泰证券研究所 ChatGPT4o o1-previewo1-miniChatGPT4o 思考时间最长,回答最简短 (可能跟模型优化有关) 思考时间适中,回答长度适中 思考时间最段,回答最长 prompt提示 o1-preview的CoT思考过程 o1-preview 该截图为部分截取回答; ChatGPT4o 该截图为部分截取回答; ■AI技术落地不及预期 ■数据更新不及时 ■安全风险等 ■中泰证券股份有限公司(以下简称“本公司”)具有中国证券监督管理委员会许可的证券投资咨询业务资格。 。本公司不会因接收人收到本报告而视其为客户。 ■本报告基于本公司及其研究人员认为可信的公开资料或实地调研资料,反映了作者的研究观点,力求独立、客观和公正,结论不受任何第三方的授意或影响。本公司力求但不保证这些信息的准确性和完整性,且本报告中的资料、意见、预测均反映报告初次公开发布时的判断,可能会随时调整。本公司对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。本报告所载的资料、工具、意见、信息及推测只提供给客户作参考之用,不构成任何投资、法律、会计或税务的最终操作建议,本公司不就报告中的内容对最终操作建议做出任何担保。本报告中所指的投资及服务可能不适合个别客户,不构成客户私人咨询建议。 ■市场有风险,投资需谨慎。在任何情况下,本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。 ■投资者应注意,在法律允许的情况下,本公司及其本公司的关联机构可能会持有报告中涉及的公司所发行的证券并进行交易,并可能为这些公司正在提供或争取提供投资银行、财务顾问和金融产品等各种金融服务。本公司及其本公司的关联机构或个人可能在本报告公开发布之前已经使用或了解其中的信息。 ■本报告版权归“中泰证券股份有限公司”所有。事先未经本公司书面授权,任何机构和个人,不得对本报告进行任何形式的翻版、发布、复制、转载、刊登、篡改,且不得对本报告进行有悖原意的删节或修改。