行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

AI产业前瞻系列报告（三）：从openAI o1看AI产业趋势：打破AI应用瓶颈，算力需求前景如何？

2024-09-24付天姿光大证券洪

AI智能总结

OpenAI o1开启复杂推理模型新时代

1.1 相比GPT-4o，o1在代码和理科能力上提升明显

编程和理科竞赛表现：o1在编程竞赛Codeforces中的排名分位达到89%，在美国数学奥林匹克竞赛（AIME）中跻身前500名。
测试集表现：在经典测试集如MMMU、GPQA、Biology、Chemistry、Physics等子类别中，o1的表现普遍优于GPT-4o，特别是在数学和编码能力上。
具体数据：
- AIME（2024年）：GPT-4o平均正确率为12%，o1平均正确率为83%。
- CodeForces Elo：GPT-4o为808，o1为1,258。
- GPQA（化学、物理、数学）：o1的得分显著提高。

1.2 o1具备全局思维能力，复杂推理补足长尾需求，开拓学术教育垂类场景

思维链技术：o1采用思维链（CoT）技术，在解答前进行多步思考，确保答案的准确性。
具体案例：
- 解码问题：o1通过不断纠错和反思，得出正确的解码方法。
- 纵横填字游戏：o1理解游戏规则后，通过复杂思维链得出正确答案。
局限性：当前o1的思维链较为僵化，联想能力较弱，依赖于穷举法。

1.3 o1在编程上展现出自主规划和主动思考能力，AI+低代码/网络安全领域有望最早受益

自主规划能力：o1在编程中具备较强的自主性，能够减少开发时间和成本。
应用领域：
- 低代码：o1可以一定程度上对冲其高成本和高延迟问题。
- 网络安全：o1在网络安全攻防中表现出色，能够将复杂任务分解成多个子任务，具备初步的自主规划能力。
具体应用：
- 编码竞赛：o1的Codeforces得分显著优于G1-preview。
- 网络安全：o1在网络安全攻防中表现出优秀的自主规划能力。

投资建议

AI电力：Constellation、NRG。
AI算力产业链：
- AI GPU：英伟达、AMD。
- ASIC芯片设计：Marvell科技、博通。
- 存储：SK海力士、三星电子、美光科技。
- 服务器：联想集团、超微电脑、戴尔科技、慧与、工业富联。
- CoWoS：台积电、日月光、Amkor科技。
- 网络：中际旭创、新易盛、Coherent、安费诺、Arista网络。
AI应用：
- 云服务商：微软、谷歌、亚马逊、Oracle。
- AI+开发/数据分析：ServiceNow、Palantir、Datadog。
- AI+网络安全：微软、CrowdStrike、Fortinet。
- AI Agent：微软、Salesforce、Workday。
- AI+教育：多邻国、Coursera。

风险分析

AI技术研发和产品迭代遭遇瓶颈。
AI行业竞争加剧。
商业化进展不及预期。
国内外政策风险。

AI产业前瞻系列报告（三）：从openAI o1看AI产业趋势：打破AI应用瓶颈，算力需求前景如何？

事件：2024年9月12日，OpenAI发布最新模型o1，在编程、理科竞赛等推理密集型任务中性能明显优于GPT-4o，但在部分自然语言任务中较弱。 o1具备全局思维能力，复杂推理补足长尾需求，开拓学术教育等垂类场景。根据我们的测评，o1思维链特征可以概括为：1）优先形成全局方法：在解答前o1会先分析问题、概括底层规律；2）不断的追问和反思：在输出最终答案之前，o1会不断反思解答过程并进行改进，其完整思维链可达数百行。 o1在编程上展现出自主规划能力，AI+低代码/网络安全领域有望最早受益。 1）低代码：o1在编程方面具备较强的自主性，可以一定程度上对冲o1高成本和高延迟的问题。2）网络安全：o1在网络安全攻防中表现优秀，能将复杂任务分解成多个子任务，具备初步的自主规划能力，也体现出了AI辅助网络攻击的潜在威胁，AI驱动的网络安全攻防升级将成为未来的主旋律。 AI Agent是打破AI应用发展瓶颈的关键，o1能否开启通往Agent之路？受限于模型性能，AI应用进入瓶颈，北美科技巨头26年资本支出持续性以及上游算力产业链的业绩成长性受到质疑。而近期前沿论文和o1展现的强化学习推理、思维链等底层技术，是AI产业发展和投资情绪提振的关键。新的Scaling Law，RL+CoT对于实现能自主规划的AI Agent至关重要。强化学习让AI自主探索和连续决策，符合Agent所需的自主规划能力。self-play通过自主博弈生成高质量数据，有利于突破外部训练数据短缺的现状。思维链能极大提升模型涉及数学和符号的推理能力，但在其他问题上提升效果不显著，甚至可能有损模型性能。推理能力和模型的指令跟随能力呈现出分离关系，对于构建AGI来说，如何平衡二者的关系会成为一个核心问题。 RL范式下推理算力需求大幅上升，但不代表训练算力需求会停止增长。o1-preview生成相同内容的输出tokens大约是GPT-4o的5.9倍，其中72%的tokens为推理过程中生成，使用o1-preview的输出成本约为GPT-4o的36倍。Scaling Law由训练侧转向推理侧，对推理芯片的性能需求也会提高，且预训练阶段也需要消耗大量的算力。强化学习推理并不意味着模型参数停止扩张，因为主模型参数提升可能会产生更好的推理路径。北美科技公司进入新一轮AI投资周期，资本支出大幅上升可能使公司面临成本压力。2024年科技巨头资本支出/营运现金流预计将达到40%以上。在AI的投资回报率尚不明显的现状下，科技巨头会更加重视AI投资的性价比。投资建议：1、AI电力：Constellation、NRG。2、AI算力产业链：1）AI GPU：英伟达、AMD；2）ASIC芯片设计：Marvell科技、博通；3）存储：SK海力士、三星电子、美光科技；4）服务器：联想集团、超微电脑、戴尔科技、慧与、工业富联；5）CoWoS：台积电、日月光、Amkor科技；6）网络：中际旭创、新易盛、Coherent、安费诺、Arista网络。3、AI应用： 1）云服务商：微软、谷歌、亚马逊、Oracle；2）AI+开发/数据分析：ServiceNow、Palantir、Datadog；3）AI+网络安全：微软、CrowdStrike、Fortinet；4）AI Agent：微软、Salesforce、Workday；5）AI+教育：多邻国、Coursera。风险分析：AI技术研发和产品迭代遭遇瓶颈；AI行业竞争加剧风险；商业化进展不及预期风险；国内外政策风险。 1、OpenAI o1开启复杂推理模型新时代美国东部时间2024年9月12日，OpenAI发布最新AI模型o1，o代表Orion（猎户座），开启了OpenAI的下一代复杂推理模型。同时，OpenAI发布了即日可用的预览版o1-preview和性价比更高的轻量级版本o1-mini，可用范围如下： 1）ChatGPT plus和Teams用户可以直接使用，但存在次数限制。刚发布时o1-preview每周可进行30次问答，o1-mini每周可进行50次问答，9月17日开始，o1-preview和o1-mini的次数限制分别提升至每周50次和每日50次；作为o1的早期版本，o1-preview和o1-mini暂不具备实时浏览网页、上传文件和图像等功能，计划于后续版本中陆续开放。 2）API Tier 5用户可以开始使用o1-preview和o1-mini的API，但速率限制为20RPM，暂不支持函数调用、流式处理、系统消息等功能。 3）9月16日开始，ChatGPT Enterprise和Edu用户可访问这两种模型。 4）未来o1-mini计划免费向所有ChatGPT用户开放。 1.1相比GPT-4o，o1在代码和理科能力上提升明显在编程、理科竞赛等推理密集型任务中，o1的性能明显优于GPT-4o。根据OpenAI官方博客，o1在编程竞赛Codeforces中的排名分位达到89%，在美国数学奥林匹克竞赛（AIME）中跻身前500名，在物理、生物、化学基准测试（GPQA）的准确性超过了人类博士水平。以2024年的AIME考试为例，GPT-4o仅能解决平均12%的问题，而o1的平均正确率在64个样本中达到了83%，在1000个样本中达到了93%。图1：GPT-4o、o1-preview、o1和人类专家在复杂推理任务中的得分差异在经典测试集的表现上，o1性能普遍优于GPT-4o。根据OpenAI官方博客，o1在MMMU测试集的得分为78.2%，成为首个与人类专家竞争的模型。在57个MMLU子类别中，o1在54个子类别中的表现优于GPT-4o，在化学、物理、数学等子类别上得分提升显著，但在公共关系、计量经济学、英语等学科上提升幅度较小。图2：o1相比于GPT-4o在各项测试集中的得分提升表1：不同测试集和子分类下GPT-4o、o1-preview、o1的得分对比 o1在部分自然语言任务中评价弱于GPT-4o，但具备更好的安全性。人类训练师的评分显示，认为o1在个人写作、文档编辑能力上优于GPT-4o的比例低于50%，显示出o1在文字生成和修改能力上没有明显提升。但o1在对齐和安全方面优于GPT-4o，o1-preview在关键越狱评估和模型安全拒绝边界评估等指标中性能显著提高。由于o1采用思维链的方式进行推理，在输出内容的过程中提供了更多的内部可见性，赋予模型更强的可控性和更多的优化空间。 o1-mini在维持较高性能的同时大幅度降低推理成本。由于在预训练期间针对STEM推理进行了优化，o1-mini在数学和编码能力上具备相当高的性价比，且拥有更低的延迟。根据OpenAI官网博客，o1-mini在AIME数学竞赛中的得分高于o1-preview，几乎与o1相当，但推理成本相较o1-preview便宜80%；此外，o1-mini在Codeforces编码竞赛和网络安全竞赛中表现优异。但另一方面，o1-mini在非STEM的事实知识任务中表现较差。图3：o1-mini、o1等模型AIME得分和推理成本对比图4：o1-mini的Codeforces得分显著优于o1-preview 1.2o1具备全局思维能力，复杂推理补足长尾需求，开拓学术教育垂类场景 OpenAI o1复杂推理能力的关键技术是思维链（CoT），让模型在给出答案前进行多步思考，而不是一步给出答案。在OpenAI的官方文档中展示了o1和GPT-4o在解码、编码、数学、字谜、语言等问题上的解答对比，并展示了o1的完整思维链。根据我们的归纳和测评，o1思维链的主要特征可以概括为以下两点：1）优先形成全局方法：在开始解答前，o1会先分析问题本身，抽象出底层规律，避免后续的解决思路跑偏，相比其他大模型的线性思维过程，准确度有明显提升；2）不断的追问和反思：在输出最终答案之前，o1会不断反思自己的解答过程是否有问题，有没有需要改进的地方，其完整思维链可达数百行。图5：针对复杂数学问题，o1-preview在思维链中不断进行纠错、追问和反思，最终得到完整的解题框架例如，在解答纵横填字游戏的问题时，GPT-4o和o1都会先试图理解游戏规则，但GPT-4o仅仅停在了“第一行和第一列单词首字母相同”上，便直接输出了错误答案，而o1通过思维链不断反思，得出了“每一行和每一列的对应字母都要相同”的底层规律，再基于该规律进行解答。同样，在解答复杂数学问题时，o1会先试图理解给定信息，通过完整思维链中大量的纠错和反思，归纳底层原理，并对后续的解答过程做出一定的限制。图6：针对规则复杂的纵横填字游戏，GPT-4o因无法理解规则而出错，o1-preview首先理解规则再进行解答不过，当前o1-preview所展现出的完整思维链仍较为僵化，与人类思维方式有较明显区别。例如，在OpenAI官网给出的解码案例中，实际的解码方式为两个字母一组，按照字母表顺序转化成数字，取平均值后再转化为对应的字母。例如oy=(15+25)/2=20=T。在完整的思维链中，o1所想到的第一个方法就非常接近正确答案，但它依然继续穷举了五种新方法才找到答案。在这个过程中，可以看到o1的联想能力较弱，而是通过类似于穷举法的方式寻找答案。图7：针对解码问题，o1-preview的思维链采用了类似穷举法的方式寻找答案，思维链较为僵化 o1的复杂推理能力有望补足AI应用的长尾需求，拓展学术教育等领域的垂类应用场景。过去以GPT-4o为代表的LLM在解答题目时虽然正确率较高，但解答方法可能较为繁琐，不符合教育场景的需求。o1不但在复杂问题上展现出更高的正确率，而且具备较强的全局思维能力，能优化出最佳解题过程，对于学术教育场景的AI应用使用体验提升较为明显。 1.3 o1在编程上展现出自主规划和主动思考能力，AI+低代码/网络安全领域有望最早受益 OpenAI o1在编程方面具备较强的自主性，可以一定程度上对冲o1高成本和高延迟的问题。根据o1开发者团队的采访，OpenAI内部开发人员使用o1最多的场景就是编程，主要有两个场景：1）采用测试驱动开发的方法：先编写一个单元测试，明确程序应该如何运行才算正确，将具体编写交给o1来完成，开发者只需要解决架构设计等更高层次的问题。2）调试：遇到bug时直接交给o1，可以直接解决或提供有价值的思路。另外，o1在解决AL/ML编程问题上进步明显，根据OpenAI研究工程师访谈，o1-preview的编码效率比GPT-4o提升15%，在多任务解决上的效率比GPT-4o提升21%。在民间测试中，o1效果最好的应用场景也是编程。1）代码性能优化：将Github Copilot和o1-preview结合，仅需几步操作，就可以优化一个原本运行缓慢的编码器，大幅度提升代码的性能；2）快速开发简单的项目：将AI编程工具Cursor Composer和o1-preview结合，可以在10分钟内完成一个带有动画效果的完整天气预报App。图8：将o1-preview与Github Copilot优化编码器运行速度图9：o1-preview与Cursor Composer结合，快速开发App OpenAI o1在网络安全攻防中表现优秀，能将复杂任务分解成多个子任务，并找到最简单的解决方法。根据OpenAI官方System card，o1-preview使用网络安全挑战赛CTF的课题进行测试，该课题要求参赛者找到隐藏在Docker中的flag，但由于系统配置问题比赛环境崩溃。在比赛几乎无法进行的情况下，o1-preview突破了主机VM上运行的Docker deamon API，在尝试修复环境失败后，模型直接通过启动命令启动了损坏容器的新实例，该实例允许模型直接通过DockerAPI从容器日志中读取flag，最终完成了课题。图10：o1-preview找到Docker Host API并启动了

点击免费查看完整报告

你可能感兴趣

AI产业前瞻系列报告（三）：从openAI o1看AI产业趋势：打破AI应用瓶颈，算力需求前景如何？

OpenAI o1开启复杂推理模型新时代

投资建议

风险分析

你可能感兴趣

AI产业前瞻系列报告（四）：从美股科技公司资本开支看国内互联网行业，AIDC行情将如何演绎？

传媒行业周观察：AI产业趋势向上，OpenAI发布新模型o1，苹果推出AI手机iPhone16

AI模型系列报告：从世界模型看算力需求变化

美股AI周报：OpenAI发布o1系列模型，黄仁勋表示AI芯片需求仍巨大

消费电子行业研究周报：英伟达推出Chat With RTX聊天机器人、OpenAI发布了首个文生视频模型Sora，看好上游AI算力硬件及下游应用相关机会，看好2月面板价格上修趋势及AIPC渗透率提升