2024年9月25日 行业研究 从OpenAIo1看AI产业趋势:打破AI应用瓶颈,算力需求前景如何? ——AI产业前瞻系列报告(三) 要点 事件:2024年9月12日,OpenAI发布最新模型o1,在编程、理科竞赛等推理密集型任务中性能明显优于GPT-4o,但在部分自然语言任务中较弱。o1具备全局思维能力,复杂推理补足长尾需求,开拓学术教育等垂类场景。 根据我们的测评,o1思维链特征可以概括为:1)优先形成全局方法:在解 答前o1会先分析问题、概括底层规律;2)不断的追问和反思:在输出最终 答案之前,o1会不断反思解答过程并进行改进,其完整思维链可达数百行。 o1在编程上展现出自主规划能力,AI+低代码/网络安全领域有望最早受益。1)低代码:o1在编程方面具备较强的自主性,可以一定程度上对冲o1高成本和高延迟的问题。2)网络安全:o1在网络安全攻防中表现优秀,能将复杂任务分解成多个子任务,具备初步的自主规划能力,也体现出了AI辅助 网络攻击的潜在威胁,AI驱动的网络安全攻防升级将成为未来的主旋律。AIAgent是打破AI应用发展瓶颈的关键,o1能否开启通往Agent之路? 受限于模型性能,AI应用进入瓶颈,北美科技巨头26年资本支出持续性以及上游算力产业链的业绩成长性受到质疑。而近期前沿论文和o1展现的强化学习推理、思维链等底层技术,是AI产业发展和投资情绪提振的关键。新的ScalingLaw,RL+CoT对于实现能自主规划的AIAgent至关重要。强化学习让AI自主探索和连续决策,符合Agent所需的自主规划能力。self-play通过自主博弈生成高质量数据,有利于突破外部训练数据短缺的现状。思维链能极大提升模型涉及数学和符号的推理能力,但在其他问题上提升效 果不显著,甚至可能有损模型性能。推理能力和模型的指令跟随能力呈现出 分离关系,对于构建AGI来说,如何平衡二者的关系会成为一个核心问题。RL范式下推理算力需求大幅上升,但不代表训练算力需求会停止增长。o1-preview生成相同内容的输出tokens大约是GPT-4o的5.9倍,其中72%的tokens为推理过程中生成,使用o1-preview的输出成本约为GPT-4o的 36倍。ScalingLaw由训练侧转向推理侧,对推理芯片的性能需求也会提高,且预训练阶段也需要消耗大量的算力。强化学习推理并不意味着模型参数停止扩张,因为主模型参数提升可能会产生更好的推理路径。 北美科技公司进入新一轮AI投资周期,资本支出大幅上升可能使公司面临成本压力。2024年科技巨头资本支出/营运现金流预计将达到40%以上。在AI的投资回报率尚不明显的现状下,科技巨头会更加重视AI投资的性价比。 投资建议:1、AI电力:Constellation、NRG。2、AI算力产业链:1)AIGPU:英伟达、AMD;2)ASIC芯片设计:Marvell科技、博通;3)存储:SK海力士、三星电子、美光科技;4)服务器:联想集团、超微电脑、戴尔科技、慧与、工业富联;5)CoWoS:台积电、日月光、Amkor科技;6)网络:中际旭创、新易盛、Coherent、安费诺、Arista网络。3、AI应用:1)云服务商:微软、谷歌、亚马逊、Oracle;2)AI+开发/数据分析:ServiceNow、Palantir、Datadog;3)AI+网络安全:微软、CrowdStrike、Fortinet;4)AIAgent:微软、Salesforce、Workday;5)AI+教育:多邻国、Coursera。 风险分析:AI技术研发和产品迭代遭遇瓶颈;AI行业竞争加剧风险;商业化进展不及预期风险;国内外政策风险。 海外TMT 买入(维持) 作者分析师:付天姿 执业证书编号:S0930517040002021-52523692 futz@ebscn.com 联系人:宾特丽亚binteliya@ebscn.com 行业与标普500指数对比图 80% 60% 40% 20% 2023-9 2023-10 2023-11 2023-12 2024-1 2024-2 2024-3 2024-4 2024-5 2024-6 2024-7 2024-8 0% -20% 标普500标普500信息技术 资料来源:Wind 相关研报梳理全球AIGC数据版权规范,哪些领域具备商业化潜力?——AI产业前瞻系列报告(二)(2023-12-25) 探讨GPTs背后的产业逻辑:拉开AIGC应用生态的帷幕——AI产业前瞻系列报告 (一)(2023-11-18) AI驱动网络安全供需提升,架构迭代引领行业变革——美股网络安全行业深度报告(2024-06-19) 谷歌Gemini赋能搜索体验,多模态模型&TPU持续迭代——GoogleIO2024产品发布会点评(2024-05-16) GPT-4o后续影响:推理端降本+多模态+低延迟带来AI应用转折点——OpenAI春季产品发布会点评(2024-05-14) 探讨AIGC视频的核心痛点与未来趋势,Pika1.0能否带来新变化?——AIGC行业跟踪报告(三十五)(2023-12-05) 目录 1、OpenAIo1开启复杂推理模型新时代4 1.1相比GPT-4o,o1在代码和理科能力上提升明显4 1.2o1具备全局思维能力,复杂推理补足长尾需求,开拓学术教育垂类场景6 1.3o1在编程上展现出自主规划和主动思考能力,AI+低代码/网络安全领域有望最早受益8 2、AIAgent是打破AI应用发展瓶颈的关键,o1能否开启通往Agent之路?11 2.1新的ScalingLaw,RL+CoT对于实现能自主规划的AIAgent至关重要12 2.2RL范式下推理算力需求大幅上升,但不代表训练算力需求会停止增长13 3、投资建议15 4、风险分析16 中庚基金 图目录 图1:GPT-4o、o1-preview、o1和人类专家在复杂推理任务中的得分差异4 图2:o1相比于GPT-4o在各项测试集中的得分提升5 图3:o1-mini、o1等模型AIME得分和推理成本对比6 图4:o1-mini的Codeforces得分显著优于o1-preview6 图5:针对复杂数学问题,o1-preview在思维链中不断进行纠错、追问和反思,最终得到完整的解题框架6 图6:针对规则复杂的纵横填字游戏,GPT-4o因无法理解规则而出错,o1-preview首先理解规则再进行解答.7图7:针对解码问题,o1-preview的思维链采用了类似穷举法的方式寻找答案,思维链较为僵化7 图8:将o1-preview与GithubCopilot优化编码器运行速度8 图9:o1-preview与CursorComposer结合,快速开发App8 图10:o1-preview找到DockerHostAPI并启动了损坏容器的新实例9 图11:2023年交互式入侵主要针对北美洲地区9 图12:2021-2023年针对云的入侵案例显著增加9 图13:o1-preview和o1-mini在越狱学术基准StrongReject上明显领先GPT-4o10 图14:构建AI应用的五层基石理论11 图15:AlphaZero随机初始化、self-play、MCTS、策略更新11 图16:o1在AIEM测试中的准确率与“训练时间计算”和“测试时间计算”呈正比12 图17:在PaLM2-S*模型修正场景中,计算优化缩放(ComputeOptimal)相比传统的Best-of-N方法效率显著提高13 图18:主流模型输出速度和输出质量的对比,o1-preview为输出质量牺牲了输出速度14 图19:主流模型输入和输出的价格对比14 图20:OpenAI各模型输出和推理tokens消耗对比14 图21:科技公司资本支出占营运现金流的比例变化趋势15 图22:科技公司资本支出占GAAP净利润的比例变化趋势15 表目录 表1:不同测试集和子分类下GPT-4o、o1-preview、o1的得分对比5 表2:23年以来部分网络安全公司推出的生成式AI产品和功能10 1、OpenAIo1开启复杂推理模型新时代 美国东部时间2024年9月12日,OpenAI发布最新AI模型o1,o代表Orion(猎户座),开启了OpenAI的下一代复杂推理模型。 同时,OpenAI发布了即日可用的预览版o1-preview和性价比更高的轻量级版本o1-mini,可用范围如下: 1)ChatGPTplus和Teams用户可以直接使用,但存在次数限制。刚发布时o1-preview每周可进行30次问答,o1-mini每周可进行50次问答,9月17日开始,o1-preview和o1-mini的次数限制分别提升至每周50次和每日50次;作为o1的早期版本,o1-preview和o1-mini暂不具备实时浏览网页、上传文件和图像等功能,计划于后续版本中陆续开放。 2)APITier5用户可以开始使用o1-preview和o1-mini的API,但速率限制为20RPM,暂不支持函数调用、流式处理、系统消息等功能。 3)9月16日开始,ChatGPTEnterprise和Edu用户可访问这两种模型。4)未来o1-mini计划免费向所有ChatGPT用户开放。 1.1相比GPT-4o,o1在代码和理科能力上提升明显 在编程、理科竞赛等推理密集型任务中,o1的性能明显优于GPT-4o。根据OpenAI官方博客,o1在编程竞赛Codeforces中的排名分位达到89%,在美国数学奥林匹克竞赛(AIME)中跻身前500名,在物理、生物、化学基准测试 (GPQA)的准确性超过了人类博士水平。以2024年的AIME考试为例,GPT-4o仅能解决平均12%的问题,而o1的平均正确率在64个样本中达到了83%,在1000个样本中达到了93%。 图1:GPT-4o、o1-preview、o1和人类专家在复杂推理任务中的得分差异 资料来源:OpenAI官网,实心矩阵代表使用pass@1的正确率,虚影矩阵代表64个样本的平均正确率 在经典测试集的表现上,o1性能普遍优于GPT-4o。根据OpenAI官方博客,o1在MMMU测试集的得分为78.2%,成为首个与人类专家竞争的模型。在57个MMLU子类别中,o1在54个子类别中的表现优于GPT-4o,在化学、物理、数学等子类别上得分提升显著,但在公共关系、计量经济学、英语等学科上提升幅度较小。 图2:o1相比于GPT-4o在各项测试集中的得分提升 资料来源:OpenAI官网博客 表1:不同测试集和子分类下GPT-4o、o1-preview、o1的得分对比 测试集 Metric gpt-4o 得分 o1-preview o1 相比GPT-4o o1-preview 的提升o1 CompetitionMath cons@64 13.4 56.7 83.3 323.1% 521.6% AIME(2024) pass@1 9.3 44.6 74.4 379.6% 700.0% CompetitionCode Elo 808 1,258 1,673 55.7% 107.1% CodeForces Percentile 11 62 89 463.6% 709.1% GPQADiamond cons@64 pass@1 56.1 78.3 78 39.6% 39.0% 50.6 73.3 77.3 44.9% 52.8% Biology cons@64 pass@1 63.2 73.7 68.4 16.6% 8.2% 61.6 65.9 69.2 7.0% 12.3% Chemistry cons@64 pass@1 43 60.2 65.6 40.0% 52.6% 40.2 59.9 64.7 49.0% 60.9% Physics cons@64 pass@1 68.6 89.5 94.2 30.5% 37.3% 59.5