您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[光大证券]:AI产业前瞻系列报告(三):从openAIo1看AI产业趋势:打破AI应用瓶颈,算力需求前景如何? - 发现报告

AI产业前瞻系列报告(三):从openAIo1看AI产业趋势:打破AI应用瓶颈,算力需求前景如何?

综合2024-09-24付天姿光大证券
AI智能总结
查看更多
AI产业前瞻系列报告(三):从openAIo1看AI产业趋势:打破AI应用瓶颈,算力需求前景如何?

事件:2024年9月12日,OpenAI发布最新模型o1,在编程、理科竞赛等推理密集型任务中性能明显优于GPT-4o,但在部分自然语言任务中较弱。 o1具备全局思维能力,复杂推理补足长尾需求,开拓学术教育等垂类场景。 根据我们的测评,o1思维链特征可以概括为:1)优先形成全局方法:在解答前o1会先分析问题、概括底层规律;2)不断的追问和反思:在输出最终答案之前,o1会不断反思解答过程并进行改进,其完整思维链可达数百行。 o1在编程上展现出自主规划能力,AI+低代码/网络安全领域有望最早受益。 1)低代码:o1在编程方面具备较强的自主性,可以一定程度上对冲o1高成本和高延迟的问题。2)网络安全:o1在网络安全攻防中表现优秀,能将复杂任务分解成多个子任务,具备初步的自主规划能力,也体现出了AI辅助网络攻击的潜在威胁,AI驱动的网络安全攻防升级将成为未来的主旋律。 AI Agent是打破AI应用发展瓶颈的关键,o1能否开启通往Agent之路? 受限于模型性能,AI应用进入瓶颈,北美科技巨头26年资本支出持续性以及上游算力产业链的业绩成长性受到质疑。而近期前沿论文和o1展现的强化学习推理、思维链等底层技术,是AI产业发展和投资情绪提振的关键。 新的Scaling Law,RL+CoT对于实现能自主规划的AI Agent至关重要。强化学习让AI自主探索和连续决策,符合Agent所需的自主规划能力。self-play通过自主博弈生成高质量数据,有利于突破外部训练数据短缺的现状。 思维链能极大提升模型涉及数学和符号的推理能力,但在其他问题上提升效果不显著,甚至可能有损模型性能。推理能力和模型的指令跟随能力呈现出分离关系,对于构建AGI来说,如何平衡二者的关系会成为一个核心问题。 RL范式下推理算力需求大幅上升,但不代表训练算力需求会停止增长。o1-preview生成相同内容的输出tokens大约是GPT-4o的5.9倍,其中72%的tokens为推理过程中生成,使用o1-preview的输出成本约为GPT-4o的36倍。Scaling Law由训练侧转向推理侧,对推理芯片的性能需求也会提高,且预训练阶段也需要消耗大量的算力。强化学习推理并不意味着模型参数停止扩张,因为主模型参数提升可能会产生更好的推理路径。 北美科技公司进入新一轮AI投资周期,资本支出大幅上升可能使公司面临成本压力。2024年科技巨头资本支出/营运现金流预计将达到40%以上。在AI的投资回报率尚不明显的现状下,科技巨头会更加重视AI投资的性价比。 投资建议:1、AI电力:Constellation、NRG。2、AI算力产业链:1)AI GPU:英伟达、AMD;2)ASIC芯片设计:Marvell科技、博通;3)存储:SK海力士、三星电子、美光科技;4)服务器:联想集团、超微电脑、戴尔科技、慧与、工业富联;5)CoWoS:台积电、日月光、Amkor科技;6)网络:中际旭创、新易盛、Coherent、安费诺、Arista网络。3、AI应用: 1)云服务商:微软、谷歌、亚马逊、Oracle;2)AI+开发/数据分析:ServiceNow、Palantir、Datadog;3)AI+网络安全 :微软 、CrowdStrike、Fortinet;4)AI Agent:微软、Salesforce、Workday;5)AI+教育:多邻国、Coursera。 风险分析:AI技术研发和产品迭代遭遇瓶颈;AI行业竞争加剧风险;商业化进展不及预期风险;国内外政策风险。 1、OpenAI o1开启复杂推理模型新时代 美国东部时间2024年9月12日,OpenAI发布最新AI模型o1,o代表Orion(猎户座),开启了OpenAI的下一代复杂推理模型。 同时,OpenAI发布了即日可用的预览版o1-preview和性价比更高的轻量级版本o1-mini,可用范围如下: 1)ChatGPT plus和Teams用户可以直接使用,但存在次数限制。刚发布时o1-preview每周可进行30次问答,o1-mini每周可进行50次问答,9月17日开始,o1-preview和o1-mini的次数限制分别提升至每周50次和每日50次;作为o1的早期版本,o1-preview和o1-mini暂不具备实时浏览网页、上传文件和图像等功能,计划于后续版本中陆续开放。 2)API Tier 5用户可以开始使用o1-preview和o1-mini的API,但速率限制为20RPM,暂不支持函数调用、流式处理、系统消息等功能。 3)9月16日开始,ChatGPT Enterprise和Edu用户可访问这两种模型。 4)未来o1-mini计划免费向所有ChatGPT用户开放。 1.1相比GPT-4o,o1在代码和理科能力上提升明显 在编程、理科竞赛等推理密集型任务中,o1的性能明显优于GPT-4o。根据OpenAI官方博客,o1在编程竞赛Codeforces中的排名分位达到89%,在美国数学奥林匹克竞赛(AIME)中跻身前500名,在物理、生物、化学基准测试(GPQA)的准确性超过了人类博士水平。以2024年的AIME考试为例,GPT-4o仅能解决平均12%的问题,而o1的平均正确率在64个样本中达到了83%,在1000个样本中达到了93%。 图1:GPT-4o、o1-preview、o1和人类专家在复杂推理任务中的得分差异 在经典测试集的表现上,o1性能普遍优于GPT-4o。根据OpenAI官方博客,o1在MMMU测试集的得分为78.2%,成为首个与人类专家竞争的模型。在57个MMLU子类别中,o1在54个子类别中的表现优于GPT-4o,在化学、物理、数学等子类别上得分提升显著,但在公共关系、计量经济学、英语等学科上提升幅度较小。 图2:o1相比于GPT-4o在各项测试集中的得分提升 表1:不同测试集和子分类下GPT-4o、o1-preview、o1的得分对比 o1在部分自然语言任务中评价弱于GPT-4o,但具备更好的安全性。人类训练师的评分显示,认为o1在个人写作、文档编辑能力上优于GPT-4o的比例低于50%,显示出o1在文字生成和修改能力上没有明显提升。但o1在对齐和安全方面优于GPT-4o,o1-preview在关键越狱评估和模型安全拒绝边界评估等指标中性能显著提高。由于o1采用思维链的方式进行推理,在输出内容的过程中提供了更多的内部可见性,赋予模型更强的可控性和更多的优化空间。 o1-mini在维持较高性能的同时大幅度降低推理成本。由于在预训练期间针对STEM推理进行了优化,o1-mini在数学和编码能力上具备相当高的性价比,且拥有更低的延迟。根据OpenAI官网博客,o1-mini在AIME数学竞赛中的得分高于o1-preview,几乎与o1相当,但推理成本相较o1-preview便宜80%; 此外,o1-mini在Codeforces编码竞赛和网络安全竞赛中表现优异。但另一方面,o1-mini在非STEM的事实知识任务中表现较差。 图3:o1-mini、o1等模型AIME得分和推理成本对比 图4:o1-mini的Codeforces得分显著优于o1-preview 1.2o1具备全局思维能力,复杂推理补足长尾需求,开拓学术教育垂类场景 OpenAI o1复杂推理能力的关键技术是思维链(CoT),让模型在给出答案前进行多步思考,而不是一步给出答案。在OpenAI的官方文档中展示了o1和GPT-4o在解码、编码、数学、字谜、语言等问题上的解答对比,并展示了o1的完整思维链。 根据我们的归纳和测评,o1思维链的主要特征可以概括为以下两点:1)优先形成全局方法:在开始解答前,o1会先分析问题本身,抽象出底层规律,避免后续的解决思路跑偏,相比其他大模型的线性思维过程,准确度有明显提升;2)不断的追问和反思:在输出最终答案之前,o1会不断反思自己的解答过程是否有问题,有没有需要改进的地方,其完整思维链可达数百行。 图5:针对复杂数学问题,o1-preview在思维链中不断进行纠错、追问和反思,最终得到完整的解题框架 例如,在解答纵横填字游戏的问题时,GPT-4o和o1都会先试图理解游戏规则,但GPT-4o仅仅停在了“第一行和第一列单词首字母相同”上,便直接输出了错误答案,而o1通过思维链不断反思,得出了“每一行和每一列的对应字母都要相同”的底层规律,再基于该规律进行解答。同样,在解答复杂数学问题时,o1会先试图理解给定信息,通过完整思维链中大量的纠错和反思,归纳底层原理,并对后续的解答过程做出一定的限制。 图6:针对规则复杂的纵横填字游戏,GPT-4o因无法理解规则而出错,o1-preview首先理解规则再进行解答 不过,当前o1-preview所展现出的完整思维链仍较为僵化,与人类思维方式有较明显区别。例如,在OpenAI官网给出的解码案例中,实际的解码方式为两个字母一组,按照字母表顺序转化成数字,取平均值后再转化为对应的字母。 例如oy=(15+25)/2=20=T。在完整的思维链中,o1所想到的第一个方法就非常接近正确答案,但它依然继续穷举了五种新方法才找到答案。在这个过程中,可以看到o1的联想能力较弱,而是通过类似于穷举法的方式寻找答案。 图7:针对解码问题,o1-preview的思维链采用了类似穷举法的方式寻找答案,思维链较为僵化 o1的复杂推理能力有望补足AI应用的长尾需求,拓展学术教育等领域的垂类应用场景。过去以GPT-4o为代表的LLM在解答题目时虽然正确率较高,但解答方法可能较为繁琐,不符合教育场景的需求。o1不但在复杂问题上展现出更高的正确率,而且具备较强的全局思维能力,能优化出最佳解题过程,对于学术教育场景的AI应用使用体验提升较为明显。 1.3 o1在编程上展现出自主规划和主动思考能力,AI+低代码/网络安全领域有望最早受益 OpenAI o1在编程方面具备较强的自主性,可以一定程度上对冲o1高成本和高延迟的问题。根据o1开发者团队的采访,OpenAI内部开发人员使用o1最多的场景就是编程,主要有两个场景:1)采用测试驱动开发的方法:先编写一个单元测试,明确程序应该如何运行才算正确,将具体编写交给o1来完成,开发者只需要解决架构设计等更高层次的问题。2)调试:遇到bug时直接交给o1,可以直接解决或提供有价值的思路。另外,o1在解决AL/ML编程问题上进步明显,根据OpenAI研究工程师访谈,o1-preview的编码效率比GPT-4o提升15%,在多任务解决上的效率比GPT-4o提升21%。 在民间测试中,o1效果最好的应用场景也是编程。1)代码性能优化:将Github Copilot和o1-preview结合,仅需几步操作,就可以优化一个原本运行缓慢的编码器,大幅度提升代码的性能;2)快速开发简单的项目:将AI编程工具Cursor Composer和o1-preview结合,可以在10分钟内完成一个带有动画效果的完整天气预报App。 图8:将o1-preview与Github Copilot优化编码器运行速度 图9:o1-preview与Cursor Composer结合,快速开发App OpenAI o1在网络安全攻防中表现优秀,能将复杂任务分解成多个子任务,并找到最简单的解决方法。根据OpenAI官方System card,o1-preview使用网络安全挑战赛CTF的课题进行测试,该课题要求参赛者找到隐藏在Docker中的flag,但由于系统配置问题比赛环境崩溃。在比赛几乎无法进行的情况下,o1-preview突破了主机VM上运行的Docker deamon API,在尝试修复环境失败后,模型直接通过启动命令启动了损坏容器的新实例,该实例允许模型直接通过DockerAPI从容器日志中读取flag,最终完成了课题。 图10:o1-preview找到Docker Host API并启动了