证券研究报告|2024年10月11日 AI大模型系列报告二 OpenAI发布GPT-O1,模型能力持续提升 行业研究·行业专题计算机·人工智能投资评级:优于大市 证券分析师:熊莉证券分析师:艾宪 021-617610670755-22941051 xiongli1@guosen.com.cnaixian@guosen.com.cnS0980519030002S0980524090001 摘要 OpenAI发布GPT-O1,模型能力持续提升。1)思维链提升模型能力:GPT-O1在回复用户问题之前会生成一条较长的内部思维链,将复杂 的问题拆分为更简单的步骤,且当前方法无效时,会进一步尝试其他方式,引入思维链将显著提升模型的推理能力;2)GPT-O1思考过 程消耗时间,答案更加细化:新模型会在推理过程中生成隐藏的思维链,且思考过程消耗时间,GPT-O1在同样问题下,给出的结果更加 详细;3)GPT-O1更适用于解决纵深问题:OpenAIo1-preview和o1-mini模型用于解决困难问题,主要适用于研究、策略、编码、数学 和科学等领域的复杂问题解决任务。 GPT-O1有望拉动ASIC芯片需求,适用于高价值场景。1)GPT-O1拉动推理算力增长,ASIC芯片或大有可为:一方面,思维链(CoT)需要 多步推理进而大幅提升推理算力的需求,另一方面,ASIC芯片在推理领域具有明显优势,根据CSET数据,其效率和速度约为CPU的100- 1000倍,相较于GPU和FPGA具备显著竞争力;2)GPT-O1适用于高价值场景:随着大模型推理能力提升,其在多领域表现出色,例如科研 场景、营销内容生成、制定计划、代码生成等。3)市场空间测算:由于计算机语言相对规范,我们认为GPT-O1渗透率在编程领域有望 率先提升;根据EvansDataCorporationData数据,22年全球有2690万软件开发者,根据CSDN发布的《2021-2022中国开发者调查报告》 显示,大部分程序员平均每天会写200行左右的代码,假设每行代码10个单词,对应2000个单词,折合约2666个tokens,则假设终局下 GPT-O1渗透率为75%,重复修改次数为10次/天,对应年度tokens消耗量为2690*75%*2666*300*10=1613596.5亿个tokens(假设每年工作 300天),对应市场空间为96.82亿美金(此处简化,仅计算模型输出Tokens,60美元/百万tokens)。随着其他领域渗透率的提升, GPT-O1的市场空间将持续增长。 投资建议:GPT-01使用思维链等方法,进一步提升了大模型的能力。一方面,由于思维链在推理阶段的使用,GPT-O1提升了推理算力的 消耗,建议关注国产算力芯片公司,例如海光信息等;另一方面,思维链提升大模型的能力,给予国产大模型公司启示,国产大模型能 力有望进一步提升,建议关注国产AI应用公司,例如金山办公等。 风险提示:AI大模型迭代不及预期风险、AI应用落地不及预期风险、AI芯片迭代不及预期的风险。 01 OpenAI发布GPT-O1,模型能力持续提升 02 GPT-O1有望拉动Asic芯片需求,应用精度提升 03 投资建议与风险提示 24年9月12日,OpenAI发布GPT-O1。同GPT-4O相比,GPT-O1在数学、代码、科学问题(PhD级别)评分显著提升;从测试结果来看,Plus用户的普通回复同GPT-4O感觉差别不大,但对于纵深的代码问题,GPT-O1的解答更为准确。 技术路线:思维链(CoT)提升模型推理能力。1)引入思维链(CoT):GPT-O1在回复用户问题之前会生成一条较长的内部思维链,将复杂的问题拆分为更简单的步骤,且当前方法无效时,会进一步尝试其他方式,引入思维链将显著提升模型的推理能力;2)通过强化学习训练思维链(CoT):OpenAI通过强化学习去训练思维链,其发现GPT-O1的表现会随强化学习(Train-timecompute)和思考时间 (Test-timeCompute)的增加而提升,其中奖励模型的优化是关键。 图:GPT-O1在数学、代码、科学问题(PhD级别)评分显著高于GPT-4o 资料来源:OpenAI官网,国信证券经济研究所整理 图:GPT-O1的表现随强化学习和思考时间的增加而提升 资料来源:OpenAI官网,国信证券经济研究所整理 OpenAI通过强化学习加强思维链(CoT):基于标准的强化学习框架,智能体在环境中采取一个动作,然后更新环境状态,并会得到一个奖励(Reward,局部信号,可以为正向信号,也可以为负向信号);智能体唯一目标是长期期望奖励最大化,对“采取动作-查看奖励-观察新状态-采取另一动作”流程进行循环,在奖励函数等参数设置正确的情况下,智能体可以在每一步做出可靠的优秀决策。 GPT-O1在推理阶段同传统LLMs不同:对于绝大多数LLMs,其预训练(Pre-training)、后训练(Post-training)花费较长时间,但在推理(Inference)环节,模型仅用于做出预测或生成文本,过程较短;相比之下,GPT-O1在推理阶段需要更多的实时计算资源和时间进行更复杂的推理任务,这个阶段较长且关键。 图:强化学习标准框架 资料来源:AlexanderZai-《深度强化学习实战》-人民邮电出版社(2023年)-P30,国信证券经济研究所整理 图:GPT-O1 资料来源:JimFan(FromX),国信证券经济研究所整理 GPT-O1思考过程消耗时间,答案更加细化:强化学习增强了GPT-O1中的思维链,新模型会在推理过程中生成隐藏的思维链,且思考过程消耗时间;GPT-O1在同样问题下,给出的结果更加详细,此外,在提示词不同的情况下,生成的思维链也会略有区别。 图:GPT-O1思考过程消耗时间,答案更加细化 资料来源:GPT-O1,国信证券经济研究所整理 GPT-O1与GPT-4O模型适用的下游场景不同,新模型更适合解决复杂问题。 OpenAIo1-preview和o1-mini模型用于解决困难问题,主要适用于研究、策略、编码、数学和科学等领域的复杂问题解决任务,使用场景包括策略制定、课程辅导、编码练习和评论等。目前OpenAIo1-preview和o1-mini模型无法访问网页、语音、文件上传、视觉等高级功能。 GPT-4o在自然语言任务中表现更佳,且接受文本、音频、图像和视频的任意组合作为输入。因此对于大多数使用需求,尤其是那些涉及使用工具和视觉的用例,GPT-4o仍是最优选择。 成本方面,o1-preview的API调用输入价格为GPT-4o的三倍。调用o1-preview模型时,由于内部推理tokens的存在,生成的tokens总数可能会超过可见数量,为避免隐藏tokens影响成本,用户可设定max_tokens参数,控制生成的tokens数量和用户可见的tokens数量。 图:GPT-O1系列模型同GPT-4O模型对比 在人类偏好评估中,O1-Preview在数据分析、编码和数学等推理密集型类别中优于GPT-4O。在自然语言任务中表现不及GPT-4O 资料来源:OpenAI官网,国信证券经济研究所整理 图:OpenAI模型数据对比 API调用价格(百万tokens) 模型 适用领域 上下文范围(tokens) 最大输出tokens 输入 输出 GPT-4o适用于复杂多步骤任务,接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和 图像输出的任意组合 1280004096515 GPT-4ominiGPT-4o的简化版本,适用于快速、简单的任务,且具有视觉功能128000163840.150.6 OpenAIo1-preview采用强化训练学习复杂推理,擅长解决需要额外思考的复杂问题,适用于研究、策略、编码、数学 和科学等领域 128000327681560 OpenAIo1-mini快速、经济高效的推理模型,专为编码、数学和科学使用案例量身定制12800065536312 资料来源:OpenAI官网,国信证券经济研究所整理 GPT-O1更适用于解决纵深问题。随着GPT-O1推理能力提升,处理复杂任务能力变强,coding能力比前代模型显著提高,具有生成详细计划能力;从测试结果看,Plus用户的普通问题回复和GPT-4o感官差别不大,但对于纵深的问题(比如代码问题)解答更为准确。 图:GPT-O1更适用于解决纵深问题 使用o1-preview求解微分方程,经过10s的思考给出详细解题步骤 资料来源:GPT-O1,国信证券经济研究所整理 01 OpenAI发布GPT-O1,模型能力持续提升 02 GPT-O1有望拉动ASIC芯片需求,适用于高价值场景 03 投资建议与风险提示 思维链(CoT)拉动推理算力增长:GPT-O1大模型显著特点是使用思维链(CoT)提升推理效果,思维链(CoT)需要多步推理进而大幅提升推理算力的需求,同时推理时间的增长亦是推理算力消耗增长的反映。 思维链(CoT)反向拉动了推理模型参数量增长,进一步提升推理算力需求。根据JasonWei等人在23年发布的文章《Chain-of-ThoughtPromptingElicitsReasoninginLargeLanguageModels》,思维链仅对1000亿以上参数模型的推理有显著提升;此前,为节省推理算力消耗,大多数模型通过蒸馏等方式缩小模型参数量,而思维链反向限定模型参数量下限,进而拉动推理阶段算力需求增长。 图:思维链多步推理提升推理阶段算力消耗 资料来源:ShiyuFang等著-《TowardsInteractiveandLearnableCooperativeDrivingAutomation:aLargeLanguageModel-DrivenDecision-MakingFramework》-arXiv(2024)-P6,国信证券经济研究所整理 图:思维链(CoT)在1000亿参数模型上才能带来显著提升 资料来源:JasonWei等著-《Chain-of-ThoughtPromptingElicitsReasoninginLargeLanguageModels》 -arXiv(2023)-P5,国信证券经济研究所整理 推理芯片更加关注功耗、时延、成本,且对精度要求相对较低。深度学习由训练和推理两个任务组成,因为AI芯片的主要功能就是训练和推理。1)训练:对大量数据在平台上进行学习,并形成具备特定功能的神经网络模型。由于训练所需数据量巨大、算法复杂度高,对AI芯片有高算力、高容量、高精度和通用性要求。2)推理:指基于已经训练好的模型,针对输入数据计算结果,更加关注芯片功耗、时延、成本等因素,且对精度的要求相对较低。 ASIC芯片在推理领域具有明显优势。根据CSET数据,ASIC芯片在推理领域优势明显,其效率和速度约为CPU的100-1000倍,相较于GPU和FPGA具备显著竞争力。 训练 推理 通用性 推理 准确率 效率 速度 效率 速度 CPU 1xbaseline 很高 ~98-99.7% GPU ~10-100x ~10-1,000x~1-10x ~1-100x 高 ~98-99.7% FPGA - -~10-100x ~10-100x 中 ~95-99% ASIC ~100-1,000x ~10-1,000x~100-1000x ~10-1000x 低 ~90-98% 图:ASIC芯片在推理领域具有明显优势 资料来源:CSET,国信证券经济研究所整理 图:ASIC芯片更多应用于推理领域 资料来源:McKinseyAnalysis,国信证券经济研究所整理 GPT-O1适用于高价值、低实时性场景。GPT-O1使用思维链,大幅提升大模型的推理能力,根据GPT-O1的测试情