证券研究报告2024年10月11日 AI大模型系列报告二 OpenAI发布GPTO1,模型能力持续提升 行业研究行业专题计算机人工智能投资评级:优于大市 证券分析师:熊莉证券分析师:艾宪 02161761067075522941051 xiongli1guosencomcnaixianguosencomcnS0980519030002S0980524090001 摘要 OpenAI发布GPTO1,模型能力持续提升。1)思维链提升模型能力:GPTO1在回复用户问题之前会生成一条较长的内部思维链,将复杂 的问题拆分为更简单的步骤,且当前方法无效时,会进一步尝试其他方式,引入思维链将显著提升模型的推理能力;2)GPTO1思考过 程消耗时间,答案更加细化:新模型会在推理过程中生成隐藏的思维链,且思考过程消耗时间,GPTO1在同样问题下,给出的结果更加 详细;3)GPTO1更适用于解决纵深问题:OpenAIo1preview和o1mini模型用于解决困难问题,主要适用于研究、策略、编码、数学 和科学等领域的复杂问题解决任务。 GPTO1有望拉动ASIC芯片需求,适用于高价值场景。1)GPTO1拉动推理算力增长,ASIC芯片或大有可为:一方面,思维链(CoT)需要 多步推理进而大幅提升推理算力的需求,另一方面,ASIC芯片在推理领域具有明显优势,根据CSET数据,其效率和速度约为CPU的100 1000倍,相较于GPU和FPGA具备显著竞争力;2)GPTO1适用于高价值场景:随着大模型推理能力提升,其在多领域表现出色,例如科研 场景、营销内容生成、制定计划、代码生成等。3)市场空间测算:由于计算机语言相对规范,我们认为GPTO1渗透率在编程领域有望 率先提升;根据EvansDataCorporationData数据,22年全球有2690万软件开发者,根据CSDN发布的《20212022中国开发者调查报告》 显示,大部分程序员平均每天会写200行左右的代码,假设每行代码10个单词,对应2000个单词,折合约2666个tokens,则假设终局下 GPTO1渗透率为75,重复修改次数为10次天,对应年度tokens消耗量为26907526663001016135965亿个tokens(假设每年工作 300天),对应市场空间为9682亿美金(此处简化,仅计算模型输出Tokens,60美元百万tokens)。随着其他领域渗透率的提升, GPTO1的市场空间将持续增长。 投资建议:GPT01使用思维链等方法,进一步提升了大模型的能力。一方面,由于思维链在推理阶段的使用,GPTO1提升了推理算力的 消耗,建议关注国产算力芯片公司,例如海光信息等;另一方面,思维链提升大模型的能力,给予国产大模型公司启示,国产大模型能 力有望进一步提升,建议关注国产AI应用公司,例如金山办公等。 风险提示:AI大模型迭代不及预期风险、AI应用落地不及预期风险、AI芯片迭代不及预期的风险。 01 OpenAI发布GPTO1,模型能力持续提升 02 GPTO1有望拉动Asic芯片需求,应用精度提升 03 投资建议与风险提示 24年9月12日,OpenAI发布GPTO1。同GPT4O相比,GPTO1在数学、代码、科学问题(PhD级别)评分显著提升;从测试结果来看,Plus用户的普通回复同GPT4O感觉差别不大,但对于纵深的代码问题,GPTO1的解答更为准确。 技术路线:思维链(CoT)提升模型推理能力。1)引入思维链(CoT):GPTO1在回复用户问题之前会生成一条较长的内部思维链,将复杂的问题拆分为更简单的步骤,且当前方法无效时,会进一步尝试其他方式,引入思维链将显著提升模型的推理能力;2)通过强化学习训练思维链(CoT:OpenAI通过强化学习去训练思维链,其发现GPTO1的表现会随强化学习(Traintimecompute)和思考时间 (TesttimeCompute)的增加而提升,其中奖励模型的优化是关键。 图:GPTO1在数学、代码、科学问题(PhD级别)评分显著高于GPT4o 资料来源:OpenAI官网,国信证券经济研究所整理 图:GPTO1的表现随强化学习和思考时间的增加而提升 资料来源:OpenAI官网,国信证券经济研究所整理 OpenAI通过强化学习加强思维链(CoT):基于标准的强化学习框架,智能体在环境中采取一个动作,然后更新环境状态,并会得到一个奖励(Reward,局部信号,可以为正向信号,也可以为负向信号);智能体唯一目标是长期期望奖励最大化,对“采取动作查看奖励观察新状态采取另一动作”流程进行循环,在奖励函数等参数设置正确的情况下,智能体可以在每一步做出可靠的优秀决策。 GPTO1在推理阶段同传统LLMs不同:对于绝大多数LLMs,其预训练(Pretraining)、后训练(Posttraining)花费较长时间,但在推理(Inference)环节,模型仅用于做出预测或生成文本,过程较短;相比之下,GPTO1在推理阶段需要更多的实时计算资源和时间进行更复杂的推理任务,这个阶段较长且关键。 图:强化学习标准框架 资料来源:AlexanderZai《深度强化学习实战》人民邮电出版社(2023年)P30,国信证券经济研究所整理 图:GPTO1 资料来源:JimFan(FromX),国信证券经济研究所整理 GPTO1思考过程消耗时间,答案更加细化:强化学习增强了GPTO1中的思维链,新模型会在推理过程中生成隐藏的思维链,且思考过程消耗时间;GPTO1在同样问题下,给出的结果更加详细,此外,在提示词不同的情况下,生成的思维链也会略有区别。 图:GPTO1思考过程消耗时间,答案更加细化 资料来源:GPTO1,国信证券经济研究所整理 GPTO1与GPT4O模型适用的下游场景不同,新模型更适合解决复杂问题。 OpenAIo1preview和o1mini模型用于解决困难问题,主要适用于研究、策略、编码、数学和科学等领域的复杂问题解决任务,使用场景包括策略制定、课程辅导、编码练习和评论等。目前OpenAIo1preview和o1mini模型无法访问网页、语音、文件上传、视觉等高级功能。 GPT4o在自然语言任务中表现更佳,且接受文本、音频、图像和视频的任意组合作为输入。因此对于大多数使用需求,尤其是那些涉及使用工具和视觉的用例,GPT4o仍是最优选择。 成本方面,o1preview的API调用输入价格为GPT4o的三倍。调用o1preview模型时,由于内部推理tokens的存在,生成的tokens总数可能会超过可见数量,为避免隐藏tokens影响成本,用户可设定maxtokens参数,控制生成的tokens数量和用户可见的tokens数量。 图:GPTO1系列模型同GPT4O模型对比 在人类偏好评估中,O1Preview在数据分析、编码和数学等推理密集型类别中优于GPT4O。在自然语言任务中表现不及GPT4O 资料来源:OpenAI官网,国信证券经济研究所整理 图:OpenAI模型数据对比 API调用价格(百万tokens) 模型 适用领域 上下文范围(tokens) 最大输出tokens 输入 输出 GPT4o适用于复杂多步骤任务,接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和 图像输出的任意组合 1280004096515 GPT4ominiGPT4o的简化版本,适用于快速、简单的任务,且具有视觉功能1280001638401506 OpenAIo1preview采用强化训练学习复杂推理,擅长解决需要额外思考的复杂问题,适用于研究、策略、编码、数学 和科学等领域 128000327681560 OpenAIo1mini快速、经济高效的推理模型,专为编码、数学和科学使用案例量身定制12800065536312 资料来源:OpenAI官网,国信证券经济研究所整理 GPTO1更适用于解决纵深问题。随着GPTO1推理能力提升,处理复杂任务能力变强,coding能力比前代模型显著提高,具有生成详细计划能力;从测试结果看,Plus用户的普通问题回复和GPT4o感官差别不大,但对于纵深的问题(比如代码问题)解答更为准确。 图:GPTO1更适用于解决纵深问题 使用o1preview求解微分方程,经过10s的思考给出详细解题步骤 资料来源:GPTO1,国信证券经济研究所整理 01 OpenAI发布GPTO1,模型能力持续提升 02 GPTO1有望拉动ASIC芯片需求,适用于高价值场景 03 投资建议与风险提示 思维链(CoT)拉动推理算力增长:GPTO1大模型显著特点是使用思维链(CoT)提升推理效果,思维链(CoT)需要多步推理进而大幅提升推理算力的需求,同时推理时间的增长亦是推理算力消耗增长的反映。 思维链(CoT)反向拉动了推理模型参数量增长,进一步提升推理算力需求。根据JasonWei等人在23年发布的文章《ChainofThoughtPromptingElicitsReasoninginLargeLanguageModels》,思维链仅对1000亿以上参数模型的推理有显著提升;此前,为节省推理算力消耗,大多数模型通过蒸馏等方式缩小模型参数量,而思维链反向限定模型参数量下限,进而拉动推理阶段算力需求增长。 图:思维链多步推理提升推理阶段算力消耗 资料来源:ShiyuFang等著《TowardsInteractiveandLearnableCooperativeDrivingAutomationaLargeLanguageModelDrivenDecisionMakingFramework》arXiv(2024)P6,国信证券经济研究所整理 图:思维链(CoT)在1000亿参数模型上才能带来显著提升 资料来源:JasonWei等著《ChainofThoughtPromptingElicitsReasoninginLargeLanguageModels》 arXiv(2023)P5,国信证券经济研究所整理 推理芯片更加关注功耗、时延、成本,且对精度要求相对较低。深度学习由训练和推理两个任务组成,因为AI芯片的主要功能就是训练和推理。1)训练:对大量数据在平台上进行学习,并形成具备特定功能的神经网络模型。由于训练所需数据量巨大、算法复杂度高,对AI芯片有高算力、高容量、高精度和通用性要求。2)推理:指基于已经训练好的模型,针对输入数据计算结果,更加关注芯片功耗、时延、成本等因素,且对精度的要求相对较低。 ASIC芯片在推理领域具有明显优势。根据CSET数据,ASIC芯片在推理领域优势明显,其效率和速度约为CPU的1001000倍,相较于GPU和FPGA具备显著竞争力。 训练 推理 通用性 推理 准确率 效率 速度 效率 速度 CPU 1xbaseline 很高 98997 GPU 10100x 101000x110x 1100x 高 98997 FPGA 10100x 10100x 中 9599 ASIC 1001000x 101000x1001000x 101000x 低 9098 图:ASIC芯片在推理领域具有明显优势 资料来源:CSET,国信证券经济研究所整理 图:ASIC芯片更多应用于推理领域 资料来源:McKinseyAnalysis,国信证券经济研究所整理 GPTO1适用于高价值、低实时性场景。GPTO1使用思维链,大幅提升大模型的推理能力,根据GPTO1的测试情况,其在多领域表现出色,例如科研场景、营销内容生成、制定计划、代码生成等。其中,在AIME(美国高等数学考试)中,GPT4o平均解决了12的题目,而o1在每道题采样一次的情况下平均解决了74的题目,若采用64个样本的共识,解决率能达到83。同时,GPTO1由于使用思维链,单次推理时间相应增长,适用于对实时性相应要求较低的场景。 图:GPTO1在多领域表