行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

AI大模型系列报告二：OpenAI发布GPT-O1，模型能力持续提升

信息技术2024-10-10熊莉、艾宪国信证券林***

AI智能总结

OpenAI发布GPT-O1，模型能力持续提升

一、GPT-O1的特点

思维链提升模型能力：
- GPT-O1在回复用户问题前生成较长的内部思维链，将复杂问题拆分为简单步骤，并在当前方法无效时尝试其他方式，显著提升推理能力。
- 新模型在推理过程中生成隐藏的思维链，增加了思考时间，从而给出更加详细的答案。
适用于解决纵深问题：
- GPT-O1特别适用于解决研究、策略、编码、数学和科学等领域的复杂问题。
- OpenAI的o1-preview和o1-mini模型适合解决难度较高的问题，如策略制定、课程辅导等。

二、GPT-O1对ASIC芯片需求的影响

拉动推理算力增长：
- 思维链（CoT）需要多步推理，显著增加推理算力的需求。
- ASIC芯片在推理领域具有明显优势，其效率和速度约为CPU的100-1000倍，相较于GPU和FPGA具备显著竞争力。
适用于高价值场景：
- GPT-O1适用于科研、营销内容生成、制定计划、代码生成等高价值、低实时性场景。

三、GPT-O1的市场空间测算

市场空间测算：
- 预计GPT-O1在编程领域的渗透率将率先提升，假设2022年全球有2690万软件开发者。
- 每天平均编写200行代码，每行代码10个单词，折合2666个tokens。
- 假设终局渗透率为75%，重复修改次数为10次/天，年度tokens消耗量为1613596.5亿个。
- 对应市场空间为96.82亿美金（假设每年工作300天）。

四、投资建议与风险提示

投资建议：
- 关注国产算力芯片公司，如海光信息。
- 关注国产大模型公司，如金山办公。
风险提示：
- AI大模型迭代不及预期风险。
- AI应用落地不及预期风险。
- AI芯片迭代不及预期风险。

证券研究报告|2024年10月11日 AI大模型系列报告二 OpenAI发布GPT-O1，模型能力持续提升行业研究·行业专题计算机·人工智能投资评级：优于大市证券分析师：熊莉证券分析师：艾宪 021-617610670755-22941051 xiongli1@guosen.com.cnaixian@guosen.com.cnS0980519030002S0980524090001 摘要 OpenAI发布GPT-O1，模型能力持续提升。1）思维链提升模型能力：GPT-O1在回复用户问题之前会生成一条较长的内部思维链，将复杂的问题拆分为更简单的步骤，且当前方法无效时，会进一步尝试其他方式，引入思维链将显著提升模型的推理能力；2）GPT-O1思考过程消耗时间，答案更加细化：新模型会在推理过程中生成隐藏的思维链，且思考过程消耗时间，GPT-O1在同样问题下，给出的结果更加详细；3）GPT-O1更适用于解决纵深问题：OpenAIo1-preview和o1-mini模型用于解决困难问题，主要适用于研究、策略、编码、数学和科学等领域的复杂问题解决任务。 GPT-O1有望拉动ASIC芯片需求，适用于高价值场景。1）GPT-O1拉动推理算力增长，ASIC芯片或大有可为：一方面，思维链（CoT）需要多步推理进而大幅提升推理算力的需求，另一方面，ASIC芯片在推理领域具有明显优势，根据CSET数据，其效率和速度约为CPU的100- 1000倍，相较于GPU和FPGA具备显著竞争力；2）GPT-O1适用于高价值场景：随着大模型推理能力提升，其在多领域表现出色，例如科研场景、营销内容生成、制定计划、代码生成等。3）市场空间测算：由于计算机语言相对规范，我们认为GPT-O1渗透率在编程领域有望率先提升；根据EvansDataCorporationData数据，22年全球有2690万软件开发者，根据CSDN发布的《2021-2022中国开发者调查报告》显示，大部分程序员平均每天会写200行左右的代码，假设每行代码10个单词，对应2000个单词，折合约2666个tokens，则假设终局下 GPT-O1渗透率为75%，重复修改次数为10次/天，对应年度tokens消耗量为2690*75%*2666*300*10=1613596.5亿个tokens（假设每年工作 300天），对应市场空间为96.82亿美金（此处简化，仅计算模型输出Tokens，60美元/百万tokens）。随着其他领域渗透率的提升， GPT-O1的市场空间将持续增长。 投资建议：GPT-01使用思维链等方法，进一步提升了大模型的能力。一方面，由于思维链在推理阶段的使用，GPT-O1提升了推理算力的消耗，建议关注国产算力芯片公司，例如海光信息等；另一方面，思维链提升大模型的能力，给予国产大模型公司启示，国产大模型能力有望进一步提升，建议关注国产AI应用公司，例如金山办公等。 风险提示：AI大模型迭代不及预期风险、AI应用落地不及预期风险、AI芯片迭代不及预期的风险。 01 OpenAI发布GPT-O1，模型能力持续提升 02 GPT-O1有望拉动Asic芯片需求，应用精度提升 03 投资建议与风险提示 24年9月12日，OpenAI发布GPT-O1。同GPT-4O相比，GPT-O1在数学、代码、科学问题（PhD级别）评分显著提升；从测试结果来看，Plus用户的普通回复同GPT-4O感觉差别不大，但对于纵深的代码问题，GPT-O1的解答更为准确。 技术路线：思维链（CoT）提升模型推理能力。1）引入思维链（CoT）：GPT-O1在回复用户问题之前会生成一条较长的内部思维链，将复杂的问题拆分为更简单的步骤，且当前方法无效时，会进一步尝试其他方式，引入思维链将显著提升模型的推理能力；2）通过强化学习训练思维链（CoT)：OpenAI通过强化学习去训练思维链，其发现GPT-O1的表现会随强化学习（Train-timecompute）和思考时间（Test-timeCompute）的增加而提升，其中奖励模型的优化是关键。图：GPT-O1在数学、代码、科学问题（PhD级别）评分显著高于GPT-4o 资料来源：OpenAI官网，国信证券经济研究所整理图：GPT-O1的表现随强化学习和思考时间的增加而提升资料来源：OpenAI官网，国信证券经济研究所整理 OpenAI通过强化学习加强思维链（CoT）：基于标准的强化学习框架，智能体在环境中采取一个动作，然后更新环境状态，并会得到一个奖励（Reward，局部信号，可以为正向信号，也可以为负向信号）；智能体唯一目标是长期期望奖励最大化，对“采取动作-查看奖励-观察新状态-采取另一动作”流程进行循环，在奖励函数等参数设置正确的情况下，智能体可以在每一步做出可靠的优秀决策。 GPT-O1在推理阶段同传统LLMs不同：对于绝大多数LLMs，其预训练（Pre-training）、后训练（Post-training）花费较长时间，但在推理（Inference）环节，模型仅用于做出预测或生成文本，过程较短；相比之下，GPT-O1在推理阶段需要更多的实时计算资源和时间进行更复杂的推理任务，这个阶段较长且关键。图：强化学习标准框架资料来源：AlexanderZai-《深度强化学习实战》-人民邮电出版社（2023年）-P30，国信证券经济研究所整理图：GPT-O1 资料来源：JimFan（FromX），国信证券经济研究所整理 GPT-O1思考过程消耗时间，答案更加细化：强化学习增强了GPT-O1中的思维链，新模型会在推理过程中生成隐藏的思维链，且思考过程消耗时间；GPT-O1在同样问题下，给出的结果更加详细，此外，在提示词不同的情况下，生成的思维链也会略有区别。图：GPT-O1思考过程消耗时间，答案更加细化资料来源：GPT-O1，国信证券经济研究所整理 GPT-O1与GPT-4O模型适用的下游场景不同，新模型更适合解决复杂问题。 OpenAIo1-preview和o1-mini模型用于解决困难问题，主要适用于研究、策略、编码、数学和科学等领域的复杂问题解决任务，使用场景包括策略制定、课程辅导、编码练习和评论等。目前OpenAIo1-preview和o1-mini模型无法访问网页、语音、文件上传、视觉等高级功能。 GPT-4o在自然语言任务中表现更佳，且接受文本、音频、图像和视频的任意组合作为输入。因此对于大多数使用需求，尤其是那些涉及使用工具和视觉的用例，GPT-4o仍是最优选择。 成本方面，o1-preview的API调用输入价格为GPT-4o的三倍。调用o1-preview模型时，由于内部推理tokens的存在，生成的tokens总数可能会超过可见数量，为避免隐藏tokens影响成本，用户可设定max_tokens参数，控制生成的tokens数量和用户可见的tokens数量。图：GPT-O1系列模型同GPT-4O模型对比在人类偏好评估中，O1-Preview在数据分析、编码和数学等推理密集型类别中优于GPT-4O。在自然语言任务中表现不及GPT-4O 资料来源：OpenAI官网，国信证券经济研究所整理图：OpenAI模型数据对比 API调用价格（百万tokens）模型适用领域上下文范围（tokens）最大输出tokens 输入输出 GPT-4o适用于复杂多步骤任务，接受文本、音频、图像和视频的任意组合作为输入，并生成文本、音频和图像输出的任意组合 1280004096515 GPT-4ominiGPT-4o的简化版本，适用于快速、简单的任务，且具有视觉功能128000163840.150.6 OpenAIo1-preview采用强化训练学习复杂推理，擅长解决需要额外思考的复杂问题，适用于研究、策略、编码、数学和科学等领域 128000327681560 OpenAIo1-mini快速、经济高效的推理模型，专为编码、数学和科学使用案例量身定制12800065536312 资料来源：OpenAI官网，国信证券经济研究所整理 GPT-O1更适用于解决纵深问题。随着GPT-O1推理能力提升，处理复杂任务能力变强，coding能力比前代模型显著提高，具有生成详细计划能力；从测试结果看，Plus用户的普通问题回复和GPT-4o感官差别不大，但对于纵深的问题（比如代码问题）解答更为准确。图：GPT-O1更适用于解决纵深问题使用o1-preview求解微分方程，经过10s的思考给出详细解题步骤资料来源：GPT-O1，国信证券经济研究所整理 01 OpenAI发布GPT-O1，模型能力持续提升 02 GPT-O1有望拉动ASIC芯片需求，适用于高价值场景 03 投资建议与风险提示 思维链（CoT）拉动推理算力增长：GPT-O1大模型显著特点是使用思维链（CoT）提升推理效果，思维链（CoT）需要多步推理进而大幅提升推理算力的需求，同时推理时间的增长亦是推理算力消耗增长的反映。 思维链（CoT）反向拉动了推理模型参数量增长，进一步提升推理算力需求。根据JasonWei等人在23年发布的文章《Chain-of-ThoughtPromptingElicitsReasoninginLargeLanguageModels》，思维链仅对1000亿以上参数模型的推理有显著提升；此前，为节省推理算力消耗，大多数模型通过蒸馏等方式缩小模型参数量，而思维链反向限定模型参数量下限，进而拉动推理阶段算力需求增长。图：思维链多步推理提升推理阶段算力消耗资料来源：ShiyuFang等著-《TowardsInteractiveandLearnableCooperativeDrivingAutomation:aLargeLanguageModel-DrivenDecision-MakingFramework》-arXiv（2024）-P6，国信证券经济研究所整理图：思维链（CoT）在1000亿参数模型上才能带来显著提升资料来源：JasonWei等著-《Chain-of-ThoughtPromptingElicitsReasoninginLargeLanguageModels》 -arXiv（2023）-P5，国信证券经济研究所整理 推理芯片更加关注功耗、时延、成本，且对精度要求相对较低。深度学习由训练和推理两个任务组成，因为AI芯片的主要功能就是训练和推理。1）训练：对大量数据在平台上进行学习，并形成具备特定功能的神经网络模型。由于训练所需数据量巨大、算法复杂度高，对AI芯片有高算力、高容量、高精度和通用性要求。2）推理：指基于已经训练好的模型，针对输入数据计算结果，更加关注芯片功耗、时延、成本等因素，且对精度的要求相对较低。 ASIC芯片在推理领域具有明显优势。根据CSET数据，ASIC芯片在推理领域优势明显，其效率和速度约为CPU的100-1000倍，相较于GPU和FPGA具备显著竞争力。训练推理通用性推理准确率效率速度效率速度 CPU 1xbaseline 很高 ~98-99.7% GPU ~10-100x ~10-1,000x~1-10x ~1-100x 高 ~98-99.7% FPGA - -~10-100x ~10-100x 中 ~95-99% ASIC ~100-1,000x ~10-1,000x~100-1000x ~10-1000x 低 ~90-98% 图：ASIC芯片在推理领域具有明显优势资料来源：CSET，国信证券经济研究所整理图：ASIC芯片更多应用于推理领域资料来源：McKinseyAnalysis，国信证券经济研究所整理 GPT-O1适用于高价值、低实时性场景。GPT-O1使用思维链，大幅提升大模型的推理能力，根据GPT-O1的测试情

点击免费查看完整报告