通信 证券研究报告 2024年09月24日 OpenAIo1占领后训练扩展律前沿,从快速识别走向深度思考 o1模型通过强化学习训练和产生思维链,能在做出响应前花更多时间思考问题 9月12日,OpenAI发布一系列新大语言模型o1,经过强化学习 (ReinforcementLearning)训练,可以执行复杂推理,该模型可以产生一个长程思维链(ChainofThought),在做出响应前花更多时间思考问题。 新模型包括o1-preview和o1-mini两种版本,其中o1-mini更快、更具成本效益,适用于需要推理但不需要广泛知识的应用程序 o1-mini是一个较小的模型,针对预训练期间的STEM推理进行了优化。 投资评级 行业评级强于大市(维持评级) 上次评级强于大市 作者 唐海清分析师 SAC执业证书编号:S1110517030002 tanghaiqing@tfzq.com 王奕红分析师 SAC执业证书编号:S1110517090004 wangyihong@tfzq.com 余芳沁分析师 SAC执业证书编号:S1110521080006 yufangqin@tfzq.com 速度方面,在单词推理问题回答中o1-mini找到答案的速度比o1-preview 大约快了3~5倍;成本方面,OpenAI向第五梯队API用户开放的o1-mini 成本端比o1-preview便宜80%。 o1通用性不及GPT-4o,高推理能力伴随高成本 作为早期模型,o1并不具备浏览网页、上传文件和图像等功能,通用性尚不及GPT-4o。但相较于GPT-4o多模态、反应快等特点,o1-preview更加注重推理能力,输入、输出tokens成本分别是GPT-4o的3、4倍。 o1在数理化复杂问题推理中的性能明显优于GPT-4o,在物理和生物学专 行业走势图 0% -4% -8% -12% -16% -20% -24% 通信沪深300 业知识基准上的表现超越人类博士 o1在竞争性编程问题(Codeforces)中拿到89%的百分位,GPT-4o仅为 11%;在国际数学奥林匹克竞赛(IMO)的资格考试中,o1解答正确率为 83%,而GPT-4o正确率仅为13%;在安全方面,o1在越狱测试中的分数高达84,而GPT-4o的得分仅为22分。 后训练扩展律(Post-TrainingScalingLaw)显现,或将引发业界对算力重新分配、后训练能力的思考 o1模型的亮点在于其性能会随着强化学习时间(训练时间的计算量)和思考时间(测试时间的计算量)的增加而不断提升,扩展这种方法的限制与传统LLM预训练方法(通过增加参数量和数据量)的限制有着很大不同,后训练方法的重要性或将引发业界对算力分配、后训练能力的思考。 从快速反应走向深度思考,拓宽行业应用场景 o1在训练过程中能够使其思维链进行高效思考,模拟了人类在面对复杂问题时的思考过程,这预示着AI除了在快系统中可被应用(人脸识别等),在慢系统中的可用型或将得到提升。 快慢系统结合或将成为新的AI发展战略,OpenAI、Google占据前沿阵地 GoogleDeepMind在此前论文中提出测试时的计算比扩展模型参数更有效;AlphaGeometry模型在国际数学奥林匹克(IMO)几何问题的基准测试中解决了25个问题(总共30个问题),AlphaGeometry由神经语言模型和符号推导引擎组成,将快慢系统结合,一个系统提供快速、直观的想法,另一个系统则提供更深思熟虑、更理性的决策。 风险提示:AI应用发展不及预期风险;海外大厂投资不及预期风险;中美摩擦升级风险。 2023-092024-012024-05 资料来源:聚源数据 相关报告1《通信-行业研究周报:微软与阿联酋G42新建2个AI中心;通义千问Qwen2.5各项性能显著提升》2024-09-22 2《通信-行业研究周报:OpenAI发布新模型o1;微软Office全家桶重磅升级》2024-09-18 3《通信-行业研究周报:全球AI基建计划制定,光博会即将开启,积极看好AI推动算力基础设施投资机会》2024-09-08 请务必阅读正文之后的信息披露和免责申明1 重点标的 股票 股票 收盘价 投资 EPS(元) P/E 代码 名称 2024-09-23 评级 2023A 2024E 2025E 2026E 2023A 2024E 2025E 2026E 300308.SZ 中际旭创 108.90 买入 1.94 5.33 8.96 11.18 56.13 20.43 12.15 9.74 300502.SZ 新易盛 95.25 买入 0.97 2.27 3.73 4.99 98.20 41.96 25.54 19.09 300394.SZ 天孚通信 73.87 增持 1.32 2.85 5.21 6.68 55.96 25.92 14.18 11.06 688498.SH 源杰科技 86.73 增持 0.23 0.59 1.74 2.74 377.09 147.00 49.84 31.65 002463.SZ 沪电股份 32.17 增持 0.79 1.35 1.83 2.20 40.72 23.83 17.58 14.62 000063.SZ 中兴通讯 24.90 买入 1.95 2.15 2.38 2.61 12.77 11.58 10.46 9.54 000938.SZ 紫光股份 18.87 增持 0.74 0.85 1.01 1.20 25.50 22.20 18.68 15.73 301191.SZ 菲菱科思 64.67 增持 2.08 2.17 3.15 4.15 31.09 29.80 20.53 15.58 600941.SH 中国移动 101.05 买入 6.14 6.48 6.78 7.09 16.46 15.59 14.90 14.25 601728.SH 中国电信 6.06 增持 0.33 0.36 0.39 0.41 18.36 16.83 15.54 14.78 600050.SH 中国联通 4.49 增持 0.26 0.29 0.32 0.35 17.27 15.48 14.03 12.83 300442.SZ 润泽科技 22.79 买入 1.02 1.28 1.92 2.46 22.34 17.80 11.87 9.26 002929.SZ 润建股份 24.81 买入 1.56 1.63 2.03 2.49 15.90 15.22 12.22 9.96 002335.SZ 科华数据 18.47 买入 1.10 1.24 1.88 2.42 16.79 14.90 9.82 7.63 300738.SZ 奥飞数据 9.01 增持 0.15 0.18 0.27 0.40 60.07 50.06 33.37 22.53 资料来源:Wind,天风证券研究所,注:PE=收盘价/EPS 内容目录 1.OpenAI发布o1模型,推理性能强大,善于处理复杂任务4 2.后训练扩展律开始显现,慢系统应用场景潜力提升6 3.重点关注标的8 4.风险提示8 图表目录 图1:OpenAI发布o1系列模型4 图2:数学性能与推理成本4 图3:o1模型与GPT-4o模型价格对比5 图4:o1在数学、编程竞赛和博士级科学问题中表现优异5 图5:o1在广泛的基准测试中优于GPT-4o,包括54/57MMLU子类别5 图6:o1性能与训练、测试计算量同步提升6 图7:AGI和AI的区别7 图8:模型在测试中反复修改答案7 1.OpenAI发布o1模型,推理性能强大,善于处理复杂任务 9月12日,OpenAI发布一系列新大语言模型o1,经过强化学习(ReinforcementLearning)训练,可以执行复杂推理,该模型可以产生一个长程思维链(ChainofThought),在做出响应前花更多时间思考问题。 图1:OpenAI发布o1系列模型 资料来源:OpenAI官网,天风证券研究所 新模型包括o1-preview和o1-mini两种版本,其中o1-mini更快、更具成本效益,适用于需要推理但不需要广泛知识的应用程序。大语言模型在大型文本数据集上进行预训练,虽然这些高容量模型具有广泛的世界知识,但对于实际应用程序来说,它们可能成本高、速度慢,相比之下,o1-mini是一个较小的模型,针对预训练期间的STEM推理进行了优化。速度方面,在单词推理问题回答中o1-mini找到答案的速度比o1-preview大约快了3~5倍;成本方面,OpenAI向第五梯队API用户开放的o1-mini成本端比o1-preview便宜80%。 图2:数学性能与推理成本 资料来源:OpenAI官网,天风证券研究所 o1通用性尚不及GPT-4o,高推理能力伴随高成本。作为早期模型,o1并不具备浏览网页、上传文件和图像等功能,通用性尚不及GPT-4o。但相较于GPT-4o多模态、反应快等特点,o1-preview更加注重推理能力,输入、输出tokens成本分别是GPT-4o的3、4倍; o1-mini的输入、输出tokens成本则是GPT-4omini的20倍。目前o1-preview的每周速率限制为30条消息,o1-mini的每周速率限制为50条消息。 图3:o1模型与GPT-4o模型价格对比 模型模型简介价格 GPT-4o GPT-4o是公司最先进的多模态模型,比GPT-4Turbo更快、更便宜,具有更强的视觉能力,该模型具有128k文本长度和截止至2023年10月的知识储备。 $5.00/1Minputtokens $15.00/1Moutputtokens GPT-4omini GPT-4omini是公司最具成本效益的小型号 模型,比GPT-3.5Turbo更智能、更便宜,并且具有视觉功能,该模型具有128k 文本长度和截止至2023年10月的知识储备 。 $0.150/1Minputtokens $0.600/1Moutputtokens OpenAIo1-preview o1-preiview是公司针对需要广泛尝试的复杂任务的新推理模型,该模型具有128k文本长度和截止至2023年10月的知识储备。 $15.00/1Minputtokens $60.00/1Moutputtokens OpenAIo1-mini o1-mini是一种快速、经济高效的推理模 型,专为编码、数学和科学使用案例量身定制,该模型具有128k文本长度和截止至2023年10月的知识储备。 $3.00/1Minputtokens $12.00/1Moutputtokens 资料来源:OpenAI官网,天风证券研究所 o1在数理化复杂问题推理中的性能明显优于GPT-4o,在物理和生物学专业知识基准上的表现超越人类博士。o1在竞争性编程问题(Codeforces)中拿到89%的百分位,GPT-4o仅为11%;在国际数学奥林匹克竞赛(IMO)的资格考试中,o1解答正确率为83%,而GPT-4o正确率仅为13%;在安全方面,o1在越狱测试中的分数高达84,而GPT-4o的得分仅为22分。在57个MMLU子类别中,o1在其中54个子类别的表现都优于GPT-4o。此外,在物理和生物学专业知识的基准GPQADiamond上,o1的表现已经超越人类具有博士学位的专家,并成为第一个解锁该成就的模型。 图4:o1在数学、编程竞赛和博士级科学问题中表现优异 资料来源:OpenAI官网,天风证券研究所 图5:o1在广泛的基准测试中优于GPT-4o,包括54/57MMLU子类别 资料来源:OpenAI官网,天风证券研究所 2.后训练扩展律开始显现,慢系统应用场景潜力提升 后训练扩展律(Post-TrainingScalingLaw)显现,或将引发业界对算力重新分配、后训练能力的思考。OpenAI自成立以来就强调扩展