热门搜索：

光大证券前沿科技跟踪第1期（20240920）：OpenAI发布o1模型，强化学习打开LLM推理上限

电子设备2024-09-23刘凯、石崎良、孙啸、于文龙、何昊、林仕霄、朱宇澍、王之含、黄筱茜光大证券向***

AI智能总结

Open AI发布o1模型，强化学习打开LLM推理上限

1. Open AI发布o1模型

发布时间: 9月13日
模型特点: o1分为o1和o1-mini两个版本，o1-mini更快速、更经济。
应用场景: 适用于需要推理但无需广泛世界知识的场景。

2. o1模型的优势

链式思维推理机制: 提升了解决复杂问题的能力，类似于人类专家的多层次思考。
实际表现:
- 在国际数学奥林匹克资格考试(AIME)中，o1的正确率为83%，进入美国前500名学生的行列。
- 在物理、化学和生物问题处理上，o1表现接近该领域的博士生水平。
- 在国际信息学奥林匹克竞赛(IOI)中，o1得分213分，位于49百分位。

3. o1模型的技术特点

强化学习与链式思维结合: 通过多次交互和反馈优化决策过程。
训练与推理时间优化: 在推理阶段可根据问题复杂度动态调整计算时间。
错误修正与策略调整: 通过多次提交和优化策略提高解题准确性。
多重采样与共识机制: 生成多个可能答案并通过共识机制选择最优解。

4. 对上游AI算力投资的影响

模型迭代加速: 预计未来推理用算力将迎来大幅增长。
数据生成: 通过强化学习和自我博弈生成合成数据，解决高质量数据获取难题。

5. 投资建议

电子行业: 聚焦大市值科技白马股，关注：
- 消费电子: 立讯精密、东山精密、鹏鼎控股、歌尔股份等
- 半导体: 北方华创、长电科技、澜起科技、中微公司等
- AI: 寒武纪、海光信息、通富微电等
- 复苏: 三环集团、风华高科、顺络电子等
通信行业: 关注：
- AI: 中际旭创、新易盛、天孚通信、中兴通讯等
- 高分红: 中国移动、中国联通、中国电信
- 出海: 华测导航、亿联网络、移远通信
- 卫星通信: 海格通信、信科移动-U

6. 周度数据跟踪

电子行业: 上周下跌0.14%，行业排序第27位
通信行业: 上周上涨0.43%，行业排序第23位
沪深300指数: 上涨1.32%

7. 风险分析

半导体下游需求不及预期
中美贸易摩擦反复风险

总结：Open AI发布的o1模型展示了强大的逻辑推理能力，特别是在复杂科学和编程任务中表现出色。这为AI算力模型的应用和投资提供了新的方向，尤其在数据生成和算力需求方面。建议关注电子行业的消费电子、半导体和AI领域，以及通信行业的多个细分领域。

光大证券前沿科技跟踪第1期（20240920）：OpenAI发布o1模型，强化学习打开LLM推理上限

2024年9月23日行业研究 OpenAI发布o1模型，强化学习打开LLM推理上限 ——光大证券前沿科技跟踪第1期（20240920）要点本期关注：OpenAI发布o1模型，强化学习打开LLM推理上限。9月13日，OpenAI宣布推出命名为OpenAIo1的AI大模型，适用于需要推理但无需广泛世界知识的场景。OpenAI表示，在复杂推理任务中，o1代表了一项重大突破，标志着人工智能能力的新高度。OpenAIo1通过链式思维（ChainofThought）推理机制，大幅度提升了其解决复杂问题的能力。这个机制让模型能够在回答问题前，进行深入的逻辑推导和思维链生成，就像人类专家在面对复杂问题时会经过多层次思考一样。这种推理方式使得o1在需要较强逻辑推理的任务上表现得尤为突出。在实际表现上，o1在复杂的科学、数据和编程等方面发挥出色。在处理物理、化学和生物问题时，o1的表现甚至和该领域的博士生水平不相上下；在国际数学奥林匹克的资格考试（AIME）中，o1的正确率为83%，成功进入了美国前500名学生的行列，而GPT-4o模型的正确率仅为13%。我们认为o1模型的推出对于指导上游AI算力投资的意义巨大，此前市场普遍担心算力资本开支26年持续性问题，但o1模型的推出打消了部分疑虑：一方面，大模型的迭代仍在加速，在训练端ScalingLaw遇到瓶颈的背景下，模型的ScailingLaw接下来或将向推理端侧重，预计未来推理用算力将迎来大幅增长；另一方面，目前LLM面临的挑战之一是如何获取足够的高质量数据来训练模型，通过o1及其后续模型的强化学习和自我博弈，模型可以生成合成数据来突破这一障碍，可以更好地增强迭代大模型训练逻辑推理能力（而这恰好是chatGPT4o的弱项），这使得未来大模型演进的路线更为清晰。电子与通信行业行情跟踪。9.18-9.20中信一级行业中，电子行业下跌0.14%，在所有中信一级行业周涨幅中排第27位；通信行业上涨0.43%，在所有中信一级行业周涨幅中排第23位。沪深300上涨1.32%，电子行业跑输沪深300指数1.46pct，通信行业跑输沪深300指数0.90pct，创业板指上涨0.09%，万得全A指数上涨1.27%。投资建议：电子行业：聚焦大市值科技白马股。半导体自主可控、AI算力模型应用空间广阔、电子周期品趋于复苏、苹果与AI深度融合。建议关注：1、消费电子：立讯精密、东山精密、鹏鼎控股、领益智造、歌尔股份等；2、半导体：北方华创、长电科技、澜起科技、中微公司、通富微电、兆易创新、圣邦股份等；3、AI：（1）AI（国产算力）：寒武纪、海光信息、通富微电、中科曙光、紫光股份；（2）AI（北美算力/英伟达供应链）：中际旭创、新易盛、天孚通信、沪电股份、生益科技、景旺电子、世运电路、胜宏科技、沃尔核材、浪潮信息等；4、复苏：三环集团、风华高科、顺络电子等。通信行业：建议关注，1、主线之AI：光模块：中际旭创、新易盛、天孚通信、光迅科技、华工科技、源杰科技；IDC：润泽科技；国产算力设备：中兴通讯、紫光股份、烽火通信、锐捷网络、盛科通信；液冷：英维克；铜链接：沃尔核材精达股份；2、主线之高分红：运营商：中国移动、中国联通、中国电信；3、主线之出海，建议关注华测导航、亿联网络、移远通信；4、主线之卫星通信，建议关注海格通信、信科移动-U、上海瀚讯。风险分析：半导体下游需求不及预期；中美贸易摩擦反复风险。电子行业:买入（维持）通信行业:增持（维持）作者分析师：刘凯执业证书编号：S0930517100002021-52523849 kailiu@ebscn.com 分析师：石崎良执业证书编号：S0930518070005 021-52523856 shiql@ebscn.com 分析师：孙啸执业证书编号S0930524030002021-52523587 sunxiao@ebscn.com 分析师：于文龙执业证书编号：S0930522100002 021-52523587 yuwenlong@ebscn.com 分析师：何昊执业证书编号：S0930522090002021-52523869 hehao1@ebscn.com 分析师：林仕霄执业证书编号：S0930522090003 021-52523818 linshixiao@ebscn.com 分析师：朱宇澍执业证书编号：S0930522050001 021-52523821 zhuyushu@ebscn.com 分析师：王之含执业证书编号：S0930524070008021-52523691 wangzhihan@ebscn.com 分析师：黄筱茜执业证书编号：S0930524050001 021-52523813 huangxiaoqian@ebscn.com 行业与沪深300指数对比图 10% 2% -6% -14% -23% 09/2312/2303/2406/24 电子行业沪深300 资料来源：Wind 电子通信行业目录 1、本期关注：OpenAI发布o1模型，强化学习打开LLM推理上限3 2、每周数据跟踪6 2.1电子行业上周下跌0.14%，行业排序第27位；通信行业上周上涨0.43%，行业排序第23位6 2.2A股、港股和美股通信电子行业涨跌幅排序6 3、投资建议8 4、风险分析9 图表目录图表1：o1模型在推理基准上大大超越了GPT-4o4 图表2：o1模型相较GPT-4o在多种基准测试上的提升4 图表3：中信一级行业周涨跌幅（20240918--20240920）6 图表4：主要指数周涨跌幅（20240918--20240920）6 图表5：A股和港股通信电子行业周涨跌幅前20名公司（20240918--20240920）6 图表6：美股硬件公司周涨跌幅前20名公司（20240916--20240920）7 图表7：美股、台股硬件公司市值前30名公司周涨跌幅（20240916--20240920）7 1、本期关注：OpenAI发布o1模型，强化学习打开LLM推理上限 9月13日，OpenAI宣布推出命名为OpenAIo1（以下简称：“o1”）的AI大模型。据OpenAI官网介绍，该模型分为o1和o1-mini两个版本，o1的早期预览版为o1-preview。其中，o1-mini则更快、更经济，其定价相比preview版本降低了80%，适用于需要推理但无需广泛世界知识的场景。OpenAI表示，在复杂推理任务中，o1代表了一项重大突破，标志着人工智能能力的新高度。因此，将计数器重置为1，并将这一系列命名为OpenAIo1。即日起，ChatGPTPlus和Team用户将能够在ChatGPT中访问o1-preview。随着更多版本的更新和发布，o1及其后续模型有望在科学研究、技术开发以及日常工作中带来更多突破性应用，进一步拓展AI模型在各个行业中的潜能。 OpenAIo1通过链式思维（ChainofThought）推理机制，大幅度提升了其解决复杂问题的能力。这个机制让模型能够在回答问题前，进行深入的逻辑推导和思维链生成，就像人类专家在面对复杂问题时会经过多层次思考一样。这种推理方式使得o1在需要较强逻辑推理的任务上表现得尤为突出。在实际表现上，o1在复杂的科学、数据和编程等方面发挥出色。在处理物理、化学和生物问题时，o1的表现甚至和该领域的博士生水平不相上下；在国际数学奥林匹克的资格考试（AIME）中，o1的正确率为83%，成功进入了美国前500名学生的行列，而GPT-4o模型的正确率仅为13%。为了展现o1在复杂推理上的显著提升，OpenAI在多个基准测试中对其进行评估，与之前的模型进行对比：（1）数学基准（AIME）：o1在2024年的AIME（美国数学竞赛）中表现出色。在这个挑战美国最顶尖高中生的考试中，o1单样本问题解决率达到了74% （11.1/15），通过64个样本共识后解决率提升至83%，当使用重新排序1000个样本的评分机制时，解决率进一步提升至93%。这一分数使o1的表现位于全美前500名学生之列，超越了进入美国数学奥林匹克（USAMathOlympiad）的门槛。（2）科学基准（GPQADiamond）：GPQA-Diamond是一套难度极高的智能基准测试，覆盖了化学、物理和生物学领域。在此测试中，OpenAIo1超过了由人类博士团队完成的测试结果，成为第一个在此基准上超过人类专家水平的AI模型。这并不意味着o1在所有方面都超越了人类博士，而是在特定领域和任务上，它表现出了更强的解题能力。（3）多学科语言理解基准（MMLU）：在多学科语言理解（MMLU）基准测试中，o1表现出了对跨学科问题的强大理解能力。在57个子类中，o1在54个子类上超越了其前代模型GPT-4o。这表明，o1不仅在科学、数学等理工领域展现了优越性，还在广泛的跨学科任务中有着深度的推理能力。图表1：o1模型在推理基准上大大超越了GPT-4o 资料来源：OpenAI 图表2：o1模型相较GPT-4o在多种基准测试上的提升资料来源：OpenAI，注：MMLU测试只列举了7项子类除了在科学和数学领域的优越表现，o1在编程任务中的提升也十分显著。通过在国际信息学奥林匹克竞赛（IOI）中的测试，o1表现卓越，得分213分，位于49百分位。与之相比，GPT-4o仅得分156分。此外，在Codeforces编程竞赛中的表现，o1的Elo评分达到1807，超越了93%的参赛者，而GPT-4o的评分仅为808，位于第11百分位。特别值得注意的是，o1能够在复杂编程任务中通过大规模提交策略进行优化。例如，在较为宽松的提交限制下，o1能够通过多达10,000次的代码提交，将得分提升至362.14分，这一分数甚至超过了金牌门槛。这一能力表明，o1在处理复杂算法问题时，能够通过反复优化和迭代达到接近完美的解答。 o1模型的核心运作机制在于其链式思维推理机制（ChainofThoughtReasoning），该机制让模型能够在回答问题前进行多步推理，生成一条清晰的内部思维链。这种模式类似于人类解决复杂问题时会分步进行的逻辑思考。例如，面对一个高难度的数学题或编程任务，模型并不是简单输出答案，而是通过逐步推导各个解题步骤，从而提高最终解答的准确性。o1模型主要通过以下几个机制来提升模型能力： 1.强化学习与链式思维的结合 o1通过强化学习（ReinforcementLearning，RL）不断学习如何更高效地思考和推理。强化学习允许模型通过多次交互和反馈，逐步优化其决策过程。o1不仅在训练阶段通过大量的数据进行优化，还能够在推理时通过自我调整提高解题能力。具体而言，这种机制允许模型在遇到问题时，经过深度思考再作出决策，就像人类专家在处理复杂问题时会花费更多时间进行思考一样。 2.训练与推理时间的优化与传统的预训练大模型不同，o1的训练和推理过程具有不同的扩展限制。在训练阶段，模型通过强化学习算法不断积累“思考”经验，而在推理阶段，模型在需要时可以增加计算时间以提高推理的准确性。这种方式不仅优化了模型的性能，还使得其推理能力能够根据问题的复杂度动态调整。例如，面对较为简单的问题，模型可能仅需少量推理步骤即可得出结论，而面对高难度任务时，o1则会通过延长推理链条，逐步拆解问题并提升解题效率。 3.错误修正与策略调整 o1不仅能够在链式思维中进行逻辑推理，还具备错误修正和自我调整能力。通过强化学习，o1可以在解题过程中识别出自身的错误，并调整推理策略。例如，当某个推理路径行不通时，模型可以选择回退并探索其他路径。这种“试错”机制让o1在处理高难度问题时能够灵活调整，不断优化解题方案。在具体实现上，模型会对推理步骤进行自我检查，并根据错误率调整推理策略。这种动态调整不仅增强了模型的灵活性，还显著提高了其在复杂任务中的成功率。例如，在编程任务中，o1能够通

点击免费查看完整报告

你可能感兴趣

光大证券前沿科技跟踪第1期（20240920）：OpenAI发布o1模型，强化学习打开LLM推理上限

Open AI发布o1模型，强化学习打开LLM推理上限

你可能感兴趣

传媒互联网行业周报：OpenAI o1模型发布，强化学习有望突破Scaling Law瓶颈

通信行业数字经济“算力网络”系列17：OpenAI新模型o1发布，推理算力需求重估

通信行业：OpenAI发布o1模型，有望驱动推理算力需求再上新台阶

OpenAI发布o1模型，推理能力提升或改变行业生态

OpenAI发布o1模型，复杂推理能力适配多场景