2024年9月23日 行业研究 OpenAI发布o1模型,强化学习打开LLM推理上限 ——光大证券前沿科技跟踪第1期(20240920) 要点 本期关注:OpenAI发布o1模型,强化学习打开LLM推理上限。9月13日,OpenAI宣布推出命名为OpenAIo1的AI大模型,适用于需要推理但无需广泛世界知识的场景。OpenAI表示,在复杂推理任务中,o1代表了一项重大突破,标志着人工智能能力的新高度。OpenAIo1通过链式思维(ChainofThought)推理机制,大幅度提升了其解决复杂问题的能力。这个机制让模型能够在回答问题前,进行深入的逻辑推导和思维链生成,就像人类专家在面对复杂问题时会经过多层次思考一样。这种推理方式使得o1在需要较强逻辑推理的任务上表现得尤为突出。在实际表现上,o1在复杂的科学、数据和编程等方面发挥出色。在处理物理、化学和生物问题时,o1的表现甚至和该领域的博士生水平不相上下;在国际数学奥林匹克的资格考试(AIME)中,o1的正确率为83%,成功进入了美国前500名学生的行列,而GPT-4o模型的正确率仅为13%。 我们认为o1模型的推出对于指导上游AI算力投资的意义巨大,此前市场普遍担心算力资本开支26年持续性问题,但o1模型的推出打消了部分疑虑:一方面,大模型的迭代仍在加速,在训练端ScalingLaw遇到瓶颈的背景下,模型的ScailingLaw接下来或将向推理端侧重,预计未来推理用算力将迎来大幅增长;另一方面,目前LLM面临的挑战之一是如何获取足够的高质量数据来训练模型,通过o1及其后续模型的强化学习和自我博弈,模型可以生成合成数据来突破这一障碍,可以更好地增强迭代大模型训练逻辑推理能力(而这恰好是chatGPT4o的弱项),这使得未来大模型演进的路线更为清晰。 电子与通信行业行情跟踪。9.18-9.20中信一级行业中,电子行业下跌0.14%,在所有中信一级行业周涨幅中排第27位;通信行业上涨0.43%,在所有中信一级行业周涨幅中排第23位。沪深300上涨1.32%,电子行业跑输沪深300指数1.46pct,通信行业跑输沪深300指数0.90pct,创业板指上涨0.09%,万得全A指数上涨1.27%。 投资建议:电子行业:聚焦大市值科技白马股。半导体自主可控、AI算力模型应用空间广阔、电子周期品趋于复苏、苹果与AI深度融合。建议关注:1、消费电子:立讯精密、东山精密、鹏鼎控股、领益智造、歌尔股份等;2、半导体:北方华创、长电科技、澜起科技、中微公司、通富微电、兆易创新、圣邦股份等;3、AI:(1)AI(国产算力):寒武纪、海光信息、通富微电、中科曙光、紫光股份;(2)AI(北美算力/英伟达供应链):中际旭创、新易盛、天孚通信、沪电股份、生益科技、景旺电子、世运电路、胜宏科技、沃尔核材、浪潮信息等;4、复苏:三环集团、风华高科、顺络电子等。 通信行业:建议关注,1、主线之AI:光模块:中际旭创、新易盛、天孚通信、光迅科技、华工科技、源杰科技;IDC:润泽科技;国产算力设备:中兴通讯、紫光股份、烽火通信、锐捷网络、盛科通信;液冷:英维克;铜链接:沃尔核材精达股份;2、主线之高分红:运营商:中国移动、中国联通、中国电信;3、主线之出海,建议关注华测导航、亿联网络、移远通信;4、主线之卫星通信,建议关注海格通信、信科移动-U、上海瀚讯。 风险分析:半导体下游需求不及预期;中美贸易摩擦反复风险。 电子行业:买入(维持)通信行业:增持(维持) 作者分析师:刘凯 执业证书编号:S0930517100002021-52523849 kailiu@ebscn.com 分析师:石崎良 执业证书编号:S0930518070005 021-52523856 shiql@ebscn.com 分析师:孙啸 执业证书编号S0930524030002021-52523587 sunxiao@ebscn.com 分析师:于文龙 执业证书编号:S0930522100002 021-52523587 yuwenlong@ebscn.com 分析师:何昊 执业证书编号:S0930522090002021-52523869 hehao1@ebscn.com 分析师:林仕霄 执业证书编号:S0930522090003 021-52523818 linshixiao@ebscn.com 分析师:朱宇澍 执业证书编号:S0930522050001 021-52523821 zhuyushu@ebscn.com 分析师:王之含 执业证书编号:S0930524070008021-52523691 wangzhihan@ebscn.com 分析师:黄筱茜 执业证书编号:S0930524050001 021-52523813 huangxiaoqian@ebscn.com 行业与沪深300指数对比图 10% 2% -6% -14% -23% 09/2312/2303/2406/24 电子行业沪深300 资料来源:Wind 电子通信行业 目录 1、本期关注:OpenAI发布o1模型,强化学习打开LLM推理上限3 2、每周数据跟踪6 2.1电子行业上周下跌0.14%,行业排序第27位;通信行业上周上涨0.43%,行业排序第23位6 2.2A股、港股和美股通信电子行业涨跌幅排序6 3、投资建议8 4、风险分析9 图表目录 图表1:o1模型在推理基准上大大超越了GPT-4o4 图表2:o1模型相较GPT-4o在多种基准测试上的提升4 图表3:中信一级行业周涨跌幅(20240918--20240920)6 图表4:主要指数周涨跌幅(20240918--20240920)6 图表5:A股和港股通信电子行业周涨跌幅前20名公司(20240918--20240920)6 图表6:美股硬件公司周涨跌幅前20名公司(20240916--20240920)7 图表7:美股、台股硬件公司市值前30名公司周涨跌幅(20240916--20240920)7 1、本期关注:OpenAI发布o1模型,强化学习打开LLM推理上限 9月13日,OpenAI宣布推出命名为OpenAIo1(以下简称:“o1”)的AI大模型。据OpenAI官网介绍,该模型分为o1和o1-mini两个版本,o1的早期预览版为o1-preview。其中,o1-mini则更快、更经济,其定价相比preview版本降低了80%,适用于需要推理但无需广泛世界知识的场景。OpenAI表示,在复杂推理任务中,o1代表了一项重大突破,标志着人工智能能力的新高度。因此,将计数器重置为1,并将这一系列命名为OpenAIo1。即日起,ChatGPTPlus和Team用户将能够在ChatGPT中访问o1-preview。随着更多版本的更新和发布,o1及其后续模型有望在科学研究、技术开发以及日常工作中带来更多突破性应用,进一步拓展AI模型在各个行业中的潜能。 OpenAIo1通过链式思维(ChainofThought)推理机制,大幅度提升了其解决复杂问题的能力。这个机制让模型能够在回答问题前,进行深入的逻辑推导和思维链生成,就像人类专家在面对复杂问题时会经过多层次思考一样。这种推理方式使得o1在需要较强逻辑推理的任务上表现得尤为突出。 在实际表现上,o1在复杂的科学、数据和编程等方面发挥出色。在处理物理、化学和生物问题时,o1的表现甚至和该领域的博士生水平不相上下;在国际数学奥林匹克的资格考试(AIME)中,o1的正确率为83%,成功进入了美国前500名学生的行列,而GPT-4o模型的正确率仅为13%。 为了展现o1在复杂推理上的显著提升,OpenAI在多个基准测试中对其进行评估,与之前的模型进行对比: (1)数学基准(AIME):o1在2024年的AIME(美国数学竞赛)中表现出色。在这个挑战美国最顶尖高中生的考试中,o1单样本问题解决率达到了74% (11.1/15),通过64个样本共识后解决率提升至83%,当使用重新排序1000个样本的评分机制时,解决率进一步提升至93%。这一分数使o1的表现位于全美前500名学生之列,超越了进入美国数学奥林匹克(USAMathOlympiad)的门槛。 (2)科学基准(GPQADiamond):GPQA-Diamond是一套难度极高的智能基准测试,覆盖了化学、物理和生物学领域。在此测试中,OpenAIo1超过了由人类博士团队完成的测试结果,成为第一个在此基准上超过人类专家水平的AI模型。这并不意味着o1在所有方面都超越了人类博士,而是在特定领域和任务上,它表现出了更强的解题能力。 (3)多学科语言理解基准(MMLU):在多学科语言理解(MMLU)基准测试中,o1表现出了对跨学科问题的强大理解能力。在57个子类中,o1在54个子类上超越了其前代模型GPT-4o。这表明,o1不仅在科学、数学等理工领域展现了优越性,还在广泛的跨学科任务中有着深度的推理能力。 图表1:o1模型在推理基准上大大超越了GPT-4o 资料来源:OpenAI 图表2:o1模型相较GPT-4o在多种基准测试上的提升 资料来源:OpenAI,注:MMLU测试只列举了7项子类 除了在科学和数学领域的优越表现,o1在编程任务中的提升也十分显著。通过在国际信息学奥林匹克竞赛(IOI)中的测试,o1表现卓越,得分213分,位于49百分位。与之相比,GPT-4o仅得分156分。此外,在Codeforces编程竞赛中的表现,o1的Elo评分达到1807,超越了93%的参赛者,而GPT-4o的评分仅为808,位于第11百分位。特别值得注意的是,o1能够在复杂编程任务中通过大规模提交策略进行优化。例如,在较为宽松的提交限制下,o1能够通过多达10,000次的代码提交,将得分提升至362.14分,这一分数甚至超过了金牌门槛。这一能力表明,o1在处理复杂算法问题时,能够通过反复优化和迭代达到接近完美的解答。 o1模型的核心运作机制在于其链式思维推理机制(ChainofThoughtReasoning),该机制让模型能够在回答问题前进行多步推理,生成一条清晰的 内部思维链。这种模式类似于人类解决复杂问题时会分步进行的逻辑思考。例如,面对一个高难度的数学题或编程任务,模型并不是简单输出答案,而是通过逐步推导各个解题步骤,从而提高最终解答的准确性。o1模型主要通过以下几个机 制来提升模型能力: 1.强化学习与链式思维的结合 o1通过强化学习(ReinforcementLearning,RL)不断学习如何更高效地思考和推理。强化学习允许模型通过多次交互和反馈,逐步优化其决策过程。o1不仅在训练阶段通过大量的数据进行优化,还能够在推理时通过自我调整提高解题能力。具体而言,这种机制允许模型在遇到问题时,经过深度思考再作出决策,就像人类专家在处理复杂问题时会花费更多时间进行思考一样。 2.训练与推理时间的优化 与传统的预训练大模型不同,o1的训练和推理过程具有不同的扩展限制。在训练阶段,模型通过强化学习算法不断积累“思考”经验,而在推理阶段,模型在需要时可以增加计算时间以提高推理的准确性。这种方式不仅优化了模型的性能,还使得其推理能力能够根据问题的复杂度动态调整。例如,面对较为简单的问题,模型可能仅需少量推理步骤即可得出结论,而面对高难度任务时,o1则会通过延长推理链条,逐步拆解问题并提升解题效率。 3.错误修正与策略调整 o1不仅能够在链式思维中进行逻辑推理,还具备错误修正和自我调整能力。通过强化学习,o1可以在解题过程中识别出自身的错误,并调整推理策略。例如,当某个推理路径行不通时,模型可以选择回退并探索其他路径。这种“试错”机制让o1在处理高难度问题时能够灵活调整,不断优化解题方案。在具体实现上,模型会对推理步骤进行自我检查,并根据错误率调整推理策略。这种动态调整不仅增强了模型的灵活性,还显著提高了其在复杂任务中的成功率。例如,在编程任务中,o1能够通