您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[平安证券]:AI动态跟踪系列(三):复杂推理大模型OpenAI o1亮相,数学与代码能力飞跃 - 发现报告
当前位置:首页/行业研究/报告详情/

AI动态跟踪系列(三):复杂推理大模型OpenAI o1亮相,数学与代码能力飞跃

信息技术2024-09-14闫磊、黄韦涵平安证券乐***
AI动态跟踪系列(三):复杂推理大模型OpenAI o1亮相,数学与代码能力飞跃

AI动态跟踪系列(三) 计算机 2024年09月14日 复杂推理大模型OpenAIo1亮相,数学与代码能力飞跃 强于大市(维持) 行情走势图 相关研究报告 【平安证券】行业动态跟踪报告*计算机*AI动态跟踪系列(二):英伟达GTC2024AI软件与应用有哪些看点?*强于大市20240327 【平安证券】行业动态跟踪报告*计算机*AI动态跟 踪系列(一):Duolingo4Q23业绩超预期,持续关注AI+教育应用前景*强于大市20240305 证券分析师 闫磊投资咨询资格编号 S1060517070006 YANLEI511@pingan.com.cn 黄韦涵投资咨询资格编号 S1060523070003 HUANGWEIHAN235@pingan.com.cn 研究助理 王佳一一般证券从业资格编号 S1060123070023 WANGJIAYI446@pingan.com.cn 事项: 9月13日,OpenAI正式发布并上线o1系列模型o1-preview和o1-mini。 平安观点: OpenAI计数器重置回1,o1系列开启复杂推理序幕。本次OpenAI发布的是o1-preview(预览版)和o1-mini(擅长STEM、更快、更便宜)两个版本,ChatGPT付费用户和API用户可以使用。根据OpenAI官网介 绍,o1系列被定位为用于解决难题的推理模型。对于复杂的推理任务来说,OpenAI认为o1是一个重大进步,代表了AI能力的新水平,鉴于此,OpenAI将计数器重置回1并将此系列模型命名为OpenAIo1。OpenAI研究发现,随着强化学习(训练时计算)和思考时间(测试时计算)的增加,o1的性能会不断提高。因此在体验上,与此前模型不同点在于,OpenAIo1在作出反应之前,需要像人类一样,花更多时间思考问题。 o1基准表现明显优于GPT-4o,数学与编码能力实现飞跃。OpenAI实验结果表明,在绝大多数推理任务中,o1的表现明显优于GPT-4o。尤其是在具有挑战性的推理基准上,o1实现了能力飞跃,1)数学能力:在美国数学奥林匹克(AIME2024)预选赛题目中,GPT-4o平均只能解决12%的问 题,o1正式版达到平均74%的准确率,在使用学习评分函数重新排名1000个样本后准确率达到93%,相当于美国排名前500的学生水平。2)编码能力:在竞争性编程问题(Codeforces)比赛中,o1-preview、o1分别超越了62%、89%的人类竞争者,而对比GPT-4o仅超过11%。3)特定专业领域能力:GPQAdiamond测试(专门用于评估模型在化学、物理和生 物学等领域的专业知识水平)中,o1不仅成功完成了测试,更是超越了人类专家的表现,成为首个在GPQAdiamond基准上击败人类专家的AI模型。 o1引入思维链优化逻辑推理,助力模型性能与安全提升。o1优越能力的背后,核心突破在于运用思维链(chainofthought)方法来处理复杂任务, OpenAI介绍到,类似于人类在回答困难问题之前可能会思考很长时间,o1在尝试解决问题时会使用思维链。通过强化学习,o1学会打磨其思维链并改进它所使用的策略。o1学会了识别和纠正错误,学会了将棘手的步骤分解为更简单的步骤,学会了在当前方法不起作用时尝试不同的方法,此过程显著提高了模型的推理能力。在OpenAI的一个官方演示中展示了o1-preview解答复杂问题的逻辑推理过程,o1-preview在过程中逐步显示思考、翻译问题、定义变量、理解问题、构建方程、解方程等与人类推理相似的步骤,最终输出结论。同时,OpenAI认为思维链推理也为大模型安全性的提升提供了新思路,o1-preview在关键越狱评估和用于评估模型安全拒绝边界的最严格内部基准上取得了显著的改进。 行业报 告 行业动态跟踪报 告 AI动态跟踪系列(三) 计算机 2024年09月14日 行业报 告 行业动态跟踪报 告 证券研究报告 复杂推理大模型OpenAIo1亮相,数学与代码能力飞跃 投资建议:OpenAI推出专攻难题的o1系列大模型,应对复杂推理任务,o1引入思维链(ChainofThought)提升逻辑推理能力,绝大多数基准表现不仅明显超越GPT-4o,而且在数学与编码能力上实现了重要飞跃,在理化生等专业领域的知识水平也达到新高度。OpenAI的动向始终引领全球大模型的发展,我们认为o1的正式亮相有望开启复杂推理大模型的序幕,一方 面对算力提出了更大需求,同时也将赋能下游AI应用(如编程、教育)的快速迭代。我们坚定看好AI主题的投资机会:1)算力方面,推荐工业富联、浪潮信息、中科曙光、紫光股份、神州数码、海光信息、龙芯中科,建议关注寒武纪、景嘉微、软通动力;2)算法方面,推荐科大讯飞;3)应用场景方面,强烈推荐中科创达、恒生电子、盛视科技,推荐金山办公,建议关注万兴科技、福昕软件、同花顺、彩讯股份;4)网络安全方面,强烈推荐启明星辰。 风险提示:1)AI算力供应链风险上升。2)大模型产品的应用落地低于预期。3)国产大模型算法发展可能不及预期。 一、OpenAI计数器重置回1,o1系列开启复杂推理序幕 9月13日,OpenAI正式发布o1系列模型o1-preview和o1-mini,发布即上线,ChatGPT付费用户和API用户可以使用。 根据OpenAI官网,o1系列模型被定位为用于解决难题的推理模型。对于复杂的推理任务来说,OpenAI认为o1是一个重大进步,代表了AI能力的新水平,鉴于此,OpenAI将计数器重置回1并将此系列模型命名为OpenAIo1。不过OpenAI称,o1-preview(预览版)作为o1系列的早期版本,还不具备ChatGPT的许多有用功能,例如浏览网页获取信息、上传文件 和图像等,因此对于许多常见情境,GPT-4o在短期内可能会更有能力。 图表1OpenAI上线o1-preview和o1-mini 资料来源:OpenAI官网,平安证券研究所 OpenAIo1在作出反应之前,需要像人类一样,花更多时间思考问题。OpenAI称,o1可以进行复杂任务推理,并解决比以前的科学、编码和数学模型更难的问题。OpenAI的大规模强化学习算法,教会模型如何在数据高度有效的训练过程中利用 其思维链进行高效思考。OpenAI发现,随着强化学习(训练时计算)和思考时间(测试时计算)的增加,o1的性能会不断提高。不过这种方法的Scaling受到的限制与普通预训练有很大不同,OpenAI正在继续研究。 图表2随着训练时计算和测试时计算的增加,o1性能平稳提高 资料来源:OpenAI官网,平安证券研究所 除了o1-preview,OpenAI还发布了一款擅长STEM且更快、更便宜的推理模型o1-mini。OpenAI表示,o1-mini是一个较小的模型,针对预训练期间的STEM推理进行了优化。在需要智能(intelligence)和推理(reasoning)的基准测试中进行评估时,与o1-preview、o1相比,o1-mini表现良好,但是,o1-mini在需要非STEM事实知识的任务上表现较差。速度 方面,OpenAI举了具体例子,比较了GPT-4o、o1-mini和o1-preview对单词推理问题的回答,GPT-4o没有正确回答,o1-mini和o1-preview都正确回答,且o1-mini找到答案的速度大约快了3-5倍。价格方面,OpenAI提供给tier5API用户o1-mini的成本比o1-preview便宜80%,OpenAI建议,ChatGPTPlus、Team、Enterprise和Edu用户可以使用o1-mini作为o1-preview的替代品,具有更高的速率限制和更低的延迟。 图表3o1-mini在数学基准测试上表现对标o1,同时推理成本低 资料来源:OpenAI官网,平安证券研究所 二、o1基准表现明显优于GPT-4o,数学与编码能力实现飞跃 为了突出相对于GPT-4o的推理性能改进,OpenAI在一系列不同的人类考试和机器学习基准测试中测试了o1模型。 OpenAI实验结果表明,在绝大多数推理任务中,o1的表现明显优于GPT-4o。 在具有挑战性的推理基准上,1)数学能力:在美国数学奥林匹克(AIME2024)预选赛题目中,GPT-4o平均只解决了12% (1.8/15)的问题,在每个问题只回答一次的情况下,o1正式版达到平均74%(11.1/15)的准确率,通过多数投票在64个样本上达成共识的情况下,o1准确率为83%(12.5/15),在使用学习评分函数重新排名1000个样本后准确率达到93% (13.9/15),13.9分的成绩相当于跻身美国前500名学生之列,高于AIME的分数线。2)编码能力:在竞争性编程问 题(Codeforces)比赛中,o1-preview、o1分别超越了62%、89%的人类竞争者,而对比GPT-4o仅超过11%的竞争对手。 3)特定专业领域能力:GPQAdiamond测试专门用于评估模型在化学、物理和生物学等领域的专业知识水平,o1不仅成功完成了测试,更是超越了人类专家的表现,成为首个在GPQAdiamond基准上击败人类专家的AI模型。OpenAI表示,这一突破性成就标志着AI在特定专业领域的能力已经达到了一个新的高度。 图表4在具有挑战性的推理类基准上,o1较GPT-4o有了显著改进(%) 资料来源:OpenAI官网,平安证券研究所 注:实线显示模型pass@1准确率,阴影区域显示64个样本通过多数投票达成共识的性能 此外,o1在广泛的基准测试中同样超越GPT-4o。根据OpenAI介绍,启用视觉感知能力后,o1在MMMU(多模态理解)测试中得分为78.1%,成为首个能够与人类专家在该领域展开竞争的AI模型。在MMLU(大规模多任务语言理解)测试 中,o1的表现更是令人瞩目。在总计57个子类别中,o1在54个类别上都超越了GPT-4o的表现,这一结果充分证明了o1在广泛的知识领域和任务类型中的全面优势。 图表5o1在广泛的基准测试中优于GPT-4o(%) 资料来源:OpenAI官网,平安证券研究所 注:57个MMLU子类别上o1在54个的表现优于GPT-4o,图表仅展示7个示例 三、o1引入思维链优化逻辑推理,助力模型性能与安全提升 o1运用思维链(chainofthought)方法来处理复杂任务。OpenAI介绍到,类似于人类在回答困难问题之前可能会思考很长时间,o1在尝试解决问题时会使用思维链。通过强化学习,o1学会打磨其思维链并改进它所使用的策略。o1学会了识别和纠正错误,学会了将棘手的步骤分解为更简单的步骤,学会了在当前方法不起作用时尝试不同的方法,此过程显著提高 了模型的推理能力。根据OpenAI的联合创始人GregBrockman的推文,“我们的模型进行系统I思考,而思维链则解锁了系统II思考。人们已经发现,提示模型「一步步思考」可以提升性能。但是通过试错来训练模型,从头到尾这样做,则更为可靠,并且——正如我们在围棋或Dota等游戏中所见——可以产生极其令人印象深刻的结果。” 在OpenAI的一个官方演示中展示了o1-preview解答复杂问题的逻辑推理过程。题目为“当公主的年龄是王子的两倍时,公主的年龄与王子一样大,而公主的年龄是他们现在年龄总和的一半。王子和公主的年龄是多少?提供这个问题的所有解。”我们看到模型缓冲了约30秒,过程中逐步显示思考、翻译问题、定义变量、理解问题、构建方程、解方程等与人类推理相 似的步骤,最终输出结论,公主的年龄是某个自然数k的6倍,而王子的年龄是k的8倍。图表6OpenAI视频展示o1-preview解答复杂推理问题 资料来源:OpenAI官网,平安证券研究所 OpenAI认为思维链推理也为大模型安全性的提升提供了新思路。OpenAI发现,将模型行为策略整合到推理模型的思维