您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[财通证券]:计算机行业投资策略周报:生成式AI开启新篇章,算力需求景气加速 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机行业投资策略周报:生成式AI开启新篇章,算力需求景气加速

信息技术2024-09-17杨烨、李宇轩财通证券一***
AI智能总结
查看更多
计算机行业投资策略周报:生成式AI开启新篇章,算力需求景气加速

投资评级:看好(维持) 核心观点 证券研究报告 最近12月市场表现 计算机 沪深300 上证指数 7% -1% -10% -18% -26% -35% 分析师杨烨 SAC证书编号:S0160522050001 yangye01@ctsec.com 分析师李宇轩 SAC证书编号:S0160524080001 liyx02@ctsec.com 相关报告 1.《北美CSP如何看待AI投入——谷歌》2024-09-08 2.《特斯拉FSD计划入华,与国内智驾同台竞争》2024-09-08 3.《加州AI法案落地在即,平衡安全与创新》2024-09-07 OpenAI大模型重磅迭代,ScalingLaw转移至推理阶段。9月13日,ChatGPT中的o1系列模型向ChatGPTPlus和Team用户开放,其中包括o1-preview和o1-mini两个版本。本次模型迭代开辟了基座模型发展新方向,通过强化学习构建内部思维链,在编码、数学、数据分析方面具备显著优势。新版大模型主要体现在三个方面:(1)ScalingLaw的发力点改变:“大力出奇迹”从预训练过程迁移至后训练和推理过程;(2)奖励模型Rewardmodel升级:从RLHF(人类反馈强化学习)到Self-play+MCTS,垂域专业模型有待挖掘;(3)向Agent更进一步:由人工prompt到CoT(ChainofThought,思维链)自动化。 算力供不应求,应用端实现突破。算力方面:9月11日,英伟达CEO黄仁勋在高盛主办的一场技术会议上表示,英伟达真正擅长的是开拓新市场,当前Blackwell的需求非常大,Nvidia正在扩大产能,预计将在今第四季度发货并扩大生产规模,一直到明年。Oracle在财报中指出,2025年第一财季云收入(IaaS+SaaS)同比增长21%至56亿美元,其中云基础架构(IaaS)业务收入同比增长45%至22亿美元,反映对公司出租计算和存储服务的市场需求旺盛。应用方面:9月17日,微软Copilot发布会上CEO纳德拉表示,“用AI构思,共同协作的全新工作流——Web+Work+Pages正式开启”,发布会上,微软推出CopilotPages、NarrativeBuilder等产品,赋能AI工作流。Adobe于2024年第三季度,更新了包括跨多个文档进行对话的能力以及对不同文档格式的支持,AIAssistant的使用量环比增长超过70%,同时将AdobeFirefly图像生成集成到EditPDF工作流程中,并优化了Acrobat中的AIAssistant以生成适合演示、电子邮件和其他通信形式的内容。 投资建议:建议关注AI基座产业链的公司,如NVIDIA、ORACLE、AWS、MICROSOFT、AMD、海光信息、协创数据、中科曙光、曙光数创、寒武纪英维克、神州数码、紫光股份、VERTIV、美光科技等。 风险提示:技术迭代不及预期;商业化落地不及预期;政策支持不及预期;全球宏观经济风险。 计算机/行业投资策略周报/2024.09.17 生成式AI开启新篇章,算力需求景气加速 请阅读最后一页的重要声明! 内容目录 1OpenAI大模型重磅迭代,ScalingLaw转移至推理阶段3 1.1OpenAI发布o1系列,生成式AI发展进入新篇章3 1.2强化学习构建内部思维链,“慢思考”实现超越博士水平4 1.3新版大模型“新”在哪里?8 2算力供不应求,应用端实现突破9 2.1英伟达Blackwell将在第四季度发货并扩大生产规模9 2.2Oracle云基础架构IaaS收入高增长,AI算力需求旺盛10 2.3微软Copilot受o1模型加持,升级AI工作流10 2.4Adobe持续挖掘AI在文档云与创意云的赋能12 3投资建议13 4风险提示13 图表目录 图1.OpenAI发布新版大模型o1系列3 图2.OpenAIo1系列价格显著高于GPT-4o系列4 图3.过程监督随着求解次数增加,求解成功概率提升4 图4.多测试结果显示过程监督奖励模型效果更优4 图5.o1模型性能随着训练和测试时间的增加而提升5 图6.通过Acting与Learning过程实现自我博弈的迭代6 图7.o1模型在数学、编码、科学问题方面优于GPT-4o6 图8.o1在广泛的基准测试中超越了GPT-4o,涵盖了57个MMLU子类别中的54个7 图9.对编程竞赛的进一步微调可以提高o1性能7 图10.o1-preview在安全方面表现更为优异7 图11.o1-mini可以用较低推理成本达到较高数学表现8 图12.o1系列与GPT-4o的人类偏好评估8 图13.CopilotPages页面10 图14.CopilotinExcelwithpython页面11 图15.CopilotStudioagentsbuilder页面12 1OpenAI大模型重磅迭代,ScalingLaw转移至推理阶段 1.1OpenAI发布o1系列,生成式AI发展进入新篇章 9月13日,ChatGPT中的o1系列模型向ChatGPTPlus和Team用户开放,其中包括o1-preview和o1-mini两个版本。o1-preview和o1-mini都可以在模型选取器中手动选择,分别支持每周30条、50条消息。OpenAI的5级API用户可以使用这两个模型进行原型设计,速率限制为20次/分钟。本次更新的o1系列即为此前提及的“草莓”模型,对于执行复杂推理任务是一个重要的进展,代表了AI能力的新水平。本次模型迭代开辟了基座模型发展新方向,通过强化学习构建内部思维链(CoT),在编码、数学、数据分析方面具备显著优势。 图1.OpenAI发布新版大模型o1系列 数据来源:OpenAI官网,财通证券研究所 大模型应用向专业领域进军,API推理成本显著高于GPT-4o。新一代模型推理能力优异,将赋能科学研究、软件开发、数学计算等复杂挑战领域。相比GPT-4o多模态、通用性能、知识库等特点,o1推理成本提升显著,输入、输出tokens价格分别是GPT-4o的3倍、4倍。该模型典型应用场景包括: 医疗研究:生物信息学家可以利用o1来协助细胞测序数据的注释工作,大大提高基因组研究的效率。 物理学研究:在量子光学这样的前沿领域,物理学家可以借助o1生成复杂的数学公式,加速理论研究和实验设计。 软件开发:不论是哪个行业的开发者,都可以利用o1来构建和执行多步骤的工作流程,简化复杂的编程任务。 图2.OpenAIo1系列价格显著高于GPT-4o系列 模型版本 模型简介 价格 批量价格 GPT-4o 最先进的多模态模型,比GPT-4Turbo更快,更便宜,视觉能力更强,具有128K上下文和2023年10月的知识截止日期。 $5.00/1Minputtokens $2.50/1Minputtokens $15.00/1Moutputtokens $7.50/1Moutputtokens GPT-4omini 最具成本效益的小型模型,比GPT-3.5Turbo更智能,更便宜,并具有视觉功能,具有128K上下文和2023年10月的知识截止日期。 $0.15/1Minputtokens $0.075/1Minputtokens $0.60/1Moutputtokens $0.30/1Moutputtokens OpenAIo1-preview 新的推理模型,用于需要广泛常识的复杂任务,具有128K上下文和2023年10月的知识截止日期。 $15.00/1Minputtokens \ $60.00/1Moutputtokens \ OpenAIo1-mini 一种快速、经济高效的推理模型,专为编码、数学和科学用例量身定制,具有128K上下文和2023年10月的知识截止日期。 $3.00/1Minputtokens \ $12.00/1Moutputtokens \ 数据来源:OpenAI官网,财通证券研究所 1.2强化学习构建内部思维链,“慢思考”实现超越博士水平 思路起源:过程监督优于结果监督。在2023年5月,OpenAI的论文《Let’sVerifyStepbyStep》提出:对于具有挑战性的step-by-step数学推理问题,训练奖励模型时,过程监督显著优于结果监督。结果监督奖励模型(ORMs)仅使用模型思维链的最终结果来训练,而过程监督奖励模型(PRMs)则接受思维链中每个步骤的奖励。由此开辟了除扩大参数规模外的大模型迭代的另一方向:优化推理思维链。 图3.过程监督随着求解次数增加,求解成功概率提升图4.多测试结果显示过程监督奖励模型效果更优 数据来源:《Let’sVerifyStepbyStep》HunterLightman等,财通证券研究所数据来源:《Let’sVerifyStepbyStep》HunterLightman等,财通证券研究所 OpenAI开发了一种创新的大规模强化学习算法,能够在高效利用数据,并有效地训练模型运用其思维链进行推理。这种训练方法的核心在于教会模型“如何思 考”,而不仅仅是存储和检索信息。OpenAI发现了两个关键因素能显著提升o1模型的性能:(1)增加强化学习的计算量(即训练阶段的计算资源投入);(2)延长模型的"思考时间"(即在测试或应用阶段给予模型更多的计算时间)。这种方法与传统大语言模型预训练的“ScalingLaw”截然不同,不再受限于海量文本数据的获取和处理,更多地依赖于计算资源和算法优化。 图5.o1模型性能随着训练和测试时间的增加而提升 数据来源:OpenAI官网,财通证券研究所 Self-play(强化学习自我博弈训练法)与MCTS(蒙特卡洛树搜索),实现模型推理自我迭代。Self-play指的是智能体通过与自身副本或历史版本进行博弈而进行演化的方法,通过模型自我博弈产生大量高质量的合成数据,利用AI计算能力来补足它数据利用效率不够的短板。以AlphaZero为例,在每一局对弈中,模型使用MCTS来选择动作。MCTS结合了当前神经网络提供的策略(policy)和价值 (value),从而在每个游戏状态下评估出最优的行动。其具体步骤如下: 1)随机初始化:模型从完全随机初始化的状态开始,没有任何人类先验知识。 2)自我博弈(self-play):模型自己与自己进行对弈,生成大量的游戏数据。这些对弈中好的结果用于更新模型的参数。 3)蒙特卡洛树搜索(MCTS):在每一次对弈中,AlphaZero会使用MCTS来搜索最佳动作。MCTS使用策略网络(policynetwork)提供的动作概率分布和价值网络(valuenetwork)提供的局面评估结果来引导搜索。 4)策略更新:根据自我对弈的结果,使用强化学习的方式来更新神经网络的参数,使得模型逐步学习到更优的策略。 图6.通过Acting与Learning过程实现自我博弈的迭代 数据来源:《Discoveringfastermatrixmultiplicationalgorithmswithreinforcementlearning》AlhusseinFawzi等,财通证券研究所 o1模型在具有挑战性的推理基准测试和广泛的基准测试中显著优于GPT-4o,“慢思考”实现超越博士水平。OpenAI发现,在绝大多数需要深度思考和复杂推理的任务中,最大化测试时间计算资源的情况下(有足够的"思考时间"),o1模型明显优于GPT-4o。OpenAI进一步将o1模型应用于GPQAdiamond测试,这是一个极具挑战性的智能基准测试,专门用于评估模型在化学、物理和生物学等领域的专业知识水平,并邀请了拥有相关领域博士学位的专家参与测试。结果显示,o1超越了人类专家的表现,成为首个在GPQAdiamond基准上击败人类专家的AI模型,这标志着AI在特定专业领域的能力已经达到了一个新的高度。 图7.o1模型在数学、编码、科学问题方面优于GPT-4