投资评级:看好(维持) 核心观点 证券研究报告 最近12月市场表现 计算机 沪深300 上证指数 27% 15% 2% -10% -23% -36% 分析师杨烨 SAC证书编号:S0160522050001 yangye01@ctsec.com 分析师罗云扬 SAC证书编号:S0160522050002 luoyy@ctsec.com 相关报告 1.《大国博弈,科技争先,关注安全紧迫性资产》2024-12-08 2.《“AI操作系统”时代已至》2024-12-01 3.《智驾月报:10月车市环比向好,文远知行上市》2024-11-18 字节即将重磅发布,AllforAI。2024年12月18-19日,字节火山引擎将于上海举行冬季原动力大会,大会主题围绕AI展开。根据官网信息,大会中将有豆包系列大模型全面升级,以及事关AI+企业服务、AI+产业转型等AI赋能实体经济案例与话题分享。豆包大模型家族涵盖全模态能力,DAU稳坐国内AI应用第一。视频生成模型仍处于测试阶段,我们认为随着OpenAISora正式商用,字节豆包视频类大模型有望在近期大会中发布并开启商用。 推理算力需求露出“冰山一角”,AI原生应用、视频生成应用、AI改造传统应用,带来国内推理需求从百万卡向千万卡迈进。基于OpenAI的论文,推理算力需求与模型参数量、处理token数、活跃用户量的乘积大约成正比关系。当前国内大模型APP推理算力需求或在数十万颗GPU(以H20计算)级别。而在实际产业中,真正海量的活跃用户仍暂时在传统应用中,这部分用户量庞大,推理算力需求更为广阔。根据我们的测算,在假设未来20%短视频由AI生成的前提下,仅考虑短视频且清晰度较低的情况,芯片需求为百万颗级别,未来AI生成高清长视频渗透率提升,将带来推理算力需求的飞跃。总体国内推理需求正在从百万卡向千万卡迈进。 投资建议:建议关注与字节跳动有合作关系的英伟达(NVDA.O)、润泽科技浪潮信息、中科曙光、欧陆通、高澜股份、法本信息、南凌科技、华胜天成等以及随着字节大模型、生态发展带动下可能在AI软硬件环节受到带动的核心厂商,如海光信息、寒武纪、英维克、协创数据、博通(AVGO.O)、迈威尔科技(MRVL.O)等。 风险提示:技术迭代不及预期的风险;商业化落地不及预期的风险;政策支持不及预期风险;全球宏观经济风险。 豆包引领,国内AI推理算力需求几何? 请阅读最后一页的重要声明! 内容目录 1字节即将重磅发布,AllforAI3 2国内推理算力需求几何?5 2.1当前推理算力估算-不含视频模型6 2.2视频类AI推理算力估算8 3投资建议9 4风险提示9 图表目录 图1.火山引擎2024冬季原动力大会干货速览3 图2.豆包大模型家族涵盖广泛4 图3.目前豆包AI视频模型仍处于测试阶段需单独申请使用4 图4.火山引擎提供的非字节大模型5 图5.大模型推理算力需求估算框架6 图6.当前国内大模型APP推理算力需求测算6 图7.2024年6月,月活Top20App用户AIGC嵌入情况7 图8.国内应用APPtop20月活:AIvs传统7 图9.SORA实际界面8 图10.视频AI推理算力测算8 1字节即将重磅发布,AllforAI 火山引擎冬季原动力大会,豆包大模型家族即将全面升级。2024年12月18-19日,字节火山引擎将于上海举行冬季原动力大会,大会主题围绕AI展开。根据官网信息,大会中将有豆包系列大模型全面升级,以及事关AI+企业服务、AI+产业转型等AI赋能实体经济案例与话题分享。 图1.火山引擎2024冬季原动力大会干货速览 数据来源:火山引擎官网,财通证券研究所 豆包大模型家族涵盖全模态能力,DAU稳坐国内AI应用第一。目前,豆包大模型家族以Seed基座模型为基础,已经衍生出文字、音频(语音、音乐)、图片、视频全方位的模态理解/生成能力。根据量子位智库,2024年1-11月,豆包下载量超过1.6亿,11月单月DAU接近900万人次(10月单月DAU超750万人次)。 图2.豆包大模型家族涵盖广泛 数据来源:火山引擎官网,财通证券研究所 视频生成模型仍处于测试阶段,有望在大会后正式开启商用。根据火山引擎官网,目前doubao-视频生成模型仍处于“测试版”阶段,需单独申请方可使用,正式可使用的视觉大模型中,并不包含视频类模型。我们认为,随着OpenAISora正式商用,字节豆包视频类大模型有望在近期大会中发布并开启商用。 图3.目前豆包AI视频模型仍处于测试阶段需单独申请使用 数据来源:火山引擎官网,财通证券研究所 火山引擎亦提供非豆包服务,字节算力需求旺盛。除了豆包相关大模型,火山引擎亦提供智谱AI、Moonshot、MistralAI的模型。同时支持模型精调、测评、智能体搭建等。我们认为,以字节为代表的互联网大厂算力需求不仅来自于自身业务与模型诉求,同时亦有为初创型大模型厂商提供的算力供应,需求空间广阔。 图4.火山引擎提供的非字节大模型 数据来源:火山引擎官网,财通证券研究所 2国内推理算力需求几何? 对于推理算力的估算,我们回到最初OpenAI的论文,推理算力需求与模型参数量以及token数成正比。其中: 模型参数量:目前受限于算力成本以及供应,实际在商用中大规模使用的模型均远小于原本的基座大模型(如GPT与GPTturbo)。我们认为,模型参数侧的Scalinglaw是“大”模型智能涌现的一切前提,随着算力持续供给,实际大规模使用的模型参数量将持续提升。 处理数据量:对于文字类场景,以OpenAIo1模型为代表,不论是添加prompt还是“Thinkstepbystep”等,推理消耗的tokens越多,最终生成效果就越好。对于视觉类场景,更高清晰度即为更多tokens消耗。我们认为,为了更好的用户体验,推理侧的Scalinglaw将在愈演愈烈的用户流量竞争中进一步演绎。 用户量:与传统互联网应用相比,目前AI应用的用户体量仍处于初级阶段。同时除了用户直接使用大模型产品,传统应用的AI赋能升级亦有广阔算力需求。 图5.大模型推理算力需求估算框架 AI推理算力需求 模型参数量 ∝ 更好地理解/生成效果 =更大模型 处理数据量 × × 更多Prompt/更高清晰 度…=更多Tokens 活跃用户量 ScalingLawmorethanjustpre-training 数据来源:《ScalingLawsforNeuralLanguageModels》OpenAI,财通证券研究所绘制 2.1当前推理算力估算-不含视频模型 当前国内大模型APP推理算力需求或在数十万颗GPU(以H20计算)级别。根据火山引擎官网,目前豆包日均tokens消耗数为13000亿+,其中包含除视频类之外的其他多模态模型(文字、语音、图片),由于各模态比例以及实际模型结构未公开,我们计算以LLM模型推理算力计算公式为基础。 图6.当前国内大模型APP推理算力需求测算 参数数值简述 模型参数量(亿) 300 目前各家模型厂商实际大规模使用模型参数量并不公开,且基于成本考虑均会有所缩减,300亿参数量为假设。 日均token数(亿) 豆包 13000 根据量子位豆包DAU大约为国内大模型APPDAU的60%(900/1500) 国内AI应用合计 21667 平均每秒消耗token数(亿) 0.25 理论所需算力(TfLOPS) 1504630 目前大部分AI芯片FP16/INT8算力单位基本为TFOLPS 峰值预留倍数 10 相关参数详情参考财通计算机组报告《大模型推理算力知多少》考虑过去一年多推理优化技术持续提升,算力利用率假设20% 算力利用率 20% 实际所需算力(TfLOPS) 75231481 H20算力(TfLOPS) FP16 148 由于各类地缘因素,国内目前可售卖英伟达GPU为H20。 其算力较小,但考虑显存、网络和生态,算力利用率高,故认为H20与目前领先国产卡性能大致为1:1关系。 INT8 296 所需卡数(万颗) FP16 50.8 INT8 25.4 数据来源:《ScalingLawsforNeuralLanguageModels》OpenAI,量子位智库,华尔街见闻,火山引擎官网,财通证券研究所 上述计算未包含的部分——传统应用AI嵌入与网页端模型用户量。上述计算中,仅仅考虑了以直接的大模型形式服务的用户以及算力需求。但在实际产业中,真正海量的活跃用户仍暂时在传统应用中,而AIGC能力也正持续嵌入到相关产品,这部分的推理算力无法估算,但考虑传统APP庞大的用户量,算力需求广阔。同时,除了APP形式,网页端提供大模型服务的也未在上述计算中包含。 图7.2024年6月,月活Top20App用户AIGC嵌入情况 数据来源:QuestMobile,财通证券研究所 AI应用APP用户月活量约为传统APP月活的1/50。我们认为,相比传统应用, 图8.国内应用APPtop20月活:AIvs传统 目前AI应用覆盖仍在初级阶段,以国内互联网用户体量,算力需求空间广阔。 数据来源:AI产品榜,199it,QuestMobile,财通证券研究所 2.2视频类AI推理算力估算 OpenAISORA正式商用,有望加速以豆包为代表的大模型厂商视频类模型研发与商用。Sora的可以一次提示同时生成最多4个视频,时长在5-20秒不等,清晰度可选480p、720p(生成时间比480p慢4倍)、1080p(生成时间比480p慢8倍)。 图9.SORA实际界面 数据来源:SORA官网,财通证券研究所 根据测算,在假设未来20%短视频由AI生成的前提下,芯片需求为百万颗级别。这是在仅考虑短视频且清晰度较低的情况下,未包含中长视频(对清晰度要求更高,且实际发布的视频背后可能淘汰过很多版本)。未来视频类算力需求广阔。 图10.视频AI推理算力测算 参数数值简述 DiT-XL每步推理算力需求(FLOPS) 5.2E+11 DiT-XL参数量为6.75亿,生成一张512*512图片,需要250步,每一步消耗算力为524.6*10^9FLOPS 每秒视频帧数(张) 24 假设latentspace压缩倍数 8 根据FactorialFund的MatthiasPlappert的假设 假设每生成一秒视频所需步数 250 假设视频生成模型参数量对DiT-XL倍数 30 假设每次提示后可选视频平均数量 2 每秒视频生成所需理论算力(FLOPS) 2.4E+16 此处为以512*512分辨率计算 我国日均短视频更新量(万个) 8000 《中国网络视听发展研究报告(2024)》数据 假设平均每个短视频时长(秒) 30 假设短视频平均每个为30秒 合计新增短视频时长(亿秒) 24 假设未来新增短视频由AI生成比例 20% 每日视频生成所需理论算力合计(FLOPS) 1.1E+25 平均每秒所需理论算力(FLOPS) 1.3E+20 由于是每日视频生成,此处假设生成这4672亿分钟视频的时间为1天(即24*3600秒) 芯片算力利用率 30% 假设视觉类偏向计算密集型任务,算力利用率假设较高 所需芯片数量(万颗)-H20为例 148 以H20INT8算力296TFLOPS计算 PS:一般视频分辨率为480p(640×480)、720p(1280×720)、1080p(1920×1080),上述计算是以DiT-XL的512*512分辨率计算,随后续AI视频清晰度要求提升,算力需求亦会进一步提升 数据来源:《ScalableDiffusionModelswithTransformers》加利福尼亚大学伯克利分校与纽约大学,factorialfunds,环球网,华尔街见闻,财通证券研究所 3投资建议 建议关注与字节跳动有合作关系的英伟达(NVDA.O)、润泽科技、浪潮信息、中科曙光、欧陆通、高澜股份、法本信息、南凌科技、华胜天成等