您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国盛证券]:再超预期的算力财报 - 发现报告
当前位置:首页/行业研究/报告详情/

再超预期的算力财报

信息技术2024-02-25刘高畅、杨然国盛证券
AI智能总结
查看更多
再超预期的算力财报

英伟达业绩与指引均超预期,验证ai算力长期景气度。1)英伟达2024财年四季度业绩大超预期,收入达到创纪录的221亿美元,环比增长22%,同比增长265%。其中,数据中心业务在Nvidia Hopper GPU计算平台和InfiniBand端到端网络的推动下,2024财年第四季度收入达到184亿美元,创下历史新高,环比增长27%,同比增长409%;同时,2024财年数据中心大约40%的收入来自AI推理。2)Q1FY25指引超预期。英伟达预计Q1 FY25总收入240亿美元,上下浮动2%。本次英伟达除业绩及指引双超预期外,最大亮点在于AI推理需求在数据中心业务中占比已达到40%,验证了推理阶段的强劲需求,为市场打了一剂强心剂。 英伟达组建具身智能研究小组,联合贝索斯投资机器人初创公司Figure AI。1)英伟达高级科学家Jim Fan在推特表示,将和Yuke Zhu一起,在英伟达内部组建一个新研究小组——GEAR,通用具身智能体研究。在未来,每一台移动的机器都将是自主的,机器人和模拟智能体将像iPhone一样无处不在。2)此前,英伟达CEO黄仁勋在中国台北国际电脑展(COMPUTEX)上演示了自主移动机器人平台Isaac AMR,现场视频演示采用的机器人底盘,是来自九号公司的机器人移动平台。Isaac AMR是一个用于模拟、验证、部署、优化和管理自主移动机器人车队的平台,包含了边缘到云的软件服务、计算以及一套参考传感器和机器人硬件,可加快自主移动机器人(AMR)的开发和部署速度,减少成本和缩短产品上市时间。2)根据彭博社,亚马逊合伙人贝索斯、英伟达和其他大型科技公司将投资类人机器人初创公司Figure AI,以期为人工智能寻找新的应用,英伟达和一个亚马逊附属的基金将各提供5,000万美元。 英伟达进军ASIC,推理阶段算力需求持续超预期。1)根据路透社报道,英伟达计划建立一个专注于为云计算公司和其他企业设计定制芯片(ASIC)的新业务部门,包括先进的人工智能(AI)处理器。2)ASIC为特定用户要求和特定电子系统的需要而设计、制造的集成电路,与通用集成电路相比具有体积更小、功耗更低、可靠性提高、性能提高、保密性增强、成本降低等优点,根据CSET报告AI Chips:What They Are and Why They Matter,相比CPU,ASIC芯片训练效率约为100-1000倍,速度约为10~1000倍,推理方面好于GPU。因此,我们认为,在Gooogle、Amazon等海外科技大厂竞相内部研制处理器的压力下,一方面英伟达进军ASIC,有利于抢占市场,避免资源流失;另一方面,也是为推理阶段算力竞赛的提前布局,算力产业未来有望呈现持续高景气态势。 投资标的:中科曙光、海光信息、浪潮信息、利通电子、新易盛、高新发展、中际旭创、工业富联、寒武纪、神州数码、恒为科技、软通动力、润建股份、万马科技、云赛智联、拓维信息、烽火通信等。 风险提示:技术迭代不及预期、经济下行超预期、行业竞争加剧。 英伟达业绩与指引均超预期,持续验证产业高景气 英伟达2024财年四季度业绩大超预期,数据中心大约40%的收入来自AI推理。第四季度收入达到创纪录的221亿美元,环比增长22%,同比增长265%。 数据中心业务:2024财年第四季度,在Nvidia Hopper GPU计算平台和InfiniBand端到端网络的推动下,数据中心收入达到184亿美元,创下历史新高,环比增长27%,同比增长409%。2024财年数据中心大约40%的收入来自AI推理。 游戏业务:2024财年第四季度营收为28.7亿美元,环比持平,同比增长56%。假期期间消费者对Nvidia G Force RTXGPU的强劲需求好于我们的预期。财年收入为104.5亿美元,增长15%。 专业可视化业务:2024财年第四季度营收4.63亿美元,环比增长11%,同比增长105%,财年营收15.5亿美元,增长1%。本季度的连续增长是由RTX数据架构的丰富组合和GPU的持续增长推动的。企业正在更新他们的工作站,以支持与生成型人工智能相关的工作负载,例如数据准备、大模型、微调和检索、增强生成。 汽车业务:2024财年第四季度收入为2.81亿美元,环比增长8%,同比下降4%。 由于汽车制造商继续采用Nvidia驱动平台,该财年收入达到10.9亿美元,增长21%,首次突破10亿美元大关。 图表1:英伟达季度业务拆分 Q1 FY25展望超预期,总收入预计240亿美元。英伟达预计Q1FY25总收入240亿美元,上下浮动2%;数据中心和专业版的环比增长将被游戏的季节性下降部分抵消;GAPP和非GAAP毛利率预计分别为76.3%和77%,上下浮动50个基点。随着公司继续投资于面前的巨大机遇,2025财年的GAPP和非GAAP运营费用预计将增长30%左右;GAPP和非GAAP其他收入预计约为1.5亿美元,不包括非关联投资的损益;GAPP和非GAAP税率预计为17%,上下浮动1%(不包括任何离散项目)。 本次英伟达除四季度业绩及Q1 FY25指引超预期外,AI推理需求在数据中心业务中占比40%为市场打了一剂强心剂。此前市场对于2025年AI算力进入推理阶段影响英伟达业绩的担心,得到一定程度化解,持续验证产业高景气。 组建具身智能研究小组,全面参与机器人、游戏和生成式基础模型 英伟达高级科学家成立具身智能研究小组,构建通用能力AI。英伟达高级科学家Jim Fan在推特表示:“将和老队友Yuke Zhu一起,在英伟达内部组建一个新研究小组——GEAR,通用具身智能体研究。在未来,每一台移动的机器都将是自主的,机器人和模拟智能体将像iPhone一样无处不在。正在构建基础智能体:一个具有通用能力的AI,可以在许多虚拟和现实的世界中学习如何熟练地行动。” 图表2:Jim Fan强调2024年将是属于机器人、游戏AI和模拟的一年 此前,NVIDIA创始人兼首席执行官黄仁勋在COMPUTEX上的主题演讲中推出全新自主移动机器人(AMR)平台Isaac AMR,能为移动机器人带来先进的测绘、自主和模拟能力。其现场视频演示的Isaac AMR所采用的机器人底盘,是来自九号公司的机器人移动平台RMP Lite 220。Isaac AMR是一个用于模拟、验证、部署、优化和管理自主移动机器人车队的平台,包含了边缘到云的软件服务、计算以及一套参考传感器和机器人硬件,可加快AMR的开发和部署速度,减少成本和缩短产品上市时间。 图表3:Isaac AMR演示 机器人的开发过程相当复杂,时间长,挑战大,成本高,NVIDIA Isaac机器人开发平台提供端到端解决方案,降低开发成本、简化开发流程并加速产品部署。在许多用例和场景中,缺乏结构化的环境也很普遍。NVIDIA Isaac机器人开发平台解决了这些挑战,端到端解决方案可帮助降低成本、简化开发流程并加速产品上市。 图表4:NVIDIA Isaac众多应用案例 贝索斯和英伟达将加入OpenAI投资人形机器人初创公司Figure。根据彭博社,亚马逊合伙人贝索斯、英伟达和其他大型科技公司将投资类人机器人初创公司Figure AI,以期为人工智能寻找新的应用。贝索斯通过他的公司Explore Investments LLC承诺投资1亿美元,微软将投资9500万美元,英伟达和一个亚马逊附属的基金将各提供5,000万美元。 英伟达进军ASIC,推理阶段算力需求持续超预期 英伟达成立全新业务部门,进军定制芯片(ASIC)。根据路透社报道,英伟达计划建立一个专注于为云计算公司和其他企业设计定制芯片(ASIC)的新业务部门,包括先进的人工智能(AI)处理器。 图表5:英伟达进军定制芯片 我们认为: 首先,抢占市场,避免资源流失。英伟达的客户竞相抢购供应日益减少的英伟达芯片,以便在迅速崛起的生成式AI领域展开竞争。但许多海外科技公司也已经开始针对具体的需求自行研发内部处理器。 其次,英伟达进军ASIC领域,是为推理阶段算力竞赛的提前布局。 ASIC具备体积小、成本低等优势。ASIC为特定用户要求和特定电子系统的需要而设计、制造的集成电路。ASIC的特点是面向特定用户的需求,ASIC在批量生产时与通用集成电路相比具有体积更小、功耗更低、可靠性提高、性能提高、保密性增强、成本降低等优点。 ASIC推理方面显著优于GPU。根据CSET报告AI Chips:What They Are and Why They Matter,相比CPU,ASIC芯片训练效率约为100-1000倍,速度约为10~1000倍,推理方面好于GPU。 图表6:各类芯片的效能和速度 AIGC浪潮已至,进一步推动对芯片和算力的需求。当下,由于互联网公司、云计算提供商和企业客户都迫切希望将生成式AI应用到自身业务中,算力供应短缺的问题已经成为行业的普遍热点。 1、训练侧:GPT3.5对应数千张H100,多模态需求再提升数倍至十倍。 GPT3.5同级别模型约需要数千张H100进行训练。根据GPU Utils报道,Inflection表示,针对他们与GPT3.5相当的大语言模型,其使用了大约3500张H100进行训练。2)同时,对于初创公司而言,其需要数千张H100对大语言模型进行训练,需要几十张或者小几百张H100做微调。 考虑H100价格约为3-4万美元/张,对用算力投入约为近亿美元。根据快科技报道,H100价格约合人民币24万元,对应3-4万美元/张。考虑以Inflection为代表的公司算力投入在3500张级别,对应总投入或约为近亿美元。 GPT4或对应数万张A100,GPT5或对应数万张H100。1)根据GPU Utils报道,GPT4有可能是在10000-25000张A100上训练的。而对于GPT5,其可能需要25000-50000张H100进行训练。2)相比GPT3.5约数千张H100的需求量,GPT4、GPT5等相对成熟的多模态模型算力需求提升约数倍至十倍级别。 2、推理侧:仅考虑文字问答场景,需要数万张H100,多模态提升空间广阔。 1)每日访问量:6000万。 2023年6月6日,根据科创板日报报道,据SimilarWeb最新数据,2023年4月OpenAI网站访问次数已达到18亿次,则对应每日访问量约为6000万次。 2)用户平均访问时长:5分钟。 根据科创板日报报道,每次访问时长约为5分21秒。 3)单个token输出需要的时间:62.5ms;每秒生成token数量:16个。 根据百度智能云的部分案例,在Batch Size为1时,输出8个token大约需要353ms; 在Batch Size增加到16时,输出8个token大约需要833ms。则输出8个token的时间中值约为500ms(即0.5秒),即单个token所需要的计算时间约为62.5ms(即0.0625秒),对应每秒生成token数量约为16个。 4)平均实时并发:333.33万个token/s。 6000万*(5*60)s*16token/s/(24*60*60)s=333.33万个token/s。 5)算力利用率:20%。 Transformer为自回归模型,这意味着在原始状态下,每生成1个新token,都需要将所有输入过的token再次计算。 根据百度智能云技术研究,以175B的GPT-3模型,输入1000个token,生成250个token为例: Context(即Encoder)阶段的激活Shape为[B,1000,12288],其中B为batch_size,第二维为输入token数,第三位为hidden size。 而对于Generation(Decoder)阶段,由于每次输入输出都是固定的1个token,是通过循环多次来产生多个输出token,所以Generation阶段的激活Shape的第二维始终为1,Generation的激活显存占