您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[东吴证券]:计算机行业深度报告:国产AI算力行业报告:浪潮汹涌,势不可挡 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机行业深度报告:国产AI算力行业报告:浪潮汹涌,势不可挡

信息技术2024-03-26王紫敬、王世杰东吴证券E***
计算机行业深度报告:国产AI算力行业报告:浪潮汹涌,势不可挡

计算机行业深度报告 证券研究报告·行业深度报告·计算机 国产AI算力行业报告:浪潮汹涌,势不可挡2024年03月26日 增持(维持) 投资要点 海外应用、算力和模型相互演进,AI浪潮滚滚而来:2024年2-3月,OpenAI发布Sora,Anthropic发布了新一代AI大模型系列——Claude3,马斯克开源大模型Grok-1,英伟达在GTC大会上推出新一代GPUGB200,全球AI产业发展速度逐步加快。 国内模型、应用不断突破,算力需求逐步放大:2024年3月18日,Kimi上下文长度提升到200万字,访问量大幅提升,算力告急。3月23日, 证券分析师�紫敬 执业证书:S0600521080005 021-60199781 wangzj@dwzq.com.cn 证券分析师�世杰 执业证书:S0600523080004 wangshijie@dwzq.com.cn AI 行业走势 阶跃星辰发布了万亿参数大模型预览版,标志着国产大模型取得了 计算机沪深300 巨大进步。国产AI大模型正在不断迭代,对算力需求会不断提升。 国内AI芯片需求旺盛:在英伟达GTC大会上,黄仁勋讲到,如果要训练一个1.8万亿参数量的GPT模型,需要8000张H100,用时90天。我们测算如果中国有十家大模型公司要达到GPT-4水平,则需要8万张 H100GPU。我们预计,推理算力需求将是训练的数倍,高达几十万张H100。 政策加持叠加海外制裁,国产AI芯片需求会逐步加快:虽然国产AI芯片在单卡性能、生态和集群效率上与海外产品仍有一定差距,但改进速度较快,已经形成万卡集群,并在科大讯飞、部分互联网大厂用于AI大模型训练。3月22日,上海政策要求,到2025年,上海市新建智算中 心国产算力芯片使用占比超过50%。 国产AI芯片中,昇腾一马当先,各家竞相发展:华为昇腾是国产AI芯片龙头,根据财联社报道,2022年昇腾占据国内智算中心约79%的市场份额。海光信息、寒武纪、景嘉微等公司国产AI芯片产品均已有下 游客户测试使用,后续有望迎来放量。 算力产业蓬勃发展,多个细分方向迎来机会:算力租赁。AI算力租赁刚刚兴起,参与方众多,格局还比较分散。AI算力租赁目前的核心竞争力是谁能拿到优质计算卡。算力液冷。3月19日,GTC大会英伟达提出GB200使用液冷方案。液冷技术壁垒不高,行业壁垒较高。根据我们测 算,2025年及以后存量服务器改造为冷板式液冷市场空间为832亿元;假设2027年新增AI服务器全部采用冷板式液冷,市场规模为260亿元。全国一体化算力网。算力调度类似于电力调度。央国企有望在算力 调度中大有作为。2025年,我们测算悲观、中性和乐观情况下,对应算力调度市场规模为444、710、887亿元。央企AI。2月19日,国资委明确要求中央企业要把发展人工智能放在全局工作中统筹谋划,深入推 进产业焕新,加快布局和发展人工智能产业。 投资建议:不论国内还是海外,大模型和应用都在不断迭代和发展,算力需求增加的确定性会越来越强。但由于海外制裁和国家政策支持,算力国产化比例会逐渐提高。同时,算力的新技术、新方向也会逐步发展起来。 相关标的:国产算力:华为系:神州数码、软通动力、高新发展、拓维信息等。海光系:海光信息、中科曙光。其他:寒武纪、景嘉微等。算力一体化:广电运通、博睿数据、思特奇、恒为科技、美利云等。算力租赁:云赛智联、润泽科技、利通电子、润建股份、迈信林等。算力液冷:英维克、网宿科技、高澜股份、精研科技等。央企AI:国投智能、新华网等。其他:九联科技。 风险提示:政策支持不及预期;技术发展不及预期;AI发展不及预期。 4% -1% -6% -11% -16% -21% -26% -31% -36% -41% -46% 2023/3/272023/7/262023/11/242024/3/24 相关研究 《AI算力不断迭代,液冷大势所趋》 2024-03-11 《数据要素的报台账时刻:关注新政策方向》 2024-02-27 1/22 东吴证券研究所 内容目录 1.海外:模型、应用和算力相互推进4 2.国内模型逐步追赶,提升算力需求5 3.国内算力产业现状盘点6 3.1.算力有哪些核心指标?6 3.2.国产算力和海外的差距7 3.3.国产化和生态抉择8 3.4.国内算力厂商竞争要素9 3.5.国内AI算力市场空间9 4.国内供给端:昇腾一马当先,各家竞相发展10 4.1.昇腾计算产业链10 4.1.1.昇腾服务器12 4.1.2.昇腾一体机13 4.2.海光信息14 4.3.寒武纪15 4.4.景嘉微15 5.算力租赁15 6.算力液冷16 7.全国一体化算力网17 8.央企AI20 9.投资建议21 10.风险提示21 2/22 东吴证券研究所 图表目录 图1:Claude3benchmarks4 图2:GB200超级芯片5 图3:GPU算力浮点数图示6 图4:关键参数关系示意图7 图5:主流国内外AI芯片性能对比7 图6:中国AI服务器市场规模9 图7:华为昇腾人工智能生态11 图8:华为大模型生态合作伙伴12 图9:华为昇腾整机合作伙伴主业情况(截至2024年3月24日)12 图10:已发布训推一体机主要产品13 图11:海光DCU深算一号和英伟达A100性能对比14 图12:寒武纪主要产品矩阵15 图13:算力调度涉及的关键环节18 图14:2019-2022年中国IaaS市场规模(公有云)19 图15:2022年中国公有云IaaS市场格局19 图16:中国算力基础设施高质量发展指标20 表1:冷板和浸没式液冷存量改造市场空间测算17 表2:冷板和浸没式液冷AI服务器增量改造市场空间测算17 表3:2025年中国算力调度潜在市场规模测算20 3/22 东吴证券研究所 1.海外:模型、应用和算力相互推进 2月16日,OpenAI发布了首个文生视频模型Sora。Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。 3月4日,Anthropic发布了新一代AI大模型系列——Claude3。该系列包含三个模型,按能力由弱到强排列分别是Claude3Haiku、Claude3Sonnet和Claude3Opus。其中,能力最强的Opus在多项基准测试中得分都超过了GPT-4和Gemini1.0Ultra,在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准。Claude首次带来了对多模态能力的支持(Opus版本的MMMU得分为59.4%,超过GPT-4V,与Gemini 1.0Ultra持平)。 图1:Claude3benchmarks 数据来源:Anthropic,东吴证券研究所 3月18日,马斯克开源大模型Grok-1。马斯克旗下AI初创公司xAI宣布,其研发的大模型Grok-1正式对外开源开放,用户可直接通过磁链下载基本模型权重和网络架 构信息。xAI表示,Grok-1是一个由xAI2023年10月使用基于JAX和Rust的自定义训练堆栈、从头开始训练的3140亿参数的混合专家(MOE)模型,远超OpenAI的GPT模型。 在CEO奥尔特曼的带领下,OpenAI或许有望在今年夏季推出GPT-5。 3月23日,媒体援引知情人士透露,OpenAI计划下周在美国洛杉矶与好莱坞的影视公司和媒体高管会面。OpenAI希望与好莱坞合作,并鼓励电影制作人将OpenAI最新AI视频生成工具Sora应用到电影制作中,从而拓展OpenAI在娱乐行业的影响力。 4/22 东吴证券研究所 3月19日,英伟达GTC大会上,英伟达发布新的B200GPU,以及将两个B200 与单个GraceCPU相结合的GB200。 全新B200GPU拥有2080亿个晶体管,采用台积电4NP工艺节点,提供高达20petaflopsFP4的算力。与H100相比,B200的晶体管数量是其(800亿)2倍多。而单个H100最多提供4petaflops算力,直接实现了5倍性能提升。 而GB200是将2个BlackwellGPU和1个GraceCPU结合在一起,能够为LLM 推理工作负载提供30倍性能,同时还可以大大提高效率。 图2:GB200超级芯片 数据来源:英伟达,东吴证券研究所 计算能力不断提升。过去,训练一个1.8万亿参数的模型,需要8000个HopperGPU 和15MW的电力。如今,2000个BlackwellGPU就能完成这项工作,耗电量仅为4MW。在GPT-3(1750亿参数)大模型基准测试中,GB200的性能是H100的7倍,训练速度是H100的4倍。 2.国内模型逐步追赶,提升算力需求 Kimi逐渐走红。月之暗面Kimi智能助手2023年10月初次亮相时,凭借约20万汉字的无损上下文能力,帮助用户解锁了专业学术论文的翻译和理解、辅助分析法律问题、一次性整理几十张发票、快速理解API开发文档等,获得了良好的用户口碑和用户量的快速增长。 2024年3月18日,Kimi智能助手在长上下文窗口技术上再次取得突破,无损上 下文长度提升了一个数量级到200万字。 过去要10000小时才能成为专家的领域,现在只需要10分钟,Kimi就能接近任何一个新领域的初级专家水平。用户可以跟Kimi探讨这个领域的问题,让Kimi帮助自己练习专业技能,或者启发新的想法。有了支持200万字无损上下文的Kimi,快速学习任何一个新领域都会变得更加轻松。 5/22 东吴证券研究所 访问量提升,kimi算力告急。3月21日下午,大模型应用Kimi的APP和小程序均显示无法正常使用,其母公司月之暗面针对网站异常情况发布说明:从3月20日9 点30分开始,观测到Kimi的系统流量持续异常增高,流量增加的趋势远超对资源的预期规划。这导致了从20日10点开始,有较多的SaaS客户持续的体验到429:engineisoverloaded的异常问题,并对此表示深表抱歉。 2024年3月23日,阶跃星辰发布Step系列通用大模型。产品包括Step-1千亿参数语言大模型、Step-1V千亿参数多模态大模型,以及Step-2万亿参数MoE语言大模型的预览版,提供API接口给部分合作伙伴试用。 相比于GPT-3.5是一个千亿参数模型,GPT-4是拥有万亿规模参数,国内大模型厂商如果想追赶,需要各个维度要求都上一个台阶。 阶跃星辰发布了万亿参数大模型预览版,标志着国产AI大模型取得了巨大进步。国产AI大模型正在不断迭代,对算力需求会不断提升。 3.国内算力产业现状盘点 3.1.算力有哪些核心指标? 算力芯片的主要参数指标为算力浮点数,显存,显存带宽,功耗和互连技术等。 算力浮点数:算力最基本的计量单位是FLOPS,英文Floating-pointOperationsPerSecond,即每秒执行的浮点运算次数。算力可分为双精度(FP64),单精度(FP32),半精度(FP16)和INT8。FP64计算多用于对计算精确度要求较高的场景,例如科学计算、物理 仿真等;FP32计算多用于大模型训练等场景;FP16和INT8多用于模型推理等对精度要求较低的场景。 图3:GPU算力浮点数图示 数据来源:CSDN,东吴证券研究所 GPU显存:显存用于存放模型,数据显存越大,所能运行的网络也就越大。 6/22 东吴证券研究所 在预训练阶段,大模型通常选择较大规模的数据集获取泛化能力,因此需要较大的 批次等来保证模型的训练强大。而模型的权重也是从头开始计算,因此通常也会选择高精度(如32位浮点数)进行训练。需要消耗大量的GPU显存资源。 在微调阶段,通常会冻结大部分参数,只训练小部分参数。同时,也会选择非常多的优化技术和较少的高质量数据集来提高微调效果,此时,由于模型已经在预训练阶段进行了大量的训练,微调时的数值误