证券研究报告 华为算力框架报告 ——昇腾鲲鹏构筑国内算力第二极 行业评级:看好 2023年12月 分析师邮箱 刘雯蜀liuwenshu03@stocke.com.cn 分析师邮箱 李佩京lipeijing@stocke.com.cn 证书编号 S1230523020002 证书编号 S1230522060001 1 投资要点 AI算力有望在未来三年实现加速国产化,2024年国产AI服务器总规模有望达到400亿 复盘我国超算、普通云计算算力发展史可以发现,从8年前开始,我国的关键芯片行业已从幕后到台前;我们认为整体发展规律上,国产AI算力有望在未来三年实现从“可用”到“好用”再到“主动用”的发展阶段,我们预计2024年国内AI算力总需求有望达到211.50EFlops,其中国产算力需求为98.24EFlops,国产化比例为46.45%,对应国产AI芯片出货量为30.7万张,潜在市场规模约为307亿,折合8卡AI服务器3.84万台,潜在市场规模为409.33亿。 华为昇腾对标英伟达,有望成为国内第二AI算力生态 自2006年推出至今,CUDA已拥有超400万开发人员,下载量累计4000万,在超过3000个应用程序中被广泛部署;华为对标CUDA打造了自己的昇腾生态,凭借完善的生态体系和全场景互联兼容能力,华为昇腾在国产AI芯片中的市占率遥遥领先,IDC数据显示,2022年中国AI加速卡(公开市场)出货量约为109万张,其中英伟达在中国AI加速卡市场份额为85%,华为市占率为10%,百度市占率为2%、寒武纪和燧原科技均为1%,我们预计未来华为昇腾有望成为国内第二AI算力生态。 昇腾生态合作伙伴主要基于华为主板进行迭代,关注现金流更充足、具备多G端场景的标的 基于Atlas系列模组板卡,华为整机伙伴推出了自有品牌服务器,我们认为整机伙伴已经从从“春秋”进入到“战国”阶段,现金流、股东背景、客户资源是关键,具备持续且充足的现金流的公司有望在长期占据第一梯队,可以拿到更多大额订单和头部优质客户的份额,集中度有望上升;一体机可以很大程度上降低软硬件投资成本以及安装维护技术门槛,并且从物理层面上解决了数据安全问题,未来政府端的私有化部署将成为首先放量的需求,具备G端真实场景积累的标的有望获益。 相关标的 (1)关键零部件:华丰科技、卓易信息等; (2)服务器:四川长虹、高新发展、神州数码、中国长城、烽火通信、拓维信息、广电运通、特发信息、同方股份、软通动力等; (3)一体机:云从科技、科大讯飞、医渡科技、安恒信息、中软国际、恒为科技、中软国际、开普云等; (4)软件生态及盘古大模型应用:云天励飞、格灵深瞳、软通动力、北路智控、能科科技、航天宏图、中科星图、超图软件等; 风险提示 国际形势变化风险、芯片等关键部件供应风险、下游客户需求总额或释放节奏不及预期、国产替代进程不及预期、技术风险、竞争加剧风险等2 2024年国产AI服务器总规模有望达到400亿 01 3 我国关键芯片行业已从幕后逐步走向台前 复盘我国超算、普通云计算算力发展史可以发现,从8年前开始,我国的关键芯片行业已从幕后到台前: 1)超算领域,2015年4月美国商务部就开始拒绝Intel、AMD等主要厂商向中国出口CPU芯片,此后我国的《“十三五”国家科技创新规划》明确提出要突破超级计算机中央处理器(CPU)架构设计技术,根据前瞻经济学人,2022年中国TOP100高性能计算机中自主研发的集群占95% ,至今我国超算行业已进入互联互通及使用率提升阶段; 2)云计算领域,2019年开始,我国党政信创大规模启动,以PC为载体的国产算力经历了“可用”到“好用”的政策驱动+产品磨合迭代期,目前已进入八大行业信创客户“主动用”的半政策半市场驱动+性价比提升期。 我国信创产业发展进程:“2+8+N”逐步渗透 资料来源:前瞻经济学人、亿欧智库、浙商证券研究所 4 AI算力有望在未来三年实现加速国产化 我们认为,我国AI算力有望在未来三年实现加速国产化: 1)整体发展规律上,国产AI算力有望类似超算、云计算,在未来经历从产品打磨到性价比提升的步骤,以及从“可用”到“好用”再到“主动 用”的发展阶段; 2)驱动因素上,由于AI的巨大商业化潜力,在美国不断加紧制裁的背景下,市场化驱动力更强; 3)产品迭代周期上,以华为海思、海光、寒武纪为代表的国产算力厂商基于云计算信创积累的经验,有望实现产品的加速迭代; 超算 云计算 AI计算 当前发展阶段 基本国产化 部分国产化 开始国产化 技术积累 较难 相对难 有一定积累 国产化驱动因素 纯政策 政策+市场化 市场化为主 从受限到规模化突破的周期 10年左右 5年左右 3年(预期) 5 资料来源:浙商证券研究所整理 2024年国产AI服务器市场规模有望达到400亿 根据我们的《算力框架报告》测算,考虑到我国国产AI芯片供应商的产能供应、生态适配、综合性价比等情况,国内AI芯片与英伟达H100芯片相比仍有一定差距,因此我们认为政策性客户有望逐步全面转向国产AI芯片,商用客户如互联网有望将百亿参数模型的部分训练和推理需求转向国产AI芯片,2024年我国国产芯片主要需求将包括:政府智算中心、运营商、金融、第三方大模型厂商、互联网厂商,我们预计2024年国产AI芯片出货量为30.7万张,潜在市场规模约为307亿,折合AI服务器3.84万台,潜在市场规模为409.33亿。 资料来源:根据公开资料整理测算,存在四舍五入情况,计算过程请见后几页,浙商证券研究所;注:根据《华为认证》公众号,昇腾910在FP16下算力为320T、INT8下算力为640T 2024年新增总算力需求(EFlops) 国产化比例(%) 国产算力需求 (EFlops) 单卡算力 (Tflops) 卡数 (万) 假设单台AI服务器卡数(张) AI服务器台数(万) 政府智算中心(FP16) 23.00 100% 23.00 320 7.19 8 0.90 运营商(FP16) 43.63 80% 34.90 320 10.91 8 1.36 金融(FP16) 10.69 60% 6.41 320 2.00 8 0.25 第三方大模型厂商-训练(FP16) 79.37 25% 19.84 320 6.20 8 0.78 互联网厂商-百亿训练(FP16) 49.60 20% 9.92 320 3.10 8 0.39 互联网厂商-百亿推理(INT8) 10.42 80% 8.33 640 1.30 8 0.16 合计 211.50 98.24 30.70 3.84 6 华为昇腾——世界AI算力新星 02 7 8 资料来源:CSDN、汽车人参考、英伟达、芯语、COMPUTEX2023、21Tech、快科技、Wikipedia、khronos、run.ai、AMD、浙商证券研究所 CUDA(ComputeUnifiedDeviceArchitecture)生态为从CUDA编程框架发展出的一系列软硬件及扩展体系。底层硬件包括主要负责向量运算的CUDACore(FP32/FP64)以及主要负责低精度浮点运算的TensorCore(FP16、INT8),软件则包括中层API接口、驱动、编译器以及上层CUDA-X系列算法库(包括cuDNN、cuML、TensorRT、cuDF、cuGraph及其他13个以及超过13个的其他库),基于CUDA软件栈进行第三方应用及工具扩展就形成了广义的CUDA生态体系; 生态优势凸显。自2006年推出至今,CUDA已拥有超400万开发人员,下载量累计4000万,在超过3000个应用程序中被广泛部署,目前已经成为全球领先的AI加速计算生态。 CUDA生态架构及迭代飞轮 CUDA、OpenCl、ROCm比较 特性 CUDA OpenCL ROCm 发起者 NVIDIA Apple等多家公司 AMD 生态特点 封闭,配备完整工具包、针对单一供应商(NVIDIA)的成 熟的开发平台 面向异构系统,支持NVIDIA、AMD和Intel的GPU,以及CPU、 FPGA等,是一个开放的行业标准 封闭,用于AMD的GPU 编程语言 C,C++,Fortran,Python, MATLAB等 类似C的编程语言 HIP(类CUDA)和OpenCL 运行性能 在NVIDIAGPU上,CUDA比 OpenCL快30% 通常比CUDA慢 - 社区成员数量 超过400万开发人员,超过 3,000个应用程序 - - 其他 专为并行计算设计,可以在GPU上并行化计算,加速处理密集型应用 可以在运行时编译,使得OpenCL程序可以在不同的主机设备之间移植 专为高性能计算(HPC)和人工智能(AI)工作负载优化,支持AMDInfinityHub上的人工智能框架容器,包括TensorFlow1.x、PyTorch1.8 、MXNet等 昇腾计算产业:基于昇腾系列(HUAWEIAscend)处理器和基础软件构建的全栈AI计算基础设施、行业应用及服务,包括昇腾系列处理器、系列硬件、CANN( ComputeArchitectureforNeuralNetworks,异构计算架构)、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链。 华为昇腾AI产业生态包括昇腾AI基础软硬件平台,即Atlas系列硬件、异构计算架构CANN、全场景AI框架昇思MindSpore、昇腾应用使能MindX以及一站式开发平台ModelArts等。基于昇腾910系列板卡,华为推出了AI训练集群Atlas900、AI训练服务器Atlas800、智能小站Atlas500、AI推理与训练卡Atlas300和AI加速模块Atlas200,完成了Atlas全系列产品布局,支持万亿参数大模型训练,同时覆盖云、边、端全场景。 华为提出了具备分层开放、体系协同、敏捷高效、安全可信等特征的,全行业通用的行业智能化参考架构。其中智能底座提供大规模AI算力、海量存储及并行计算框架 ,支撑大模型训练,提升训练效率,提供高性能的存算网协同。根据场景需求不同,提供系列化的算力能力。适应不同场景,提供系列化、分层、友好的开放能力。另外 华为昇腾AI产业生态 华为行业智能化参考架构 ,智能底座层还包含品类多样的边缘计算设备,支撑边缘推理和数据分析等业务场景。 资料来源:鲲鹏社区、昇腾社区、浙商证券研究所 9 类GPU芯片更强调并行计算能力,适用于大规模简单计算场景。CPU为顺序执行指令,重点是减少指令执行延迟,将大量芯片面积专门用于可减少指令延迟的功能,例如大缓存、更少的ALU和更多的控制单元;GPU专为大规模并行性和高吞吐量而设计,使用大量SM(流式多处理器)来最大化其计算能力和吞吐量,它们使用非常少量的芯片区域作为缓存和控制单元,使得其具有很高的延迟; 神经网络的拟合过程涉及海量的函数运算、对计算资源的要求非常高,类GPU芯片为目前性价比首选。在AI运算中,像素、字符等经常会被转化成为矢量数据进行处理,处理方式主要是MAC(乘积累加)运算,即先做乘法然后再把结果相加循环往复,如在图像识别中每个像素都有一个向量值,这个值要跟权重信息不断相乘相加最终提取出图像特征;GPU由于运算核心为CPU的上百倍,因而更适用于AI运算,如Intel2023年初推出的最新的数据中心处理器第四代至强可扩展处理器(代号SapphireRapids)最多支持60核,而NvidiaH100GPU则有132个SM,每个SM有64个Core,总共有8448个Core; CPU和GPU架构区别 GPU的计算架构(左图绿色部分) 资料来源:英伟达、芯师爷、IT之家、浙商证券研究所 10 微架构(microarchitecture),是指一种计算机硬件的设计和实现方法,它描述了处理器是如何执行指令集(指令集,即芯片中用来计算和控制计算机系统的一套指令的集合)的,因为同