昇腾万里,力算未来 AI算力 AI算力系列报告/行业深度 2023-9-8 报告日期: 行业评级:增持 行业指数与沪深300走势比较 分析师:尹沿技 执业证书号:S0010520020001邮箱:yinyj@hazq.com 分析师:王奇珏 执业证书号:S0010522060002 邮箱:wangqj@hazq.com 联系人:傅晓烺 执业证书号:S0010122070014 邮箱:fuxiaolang@hazq.com 相关报告 1.《计算机行业研究深度报告:ChatGPT引发的大模型时代变革》2023-2-25 主要观点: 昇腾910训练AI处理器,比肩英伟达先进产品 昇腾910,高性能训练AI处理器,性能接近英伟达A100(40GB),半精度(FP16)算力达到320TFLOPS,整数精度(INT8)算力达到640TOPS,功耗310W,采用7nm先进工艺。此外,昇腾910集成了HCCS、PCIe4.0和RoCEv2接口,为构建横向扩展(ScaleOut)和纵向扩展 (ScaleUp)系统提供了灵活高效的方法,互联能力突出。 昇腾310,高能效比推理型AI处理器,本质上是一块完整的SoC,集成了多个运算单元,包括CPU(8个a55)、AICore、数字视觉预处理子系统等,实现高通量、大算力和低功耗的推理能力。 芯片、板卡、服务器单元、AI集群,完整产品矩阵已经落地 基于昇腾芯片族,华为开发了一系列加速卡产品,包括单卡280TFLOPSFP16算力的Atlas300T训练卡、Atlas300IPro推理卡,以及双核心Atlas 300IDuo推理卡等一些列产品。服务器方面,华为鲲鹏和英特尔CPU均可选配,Atlas800训练服务器(型号9000)是基于华为鲲鹏920+昇腾910处理器的AI训练服务器,实现高度自主可控,广泛应用于深度学习模型开发和AI训练服务场景,并存在水冷散热机型可选。集群方面,Atlas900PoD集群基础单元搭载超32颗鲲鹏920处理器,47U高度可最 大提供20.4PFLOPSFP16AI算力,采用液冷散热,最大功耗为46kw。 CUDA生态并非唯一选择,智算中心建设正在快速推进 异构计算架构(CANN)是对标英伟达的CUDA+CuDNN的核心软件层。基于昇腾生态,目前已经收录「紫东.太初」、「武汉.Luojia」、「鹏程.盘古」、「鹏程.神农」、「空天·灵眸」等大模型,分别适用于多模态、遥 感、中文自然语言、医学、空天信息化等领域。 算力中心建设方面,算力网络初步形成。以中原人工智能计算中心为例,基于“黄河鲲鹏+昇腾技术”底座。项目总投资10亿元,于2021年10月21日正式上线。一期建设规模为100PAI算力,未来将达到300PAI算力。截止到2022年底,该中心服务中原企业客户60余家,高校学院客 户30余家,科研单位10余家,同时还有省外活跃客户百余家,平均算力使用率在90%左右。 投资建议 随着全国智算中心的投入建设和AI生态的日趋完善,大量的应用场景将持续落地,围绕华为昇腾生态的软硬件企业或将受益,建议关注: 神州数码、同方股份、科大讯飞、润和软件。 风险提示 1)技术研发不及预期; 2)政策支持不及预期; 3)下游需求不及预期。 敬请参阅末页重要声明及评级说明证券研究报告 2 正文目录 1昇腾910与310基础芯片族,自下而上搭建庞大生态体系5 1.1昇腾910AI训练处理器+昇腾310AI推理处理器5 1.2开发者套件、加速卡、加速模块,完备的硬件生态6 1.3服务器:ARM和X86兼容,风冷和液冷并用9 2AI生态并非只有CUDA,各地算力集群建设快速推进12 2.1AI算力生态并非只有CUDA12 2.2智算中心建设快速推进,全国算力网络正在形成14 3昇腾伙伴网络,五类定位构建产业矩阵16 3.1整机硬件伙伴:传统服务器大厂+新锐硬件加工厂商16 3.2IHV硬件伙伴:边缘计算赋能千行百业19 3.3应用软件伙伴:电力与智慧城市等场景国产化落地20 4昇腾产业链相关企业梳理22 4.1神州数码:华为老牌合作伙伴,AI服务器产品先行者22 4.2同方股份:自主可控守门员,昇腾产品覆盖广泛25 4.3科大讯飞:星火一体机,讯飞星火将与昇腾AI强强联合26 4.4润和软件:智能物联领域的昇腾AI落地26 风险提示28 图表目录 图表1以“鲲鹏+昇腾”为核心的基础芯片族5 图表2昇腾910处理器6 图表3昇腾310处理器6 图表4ATLAS300T训练卡6 图表5ATLAS300T训练卡拆解图6 图表6ATLAS300TA2训练卡7 图表7ATLAS300TA2训练卡接口图7 图表8ATLAS300IPRO推理卡7 图表9ATLAS300IDUO推理卡主板8 图表10ATLAS300IDUO推理卡8 图表11ATLAS200IDKA2主板8 图表12ATLAS200IA2加速模块8 图表13ATLAS500A2智能小站9 图表14ATLAS800(型号9000)训练服务器水冷拆解图9 图表15ATLAS800推理服务器(型号:3000)10 图表16ATLAS900POD示意图10 图表17ATLAS900POD拆解图10 图表18ATLAS900AI集群11 图表19ATLAS900AI集群12 图表20昇腾计算产业生态13 图表21MINDSPORE超大规模自动并行13 图表22武汉人工智能计算中心14 图表23西安人工智能计算中心14 图表24中原人工智能计算中心15 图表25南京人工智能计算中心15 图表26成都智算中心15 图表27杭州人工智能计算中心15 图表28昇腾生态伙伴——整机硬件伙伴16 图表29昇腾整机硬件伙伴认证要求17 图表30昇腾整机硬件伙伴专属权益17 图表31昇腾整机硬件伙伴通用权益18 图表32宝德自强训练服务器PR420KI18 图表33长江计算G220KV2推理服务器19 图表34IHV硬件合作伙伴19 图表35凌华科技边云协同案例20 图表36应用软件合作伙伴20 图表37以萨技术视频图像结构化解决方案21 图表38神州数码旗下昇腾产品目录22 图表39神州数码旗下昇腾产品目录23 图表40神州数码分业务营收情况24 3 图表41神州数码分业务毛利率24 4 图表42同方股份旗下昇腾产品目录25 图表43同方昇腾合作案例一25 图表44同方昇腾合作案例二25 图表45同方股份旗下昇腾产品目录26 图表46润和软件智能视觉分析引擎27 1昇腾910与310基础芯片族,自下而上搭建庞大生态体系 1.1昇腾910AI训练处理器+昇腾310AI推理处理器 华为从2004年开始投资研发第一颗嵌入式处理芯片,历经15年,投入超过2万名工程师,形成了以“鲲鹏+昇腾”为核心的基础芯片族。此外,还有较为边缘的SSD控制芯片、智能网卡芯片、智能管理芯片等产品。 为适应AI运算的高性能要求,一般认为基础硬件具备至少64核、8个内存通道、PCIe4.0、多合一SoC、xPU高速互联、100GE高速I/O等六个特征。而支持64个核心的鲲鹏920及芯片组能够满足以上要求。 图表1以“鲲鹏+昇腾”为核心的基础芯片族 资料来源:华为官网,华安证券研究所整理 5 昇腾310,高能效比推理型AI处理器,基于达芬奇架构,本质上是一块SoC,集成了多个运算单元,包括CPU(8个a55)、AICore、数字视觉预处理子系统等。除了CPU之外,该芯片真正的算力担当是采用了达芬奇架构的AICore。这些AICore通过特别设计的架构和电路实现了高通量、大算力和低功耗,特别适合处理深度学习中神经网络必须的常用计算。目前该芯片能对整型数(INT8、INT4)或对浮点数(FP16)提供强大的算力。根据海思官网披露,该芯片FP16算力为8TOPS,INT8算力16TOPS,采用12nm工艺制造。 6 昇腾910,高性能训练AI处理器,性能接近英伟达A100(40GB),半精度(FP16)算力达到320TFLOPS,整数精度(INT8)算力达到640TOPS,功耗310W,采用7nm先进工艺。此外,昇腾910集成了HCCS、PCIe4.0和RoCEv2接口,为构建横向扩展 (ScaleOut)和纵向扩展(ScaleUp)系统提供了灵活高效的方法。HCCS是华为自研的高速互联接口,片内RoCE可用于节点间直接互联。 图表2昇腾910处理器图表3昇腾310处理器 资料来源:全爱科技,华安证券研究所资料来源:全爱科技,华安证券研究所整理 1.2开发者套件、加速卡、加速模块,完备的硬件生态 基于昇腾芯片族,华为开发了一系列加速卡产品: Atlas300T训练卡,基于昇腾910AI芯片,芯片集成32个华为达芬奇AICore+16个TaiShan核,能够提供业界领先的280TFLOPSFP16算力,并集成了一枚 100GERoCEv2网卡,支持PCIe4.0和1*100GRoCE高速接口,出口总带宽56.5Gb/s,无需外置网卡,训练数据和梯度同步效率提升10%-70%。内存规格方面,包括 32GB的HBM和16GB的DDR4。 图表4Atlas300T训练卡图表5Atlas300T训练卡拆解图 资料来源:华为官网,华安证券研究所资料来源:华为官网,华安证券研究所整理 Atlas300TA2训练卡,强化了高速接口和对PCIe5.0的支持,集成20个AI核、8个CPUCore、1*200GERoCE,提供280TFLOPSFP16算力。 图表6Atlas300TA2训练卡图表7Atlas300TA2训练卡接口图 资料来源:昇腾社区官网,华安证券研究所资料来源:昇腾社区官网,华安证券研究所整理 Atlas300IPro推理卡,LPDDR4X24GB,总带宽204.8GB/s,融合“通用处理器、AICore、编解码”于一体,提供超强AI推理、目标检索等功能,具有超强算力、超高能效、高性能特征检索、安全启动等优势,可广泛应用于OCR识别、语音分析、搜索推荐、内容审核等诸多AI应用场景。单卡最大提供140TOPSINT8算力,2TOPS/W超高能效比。 图表8Atlas300IPro推理卡 资料来源:华为官网,华安证券研究所整理 7 Atlas300IDuo推理卡,LPDDR4X48GB,总带宽408GB/s,从表观上看是两枚昇腾310的组合产品,从算力来看,单卡最大提供280TOPSINT8算力,支持16core*1.9GHzCPU计算能力,也约为单芯片的两倍。在此性能基础上,该产品支持256路高清视频实时分析。 8 图表9Atlas300IDuo推理卡主板图表10Atlas300IDuo推理卡 资料来源:昇腾社区官网,华安证券研究所资料来源:昇腾社区官网,华安证券研究所整理 Atlas200IDKA2开发者套件,是一款高性能的AI开发者套件,4核CPU,可提供8TOPSINT8的计算能力,可以实现图像、视频等多种数据分析与推理计算,可广泛用于教育、机器人、无人机等场景。以智能小车为例,Atlas200IDKA2借助图像处理神经网络,实现图像识别,基于此实现自动驾驶控制。 Atlas500A2智能小站是面向边缘应用的产品,具有环境适应性强、超强计算性能、云边协同等特点,可以在边缘环境广泛部署,满足在交通、社区、园区、商场、超市等复杂环境区域的应用需求。 图表11Atlas200IDKA2主板图表12Atlas200IA2加速模块 资料来源:昇腾社区官网,华安证券研究所资料来源:昇腾社区官网,华安证券研究所整理 9 图表13Atlas500A2智能小站 资料来源:昇腾社区官网,华安证券研究所整理 1.3服务器:arm和x86兼容,风冷和液冷并用 Atlas800训练服务器(型号9000)是基于华为鲲鹏920+昇腾910处理器的AI训练服务器,实现完全自主可控,广泛应用于深度学习模