您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[光大证券]:AI行业跟踪报告之二十二:昇腾万里,力算未来 - 发现报告
当前位置:首页/行业研究/报告详情/

AI行业跟踪报告之二十二:昇腾万里,力算未来

信息技术2023-09-13刘凯、吴春旸光大证券M***
AI智能总结
查看更多
AI行业跟踪报告之二十二:昇腾万里,力算未来

昇腾万里,力算未来 ——AI行业跟踪报告之二十二 刘凯 执业证书编号:S0930517100002 电话:021-52523849 邮件:kailiu@ebscn.com 作者:通信电子研究团队计算机研究团队 吴春旸 执业证书编号:S0930521080002电话:021-52523686 邮件:wuchunyang@ebscn.com 2023年9月12日 证券研究报告 1、昇腾计算体系5、应用落地 2、昇腾系列硬件6、产业生态 3、昇腾基础软件7、投资建议 4、昇腾应用使能8、风险提示 1、昇腾计算体系5、应用落地 2、昇腾系列硬件6、产业生态 3、昇腾基础软件7、投资建议 4、昇腾应用使能8、风险提示 AI技术持续快速发展,在图像识别、语音识别、语义理解等诸多特定领域已超过人类能力。随着技术的成熟,计算机视觉、智能分析、机器学习、智能语音识别等AI技术助力各产业实现智能化转型升级,在未来将进一步创造新的价值。根据IDC预测,2023年中国AI市场支出为148亿美元,2026年将达到264亿美元,CARG为21.5%。 伴随5G、智慧城市、物联网等领域多样化应用的普及,非结构化数据的生成速度不断加快,处理需求呈指数级增长。而AI算力处理这些数据的效率远远高于通用算力,从而带动AI算力需求快速增长。根据IDC数据,2019年中国智能算力规模为31.7EFLOPS,2026年将达 1271.4EFLOPS,CARG为69.45%。 图表1:2021-2026年中国人工智能市场支出(亿美元)图表2:2019-2026年中国智能算力规模(EFLOPS) 264.4 217.7 179.2 147.5 130.3 110.5 1271.4 922.8 670.4 427.0 268.0 155.2 75.0 31.7 3001400 250 1200 1000 200 150 100 50 800 600 400 200 0 202120222023E2024E2025E2026E 0 20192020202120222023E2024E2025E2026E 资料来源:IDC预测,光大证券研究所资料来源:IDC预测,光大证券研究所 要满足AI的巨大需求,让AI成功应用到千行百业,必须具有性能强大且成本合理的软硬件系统和解决方案。计算机系统要满足行业AI场景的复杂巨大且多样性的计算需求,AI模型的规模和需要学习的数据开始爆炸性增长。从2012年开始的六年中,AI计算的需求增加了30万倍,远远超过了摩尔定律的增长速度。同时,自动模型结构搜索等新方法的涌现,导致计算需求持续增加。这些都将对AI计算系统的计算性能、通信性能、可扩展性等全方位提出巨大的压力诉求。 图表3:训练AI系统计算使用的两个不同时代 资料来源:昇腾计算产业发展白皮书,光大证券研究所 华为在技术架构与工程实现上持续创新,为世界提供中国的算力解决方案。昇腾计算是基于华为昇腾系列(Ascend)AI处理器和基础软件构建Atlas的人工智能计算解决方案,包括Atlas系列模块、板卡、小站、服务器、集群等丰富的产品形态,打造面向“端、边、云”的全场景AI基础设施方案,覆盖深度学习领域推理和训练全流程。整个昇腾软硬件全栈包括五层,自底而上分为Atlas系列硬件、异构计算架构、AI框架、应用使能和行业应用。 图表4:华为昇腾AI全栈软硬件平台 请务必参阅正文之后的重要声明资料来源:昇腾计算产业发展白皮书,光大证券研究所5 目录 1、昇腾计算体系 5、应用落地 2、昇腾系列硬件6、产业生态 3、昇腾基础软件7、投资建议 4、昇腾应用使能8、风险提示 随着深度学习需求日益扩大,基于神经网络的AI处理器技术创新蓬勃发展。NPU针对矩阵运算进行专门优化设计,解决了传统芯片在神经网络运算时效率低下的问题。华为于2018年发布昇腾310,于2019年发布昇腾910,均为针对AI的专用芯片,是全球首款覆盖全场景的AI芯片。在国际上对标英伟达的GPU,国内对标的包括寒武纪、海光等厂商生产的一系列AI芯片产品。 图表5:华为昇腾310处理器 图表6:华为昇腾910处理器 资料来源:华为官网,光大证券研究所资料来源:华为官网,光大证券研究所 昇腾系列处理器是基于华为达芬奇架构的NPU。华为达芬奇架构是面向AI计算设计的架构,通过独创的16*16*16的3DCube设计,每时钟周期可以进行4096个16位半精度浮点MAC运算,为人工智能提供强大的算力支持。同时,为了提升AI计算的完备性和不同场景的计算效率,达芬奇架构还集成了向量、标量、硬件加速器等多种计算单元。同时支持多种精度计算。支撑训练和推理两种场景的数据精度要求,实现AI的全场景需求覆盖。 图表7:华为达芬奇架构 资料来源:华为官网,光大证券研究所 请务必参阅正文之后的重要声明8 昇腾310面向推理场景,主要应用在移动端,需要对性能和功耗进行一定的平衡。昇腾910面向训练场景,芯片的性能为优化重点,代表了昇腾系列AI芯片的最强算力。昇腾910半精度算力达到320TOPS,整数精度算力达到640TOPS,是英伟达V100的2倍以上,并略超英伟达A10080GBPCle版本,但相比于英伟达的最新旗舰产品H100仍有不小差距。昇腾910同样达到寒武纪第三代云端AI芯片元370的两倍以上。 图表8:华为昇腾AI处理器与英特尔AI处理器主要参数对比 昇腾310 昇腾910 英伟达V100 英伟达A100 英伟达H100 发布时间 2018Q4 2019Q3 2017Q2 2020Q2 2022Q1 制程(nm) 12 7 12 7 4 架构 DaVinci DaVinci Volta Ampere Hopper 半精度FP16算力(TFLOPS) 8 320 112/125/130 312/624 1513/1979 整数精度INT8算力(TOPs) 16 640 -- 624/1248 3026/3958 最大功耗 8 310 250/300 300/400 300-350/700 资料来源:玺阳资本,华为官网,英伟达官网,光大证券研究所 图表9:Atlas全系列产品 Atlas系列是基于昇腾910和昇腾310打造出来的、面向不同应用场景(端边、云)的系列AI硬件产品。包括AI训练集群Atlas900、AI训练服务器Atlas800、智能小站Atlas500、AI推理与训练卡Atlas300和AI加速模块Atlas200等,覆盖云、边、端全场景,向训练和推理提供强劲算力。其中Atlas900AI训练集群,算力达到了256PFLOPS。要实现这样的算力,如果采用通用CPU需要6195个机柜,GPU需要208个机柜,而NPU如昇腾只要128个机柜,这归功于昇腾架构对深度学习业务的优化。除芯片优化之外,华为还增加了系统级优化,如板级液冷、柜级密闭绝热等,功耗从4万千瓦降到736千瓦。 资料来源:华为官网,昇腾基础软硬件彩页,光大证券研究所 Atlas800推理服务器基于昇腾推理处理器和鲲鹏处理器平台,采用标准2U服务器形态,集Al推理、存储和网络于一体,可以容纳最大8张AI推理卡,提供最大704TOPSINT8推理性能,可用于视频分析、OCR、精准营销、医疗影像分析等推理服务。 Atlas800训练服务器基于昇腾训练处理器和鲲鹏处理器平台,采用标准4U服务器形态,集成8颗昇腾训练处理器,提供2.24PFLOPSFP16高算力,可广泛应用于深度学习模型开发和训练,适用于智慧城市、智慧医疗、天文探索、石油勘探等需要大算力的行业领域。 图表10:Atlas800推理服务器和Atlas800训练服务器主要参数对比 Atlas800推理服务器 Atlas800训练服务器 形态 2UAI服务器 4UAI服务器 CPU 2*鲲鹏920 4*鲲鹏920 AI处理器 8*昇腾310 8*昇腾910 内存 32个DDR4内存插槽,最高3200MT/s单根内存条容量支持16/32/64/128GB 32个DDR4内存插槽,最高3200MT/s单根内存条容量支持16/32/64GB AI算力 最大980TOPSINT8 1.76/2.24PFLOPSFP16 最大功耗 -- 5.6kW 散热方式 -- 风冷/液冷 结构尺寸 86.1mm(高)*447mm(宽)*790mm(深) 175mm(高)*447mm(宽)*790mm(深) 资料来源:华为官网,昇腾基础软硬件彩页,光大证券研究所 目录 1、昇腾计算体系 5、应用落地 2、昇腾系列硬件6、产业生态 3、昇腾基础软件7、投资建议 4、昇腾应用使能8、风险提示 异构计算架构(CANN)是对标英伟达的CUDA+CUDNN的核心软件层,对上支持多种AI框架,对下服务AI处理器,发挥承上启下的关键作用。CANN不仅仅是一个简单的软件平台,它还是一个开发体系,包含了编程语言,编译及调试工具和编程模型,创造了基于昇腾系列处理器的编程框架,是提升昇腾AI处理器计算效率的关键平台,主要包括各种引擎、编译器、执行器、算子库等。 图表11:异构计算架构CANN及其三大创新 资料来源:华为官网,光大证券研究所 MindSpore致力于实现开发态友好、运行态高效、全场景按需协同三大目标。MindSpore为华为开发的全场景Al计算框架,主要包括自研框架MindSpore(昇思)和第三方框架(PyTorch、TensorFlow等)。其中MindSpore完全由华为自主研发,华为对第三方框架做了适配和优化,让PyTorch和TensorFlow等框架编写的模型也可以高效的跑在昇腾芯片上,帮助AI开发者更简单、更高效的开发和使用AI技术,更好的发挥AI处理器性能。 图表12:MindSporeAI计算框架及其支持的深度学习框架与引擎 资料来源:华为官网,昇腾基础软硬件彩页,光大证券研究所 深度学习开源框架MindSpore,具有易用性强、性能优异等特点。并在开源计算框架、数据框架和模型格式中支撑主流开源架构,构建生态基础。在开源开放的生态环境中,开发者可与华为共同优化计算框架,从而应用于更多的场景,挖掘潜在可能性。目前为国内唯一已完成训练干亿参数大模型的技术路线,训练效率10倍领先其他国产友商。 图表13:昇腾实测性能持平业界 资料来源:专注AI应用公众号,光大证券研究所 全流程开发工具链MindStudio为昇腾计算产业提供一套完整的工具链体系。针对算子开发模型训练、模型推理、应用开发、应用部署的所有全流程的工具链进行了整合。提供全流程开发支撑全流程开发新体验。通过MindStudio能够进行工程管理、编译、调试、运行、性能分析等全流程开发,提高开发效率。 图表14:MindStudio支撑全流程开发 资料来源:CSDN,光大证券研究所 目录 1、昇腾计算体系 5、应用落地 2、昇腾系列硬件6、产业生态 3、昇腾基础软件7、投资建议 4、昇腾应用使能8、风险提示 “2+1+X”助力AI计算融入千行百业。MindX昇腾应用使能是由2个组件(深度学习组件MindXDL、智能边缘组件MindXEdge、1个模型库(优选模型库ModelZoo)以及多个行业SDK组成,致力于让行业开发者以最简单的方式开发应用。 图表15:昇腾应用使能MindX 资料来源:昇腾计算产业发展白皮书,光大证券研究所 MindXDL(昇腾深度学习组件):是支持Atlas训练卡、推理卡的深度学习组件,提供昇腾AI处理器集群调度、昇腾AI处理器性能测试、模型保护等基础功能,快速使能合作伙伴进行深度学习平台开发。 MindXEdge(昇腾智能边缘组件):提供边缘AI业务容器的全生命周期管理能力,同时提供严格的安全可信保障,为客户提供边云协同的边缘 计