您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[民生证券]:计算机行业深度报告:华为昇腾,国产AI算力“扛旗者” - 发现报告
当前位置:首页/行业研究/报告详情/

计算机行业深度报告:华为昇腾,国产AI算力“扛旗者”

信息技术2023-09-04民生证券睿***
计算机行业深度报告:华为昇腾,国产AI算力“扛旗者”

AI算力需求快速增长,未来市场大有可观。根据IDC预计,国内2026年智能算力规模有望进入每秒十万亿亿次浮点计算级别,2021-2026年国内智能算力规模年复合增长率有望达52.3%。在AI芯片方面,国内芯片市场22-24年复合增速有望达到46%。在AI服务器方面,预计在2026年中国AI服务器市场规模达到123.4亿美元,市场空间广阔。 华为昇腾芯片为AI体系提供强大算力。华为昇腾芯片是华为发布的两款人工智能处理器,包含昇腾310用于推理和910用于训练业务,均采用自家的达芬奇架构。昇腾310整数精度(INT8)算力可达16TOPS,主要应用于边缘计算产品和移动端设备等低功耗的领域。昇腾910整数精度(INT8)算力可达640TOPS,在业界其算力处于领先水平,性能水平接近于英伟达A100。 软件释放硬件性能,推动AI生态繁荣。1)CANN:一种异构计算架构,位于芯片使能层,功能类似于英伟达CUDA,可实现硬件加速。通过高性能调优引擎和1400个高性能算子等,支撑开发者快速部署神经网络业务。在CANN 6.0版本下,模型迁移成功率可达90%。2)MindSpore:新一代全场景AI框架,帮助开发者孵化出各种AI创新算法和应用。具有能够实现动态图和静态图之间的切换、满足全部AI计算需求、降低用户使用模型并行时所面临的难度以及全场景快速部署等功能。根据2023年Omdia的调研数据,MindSpore以11%的市场占比排名全球第三,逆势进入了AI框架的第一梯队。3)MindStudio:是一套开发工具链平台,工具链是指一系列用于制作软件的工具。其提供了应用开发、调试、模型转换、网络移植、优化和分析功能。开发者能够高效地完成端到端开发,支持训练和推理业务,可使训练速度提升25%,推理提速47%。 五大类生态伙伴,覆盖众多优质主流合作伙伴,繁荣生态助力产业长期发展。 昇腾生态伙伴包含整机硬件伙伴、IHV硬件伙伴、应用软件伙伴、一体机解决方案伙伴以及生态运营伙伴五大类。其中,整机硬件伙伴有13家、IHV硬件伙伴有6家、软件伙伴大约1200家。 投资建议:AI发展下算力产业发展迎来重大机遇,是AI大潮下确定性最高的细分领域之一;华为昇腾打造性能领先的算力处理器,同时打造软硬产品开发和合作伙伴良好生态,未来有望成为国产AI算力的“扛旗者”。建议重点关注科大讯飞、恒为科技、拓维信息、神州数码、软通动力、润和软件、四川长虹、海量数据等。 风险提示:行业竞争加剧风险,底层算力市场格局不确定性风险,技术路线变革风险。 重点公司盈利预测、估值与评级 1AI算力需求快速提升,未来市场大有可观 1.1数据量增长带来算力需求提升,智能算力规模有望快速增长 数据海量增加,算法模型愈加复杂,应用场景的深入和发展,带来了对算力需求的快速提升。根据白皮书数据显示,从2012年开始的6年中,Al计算的需求增加了30万倍。 图1:Al计算的需求上升 1)根据IDC测算,国内智能算力规模正在高速增长,2021年中国智能算力规模达155.2每秒百亿亿次浮点运算(EFLOPS),2022年智能算力规模将达到268.0EFLOPS,预计到2026年智能算力规模将进入每秒十万亿亿次浮点计算(ZFLOPS)级别,达到1,271.4EFLOPS。2021-2026年期间,预计中国智能算力规模年复合增长率达52.3%。 图2:中国智能算力规模(EFLOPS)及预测 2)通用算力规模也正在高速增长,根据IDC测算,2021年中国通用算力规模达47.7EFLOPS,预计到2026年通用算力规模将达到111.3EFLOPS。2021-2026年期间,预计中国通用算力规模年复合增长率为18.5%。 图3:中国通用算力规模(EFLOPS)及预测 1.2AI芯片是提供算力的基础,国内市场22-24年增速有望超40% AI包括人工智能芯片、服务器、计算架构、算法及应用等方面,本文主要关注算力层面,即AI芯片和服务器。 1)全球市场:全球人工智能技术发展逐渐成熟,数字化基础设施不断建设完善,推动全球人工智能芯片市场高速增长。IDC全球范围调研显示,人工智能芯片搭载率(attach rate)将持续增高。根据Tractica、寒武纪招股书相关数据,全球人工智能芯片2022年市场规模预计约395亿美金,预计到2025年将达到726亿美金,年复合增长率达到22%。 图4:全球AI芯片市场规模(亿美元) 2)国内市场:22-24年复合增速有望达到46%。随着大数据的发展和计算能力的提升,根据寒武纪招股书,2022年中国人工智能芯片市场规模预计达368亿元,预计2024年市场规模将达到785亿元,复合增速有望达到46%。 图5:国内AI芯片市场规模(亿美元) AI服务器市场保持快速发展:国内2021年市场规模超300亿元,增速近70%。1)全球市场:根据IDC发布的《全球人工智能市场半年度追踪报告》显示,2021年全球人工智能服务器市场规模达156.3亿美元,约合人民币1045亿元,全球年度人工智能服务器市场首次突破千亿元人民币,同比2020年增速达39%。 其中,浪潮信息、戴尔、HPE分别以20.9%、13.0%、9.2%的市占率位列前三,三家厂商总市场份额占比达43.1%。人工智能服务器市场预计将继续高速增长,预计2026年全球人工智能服务器市场规模将达到347.1亿美元,五年复合增长率为17.3%。 2)国内市场:根据IDC数据,2021年中国人工智能服务器市场规模达到59.2亿美元,与2020年相比增长68.2%,其中,浪潮信息、新华三、宁畅、安擎、华为等诸多中国厂商正加速推动人工智能基础设施产品的优化更新。预计到2026年,中国人工智能服务器市场规模将达到123.4亿美元。 从工作负载角度而言:企业将把精力更多从人工智能训练转移到人工智能推理工作负载上,根据IDC数据,2021年中国数据中心用于推理的服务器的市场份额占比已经过半,达到57.6%,预计到2026年,用于推理的工作负载将达到62.2%。 2昇腾生态羽翼渐丰,芯片扛旗者初露锋芒 2.1昇腾AI软硬件平台,构建智能世界基石 全栈AI软硬产品,覆盖“端边云”。昇腾计算产业凭借着以昇腾AI处理器为核心,通过系列硬件和基础软件构建全栈AI计算基础设施,为各行各业赋能。在硬件方面,包括模块、标卡、小站、服务器、集群等产品形态;在软件层面,包括异构计算架构、AI框架、应用使能、全流程开发工具链等产品。 图6:昇腾软硬产品 2.1.1硬件是AI体系的基础,提供强大计算能力 基于达芬奇架构的两颗“芯”。2018年10月,代号为310和910的昇腾处理器系列产品推出。1)昇腾310处理器:本质上是人工智能片上系统,主要应用于边缘计算产品和移动端设备等低功耗的领域。该芯片采用 12nm 制造工艺,最大功耗仅为8W,半精度(FP16)算力可达8TFLOPS,整数精度(INT8)算力可达16TOPS,同时还集成了16通道全高清视频解码器。2)昇腾910处理器:该芯片计算密度大,领先全球,相比于同时代的英伟达TeslaV100 GPU还要高出一倍,其主要应用于云端,可以为深度学习的训练算法提供强大算力。在算力方面,昇腾910表现非常出色,半精度(FP16)算力可达320TFLOPS,整数精度(INT8)算力可达640TOPS,功耗只有310W,同时采用了 7nm 先进工艺进程,支持128通道全高清视频解码。从算力上看,昇腾910和英伟达A100性能基本上相当。 图7:昇腾310关键特性 图8:昇腾910关键特性 表1:主流芯片特性对比 行业性能领先的服务器。昇腾AI服务器具有超强算力,适用于中心侧AI推理以及深度学习模型开发和训练场景。1)Atlas800推理服务器(型号:3000):具有高算力和高能效特点。最大可支持8个Atlas 300I/V Pro,提供强大的实时推理能力,广泛应用于中心侧AI推理场景。2)Atlas800推理服务器(型号:3010):具有灵活配置,适配多项负载特点。最大可支持7个Atlas 300I/V Pro,广泛应用于中心侧AI推理场景。3)Atlas800训练服务器(型号:9000):具有高算力密度等特点。拥有4颗鲲鹏920芯片,广泛应用于深度学习模型开发和训练,适用于智慧城市、智慧医疗、天文探索、石油勘探等需要大算力的行业领域。 4)Atlas800训练服务器(型号:9010):具有高算力密度等特点。可提供2.24PFLOPS FP16算力,广泛应用于深度学习模型开发和训练。5)Atals 800T A2训练服务器:具有高速带宽等特点。双向互联带宽达392GB/s,广泛应用于深度学习模型开发和训练。6)Atlas500 Pro智能边缘服务器:具有易于部署维护和支持云边协同等特点。最大支持3张Atlas 300I/V Pro推理卡,单卡功耗仅72W,发挥鲲鹏架构多核、低功耗优势,在边缘场景中广泛部署。 表2:各类服务器特性 华为昇腾超强算力推理+训练标卡。训练及推理标卡融合“通用处理器、AI Core、编解码”于一体,需要安装到服务器上,通过服务器提供运算和模型,为数据中心提供强劲算力。1)推理卡:包括Atlas300V视频解析卡、Atlas 300V Pro视频解析卡、Atlas 300I Pro推理卡、Atlas 300I Duo推理卡。其中,Atlas 300I Duo推理卡在配置下可以输出整数精度(INT8)达到280TOPS,半精度(FP16)算力达到140TOPS。2)训练卡:主要以Atlas 300T Pro训练卡(型号:9000)、Atlas 300T A2训练卡为主,可广泛应用于智慧城市、智慧交通、智慧园区、智慧金融等诸多AI行业场景。 表3:各类标卡特性 性能领先的训练集群。华为昇腾面向人工智能计算中心等重算力场景,构筑性能领先的训练集群,目前主要包含Atlas 900 PoD(型号:9000)、Atlas900 A2 PoD、Atlas 900 AI集群三种产品,广泛应用于深度学习模型开发和训练。1)Atlas 900 PoD(型号:9000):可提供20.4PFLOPS FP16算力,能效比最高可达20.4 PFLOOPS/46 kW,搭载32颗超强算力的鲲鹏920处理器,全节点100G网络互联,可实现高效加速应用。2)Atlas900 A2 PoD:提供25.6/24PFLOPS FP16算力,最大可拓展至3.2EFLOPS,全节点200G网络互联,能效比可达25.6 PFLOPS/47.5kW,具有极致算力密度、极高A级能效、极简交付部署等特点。3)Atlas 900 AI:其总算力达到256P~1024P FLOPS FP16,相当于50万台高性能PC的计算能力,让人类更高效地探索宇宙奥秘、预测天气、勘探石油,加速自动驾驶的商用进程。 其他华为昇腾超高算力集成产品。1)开发者套件:Atlas 200I DK A2开发者套件开发板集成了昇腾310B处理器,半精度为4 TFLOPS@FP16,整数精度可达8 TOPS@INT8,功耗为24W。可以直接为开发者提供运算和模型等,能满足视频图像分析、自然语言处理、机器人等多个领域的需求。2)智能小站:Atlas 500 AI边缘推理小站算力可达10 TFLOPS@FP16或20 TOPS@INT8,在有盘配置情况下,功耗为44.5W,无盘配置时,功耗32.3W。可独立部署,易于维护和支持云边协同。3)模块:Altas 200 AI加速模块仅有半张信用卡大小,却能提供22TOPS的INT8算力。具有在边端侧实现人脸识别、图像分类等功能,因此广泛应用于智能摄像机、机器人、无人机等边端侧AI场景。 图9:Atlas 200I DK A2 2.1.2软件释放硬件性能,推动AI生态繁荣 华为针对AI场景,设计了异构计算架构CANN、AI计算框架MindSpore和第三