您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[民生证券]:计算机行业深度:ChatGPT推高算力需求,DPU支撑算力效率提升 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机行业深度:ChatGPT推高算力需求,DPU支撑算力效率提升

信息技术2023-03-03吕伟、郭新宇民生证券天***
计算机行业深度:ChatGPT推高算力需求,DPU支撑算力效率提升

DPU发展有望进入快车道。DPU(数据处理芯片Data ProcessUnit)被认为是继CPU和GPU之后的“第三颗主力芯片”。得益于智能网卡方案的逐步成熟,叠加全球通用服务器出货量的稳定增长、L3以上级别智能驾驶汽车的技术落地、工业控制领域的需求增加等原因,全球、国内DPU产业都有望实现快速发展。 全球DPU市场高景气延续,国内DPU市场加速追赶。据赛迪顾问《中国DPU行业发展白皮书》,2020年全球DPU产业市场规模达30.5亿美元,预计到2025年全球DPU产业市场规模将超过245.3亿美元,复合增速达51.73%。 2020年中国DPU产业市场规模达3.9亿元,预计到2025年中国DPU产业市场规模将超过565.9亿元,复合增速达170.6%。 DPU产业链分析: DPU中游环节(DPU芯片厂商):海外巨头暂时领先,国产厂商蓄势待发。根据头豹研究院数据,2020年国内DPU市场中,国际三大巨头英伟达,博通,Intel份额分别达到55%、36%、9%。国内厂商中,华为,阿里,百度,腾讯也在近几年针对自身服务器进行自研与外购DPU,针对的主要功能在于数据,存储与安全方面。 DPU上游环节:EDA、IP等均为研发重要基础。国内EDA市场长期由国际三大巨头占据,未来有望迎来突破。供需合力孕育IP核产业,未来需求打开新增通道。半导体国产化持续演进,国内IP供应商将占据稀缺性价值高地,包括寒武纪、芯原股份等。 DPU下游应用:多点开花,未来前景广阔。DPU核心市场围绕数据中心展开,以服务器为硬件载体,下游场景覆盖云计算,高性能计算,网络安全,边缘计算等多个领域。从我国范围看,高新技术、数字化转型及终端消费等多样化算力需求场景不断涌现,算力赋能效应凸显。 投资建议:ChatGPT等AI技术发展大趋势下,算力需求凸显,DPU有望迎来黄金发展期,全球、国内DPU产业市场规模呈现逐年增长的趋势,核心企业有望受益于行业发展趋势。建议重点关注DPU及AI算力龙头浪潮信息、寒武纪、景嘉微、中国长城、中科曙光等。 风险提示:国产替代进度不确定风险、DPU发展路线不确定风险、行业格局变化的风险。 重点公司盈利预测、估值与评级 1DPU有望成为“第三颗主力芯片” 1.1算力提升与数据增幅呈现剪刀差,DPU需求凸显 算力提升与数据增幅呈现剪刀差,DPU可有效减少算力损耗。在当前数据增幅大幅提升的大背景下,CPU性能的增速减缓,成本大幅增加,算力供给与需求形成剪刀差,CPU性能提升的难题亟待解决,以DPU为代表的异构计算具备将部分通用功能场景化、平台化的特点,实现算法加速并减少CPU功耗,有助于运营商、云计算厂商和互联网厂商对数据中心的升级改造,减少高达30%的数据中心算力税。 图1:网络带宽增速高达CPU性能增速的30倍,形成剪刀差 DPU(数据处理芯片Data ProcessUnit)被认为是继CPU和GPU之后的“第三颗主力芯片”。DPU(Data Processing Unit)是新近发展起来的一种专用处理器。2020年NVIDIA公司发布的DPU产品战略中将其定位为数据中心继CPU和GPU之后的“第三颗主力芯片”。随着芯片业制造工艺的不断精进,以及数字化技术如AI的发展,芯片行业不断推陈出新。DPU作为新型芯片的一种,它的出现是异构计算的一个阶段性标志。 图2:数据中心将成为基本的运算单元,DPU将成为第三颗主力芯片 DPU是以数据处理为核心的专用数据处理单元,是对传统计算资源的网络、安全和存储的卸载平台。传统数据中心以CPU为主要数据处理单元,通常庞大的基础架构的运行已占据相当一部分CPU核,给数据处理任务带来非常大的挑战。 发展背景:2013年雏形已现,2020年迎来行业认可 DPU其实在行业内已经孕育已久,从早期的网络协议处理卸载,到后续的网络、存储、虚拟化卸载。 根据摩天轮数据,Amazon的AWS早在2013年研发了Nitro产品,将数据中心开销(为虚机提供远程资源、加密解密、故障跟踪、安全策略等服务程序)全部放到专用加速器上执行。Nitro架构采用轻量化Hypervisor配合定制化的硬件,将虚拟机的计算(主要是CPU和内存)和I/O(主要是网络和存储)子系统分离开来,通过PCIe总线连接,节省了30%的CPU资源。 2016-2017年,阿里云就提出X-Dragon系统架构,其核心是MOC卡,且有比较丰富的对外接口,也包括了计算资源、存储资源和网络资源。MOC卡的核心X-DragonSOC,统一支持网络,I/O、存储和外设的虚拟化,为虚拟机、裸金属、容器云提供统一的资源池。 根据网易、芯东西数据,2019年,美国一家初创公司Fungible推出产品 F1 DPU,第一次提出了DPU的概念。 2020年10月,英伟达将基于Mellanox方案的SmartNIC命名为DPU,重新定义了DPU的概念。2020年,英伟达公司发布的DPU产品战略中将其定位为继CPU和GPU之后数据中心的“第三颗主力芯片”,掀起了行业热潮。 1.2以降本增效为目标,DPU直击行业痛点 DPU要解决的核心问题是基础设施的“降本增效”,即将“CPU处理效率低下、GPU处理不了”的负载卸载到专用DPU,提升整个计算系统的效率,降低整体系统的总体拥有成本(TCO)。 CPU资源负载过大为行业痛点,智能网卡(SmartNIC)为DPU前身。在通信领域,伴随着5G、云网融合时代的到来,以及虚拟交换等技术的引入,基于服务器的网络数据平面的复杂性急剧增加。海量的数据搬运工作被CPU承担,导致网络接口带宽急剧增加,CPU资源负载过大,大大影响了CPU将计算能力释放到应用程序中,为了提高主机CPU的处理性能,SmartNIC(智能网卡)将部分CPU的网络功能(如IP分片、TCP分段等)转移到网卡硬件中,起到了加速运算的目的,其可视为DPU的前身。新一代的DPU的优势在于不仅可以作为运算的加速引擎,还具备控制平面的功能,可以更高效的完成网络虚拟化、I/O虚拟化、存储虚拟化等任务,并彻底将CPU的算力释放给应用程序。 表1:DPU优势 功能方面,DPU具备集成基础业务、网络数据加速、零信任保护、算存分离等多种功能。可有效解决当前CPU算力无法完全作用到应用程序,数据处理速度慢,授信导致的数据泄露,存储方案兼容性差等诸多问题。具体来说: 1.DPU实现了业务与基础设施的操作分离。DPU将基础设施任务从CPU转移至DPU,释放CPU的资源,使更多的服务器CPU核可用于运行应用程序,完成业务计算,从而提高服务器和数据中心的效率。 2.DPU卸载网络数据,实现性能提升。DPU针对云原生环境进行了优化,提供数据中心级的软件定义和硬件加速的网络、存储、安全和管理等服务。根据程序员客栈数据,红帽RedHat的容器化云平台即服务(PaaS)0penShift上,借助DPU优化数据中心资源利用率,将网络相关的数据处理(如VxLan和IPSec等)卸载到DPU加速执行,在25Gb/s网络条件下,OpenShift部署DPU用来加速,可以只用1/3的CPU占用率来达到25Gb/s性能,而在100Gb/s网络条件下,未部署DPU的场景将达不到100Gb/s网络线速,DPU可以带来10倍的性能优势。 3.DPU可以提供零信任安全保护,零信任(ZeroTrust)是一种以安全性为中心的模型,其基于以下思想︰企业不应对其内外的任何事物授予默认信任选项。零信任可以减少数据泄露、拒绝未授权的访问,因此在数据安全方面价值很大。 方式:DPU通过将控制平面由主机下放到了DPU,来为企业提供零信任保护,实现主机业务和控制平面的完全隔离,数据将无法进行穿透,保证安全性。 DPU的出现相当于为每个服务器配备了一台“计算机前的计算机”,以提供独立、安全的基础设施服务,并与服务器应用域安全隔离。如果主机遭受入侵,安全控制代理与被入侵主机之间的DPU隔离层可防止攻击扩散至整个数据中心。这样DPU就解决了企业不愿直接在计算平台上部署安全代理的情况。通过在完全隔离于应用程序域的DPU上部署安全代理,企业不仅能获得对应用程序工作负载的可见性,还能在其基础设施中执行一致的安全策略。 4.DPU助力实现“算存分离”,BlueFieldSNAP技术方案通过在服务器系统的数据入口处引入计算资源,在DPU上独立实现面对应用需求的存储方案,帮助存储厂商在数据中心中低成本地灵活部署、升级高级存储协议,而完全不需要对现有软件栈进行任何更改。存储厂商可以把自家团队为各行业应用开发的开放系统的直连式存储(DAS)、纵向扩展(Scale-up)、横向扩展(Scale-out)、超融合架构(Hyperconverged)等存储解决方案,零开销地推广到各个应用领域的现有业务处理平台和数据中心基础架构中,而所有的安全加密、数据压缩、负载均衡等复杂又必须的功能则完全由DPU透明地卸载。存储行业的革新算法和实现,可以在DPU架构中,独立于服务器操作系统进行部署。DPU技术帮助存储厂商实现真正的“算存分离”,完全发挥自家产品的技术优势,打通最高效服务应用需求的通路。 1.3依托智能网卡化茧成蝶,FPGA及混合架构路线为主流 Smart NIC可以被看作DPU的前身,包含基于多个CPU内核的ASIC和基于FPGA的智能网卡等类型。 随着技术的发展,FPGA、ASIC和SoC也在相互融合,它们之间的界限越来越模糊。例如,随着FPGA的发展,现在很多FPGA内部集成了硬核,这种硬核就是传统意义上的ASIC;从硬件可编程的角度来看,SoC与FPGA相反,它可以看作ASIC,这里的ASIC主要指硬件不可编程,而不是单指特定功能芯片。 NIC代表网络接口卡。实际上,NIC是一种插入服务器或存储盒以连接到以太网网络的PCIe卡。基于DPU的Smart NIC超越了简单的连接,在基础NIC的情况下,在NIC上实现了CPU必须执行的网络流量处理。 基于DPU的SmartNIC可以是基于ASIC、FPGA和SoC的。在这些不同的路线之间,在成本、编程的易用性和灵活性方面存在各种权衡。1)ASIC具有成本效益,可能提供最佳性价比,但灵活性有限。基于ASIC的NIC,如NVIDIA ConnectX-5,可以具有相对简单的可编程数据路径。最终,该功能基于ASIC中定义的功能而受到限制,这可能会阻止支持某些工作负载。2)相比之下,FPGA NIC(如NVIDIAInnova-2Flex)具有高度可编程性。只要有足够的时间和精力,就可以在可用门的约束范围内相对高效地支持几乎任何功能。然而,众所周知,FPGA编程困难且价格昂贵。3)对于更复杂的用例,SOC(如MellanoxBlue FieldDPU–可编程智能网卡)提供了似乎是最好的基于DPU的SmartNIC实现选项:良好的性价比、易于编程和高度灵活。 图3:基于不同路线的网卡的特点对比 图4:ASIC,FPGA,SoC路线DPU特点对比 1.4DPU核心价值在于算力的卸载释放与扩展,异构算力互联推动DPU多领域高速发展 DPU的核心价值在于算力的卸载、释放与扩展。 1.算力卸载:即利用DPU集成一部分数据处理的基本功能,然后将这些功能从CPU中卸载下来,以提升CPU针对部分应用的算力。DPU的部分价值体现在节省这部分算力的成本-DPU自身的成本。因此DPU节省的算力越多,或DPU的成本越低,其带来的价值越高。与此同时,由于DPU的专用化,DPU将部分涉及网络、存储、安全、管理相关的控制功能卸载之后,还将使得业务性能得以提升,因此DPU的另一部分价值在于其可为业务节省的时间与使用体验。 根据技术邻数据,在大型数据中心的场景之中,DPU的算力卸载功能可用于减少数据中心税。由于在数据中心流量处理占了计算30%的资源,AWS将这些还未运行业务程序,先接入网络数据就要占去的计算资源称为“数据中心税(DatacenterTax)”。 在数据安全场