您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:DPU行业资深专家交流纪要–20230413 - 发现报告
当前位置:首页/会议纪要/报告详情/

DPU行业资深专家交流纪要–20230413

2023-04-16未知机构喵***
DPU行业资深专家交流纪要–20230413

【核心要点】lSmartNIC是在普通网卡上增加了网络、存储、安全等硬件卸载功能,降低CPU的工作负载,提升数据中心东西向流量。而DPU是SmartNIC技术路线上的进一步演进,能够实现(1)用户租赁云服务的资源所见即所得,租赁的CPU资源用于计算处理;(2)CPU、DPU硬件的相互隔离,故障得到有效控制。l国内主要玩家有中科驭数、云豹智能、左江科技、芯起源等,依赖于细分市场资源,国内DPU厂商对垂直市场有相应的产品开发和运作。 DPU主要的技术壁垒在IP授权上,比如SerDes、PCI-E的IP授权。目前国内产品的最大带宽主要在25G,个别厂商有带宽100G及以上的产品。国外大厂如英伟达的产品带宽已经到400G,AMD和英特尔的产品主要在200G,博通网卡主要在100G。l随着服务器算力增长以及大语言模型等人工智能技术推动的AI集群在各大领域的部署,推动了数据中心网络向高速网络迭代的节奏。部署在数据中心的服务器要实现网络互连,一台服务器至少一张网卡,比如AI的GPU服务器,网卡数量会达到8-10张;CPU服务器是1-2张,其他场景介于两者之间,根据业务和带宽需求,部署不同数量的网卡。【主持人问答】1、DPU发展历程l狭义角度,在英伟达、英特尔等大厂引导下,DPU指的是本身带有CPU、操作系统,并且具备网络流量处理等功能的网卡。ü亚马逊:云上业务部署规模最大的公司之一,很早意识到在大规模数据中心建设下,传统网络相对于数据中心的高速网络需求是滞后的,需要对数据中心网络做改造,所以亚马逊很早就开始布局类似DPU的芯片——Nitro。ü阿里云:国内云业务领先的云厂商,针对云上用户的CPU负载和需求,在传统网卡上增加部分功能,满足云上业务灵活快速部署,提升数据中心网络体验。2017年发布了神龙MOC卡。以上两者是带有DPU概念的智能网卡的最早形态。ü2020年英伟达收购Mellanox,2020年GTC战略发布中将DPU定义为第三颗主力芯片,并推出BlueField-2DPU,相比SmartNIC,BlueFieldDPU能够在一定程度上实现增强功能,比如管理面、流量虚拟化上的新增功能等。2023年GTC发布了BlueField-3DPU,用于数据中心网络、存储和安全的400Gb/s处理器。l广义角度,DPU会延伸到更大范畴,部分初创厂商会把SmartNIC智能网卡冠以DPU名称。2、普通网卡——SmartNIC——DPU的技术演进l数字化、Al和元宇宙等新技术带来对大型数据中心强劲的需求,推动数据中心内部网络升级改造。原来数据中心更关注的是单台服务器的算力,比如CPU和GPU的性能,但是越来越多复杂业务以云化方式呈现,需要数据中心内部的不同计算器件的并行协作能力,数据中心东西向流量也呈爆炸式增 长。这种情况下,对数据中心内部的网络流量的高带宽需求变得迫切,需要更多高性能网卡卸载这部分的流量。从这个角度,涉及到普通网卡和SmartNIC的区别:ü普通网卡(万兆以下):基于TCP/IP协议栈负责服务器内部的报文封装与转发,但是当流量带宽需求增大,普通网卡处理大流量业务会遇到两个瓶颈,一是基于TCP/IP协议栈,网卡带宽无法有效扩展,很难提升到万兆以上;二是CPU性能提升和网卡带宽变大后,CPU上的压力会变得非常大,部分CPU资源没有处理真正的计算,而是处理流量转发型任务。由此SmartNIC概念被提出,在普通网卡上增加硬件卸载的特性,我们现在看到的网卡(25G、100G甚至以上),都是带有多种硬件加速功能的SmartNIC,使得数据中心的东西向流量有效提升,CPU端压力负载也在下降。ü除了网络侧的升级改造,依托在网络上的存储功能,比如虚拟机上的存储盘是通过网络存储协议连接到远端设备,存储协议和相关控制也向网卡上迁移。以及数据中心的防攻击、安全加解密迁移,这些都是比较明确的需求,增加到SmartNIC上。SmartNIC按照这个方向迭代演进。l从数据中心的角度,希望能够做到更好的数据面隔离,因为数据中心的使用场景还是基于虚拟化的业务部署,如果还是以SmartNIC的方式提供服务,用户会看到自己租赁的一部分CPU要维系网络、存储和安全相关的资源消耗,还要拿出CPU的部分资源在虚拟机各用户间构建内部的虚拟网络和转发机制等等,用户体验并不好。越来越多的客户希望租赁的资源所见即所得,存储、安全和网络等基础设施相关功能要从租赁的CPU里独立出去;从管理角度,一些基础设施运维在客户端的资源里面,导致故障不可控,比如一个用户进程的挂死会导致整个物理机内部的网络通信受到影响。lDPU可以有效解决这些问题,把整个基础设施的网络、存储、安全相关资源迁移到DPU上,用户租赁的CPU资源所见即所得,而且硬件上CPU、DPU相互隔离,故障可以得到有效控制。同时,在英伟达等大厂引导下,DPU概念兴起,更多厂商在原有的SmartNIC技术路线上往DPU方向演进。3、国内DPU市场主要玩家l中科驭数、云豹智能、左江科技、芯起源等,国内DPU厂商会依赖于市场资源,对细分市场有相应的产品开发和运作。据专家了解,目前国内产品最大带宽主要在25G,国外大厂如英伟达的产品已经到400G,AMD和英特尔的产品主要在200G,博通网卡在100G。4、国产DPU研发过程面对的主要IP授权有哪些lSerDesIP授权。高速网卡属于服务器内部的高速数据传输器件,厂商设计过程中,会有模块侧25GSerDesIP授权需求。lPCI-EIP授权。网卡接CPU端的PCI-E也是比较成熟的IP器件。据专家了解,国内还没有比较成熟的、能够独立开发设计PCI-E的厂商。lDPU相比SmartNIC,会运行自己的操作系统,其中涉及到数据报文的暂时存储,内存管理器件也会有相应IP,这也是部分真正开发DPU的厂商面临的重要IP。5、国产DPU的制程l据专家介绍,国内DPU的制程更多的集中在28nm和14nm,DPU并不像其他芯片CPU/GPU等依赖先进纳米制程工艺。英伟达的25G/100G网卡选择的是28nm的制程,已经大量出货,说明28纳米制程对25G/100G网卡是一个合适节点,这是对于有成熟经验的国外大厂。对于国内厂商,如果按照国际大厂的制程节点设计生产,因为技术上相对国外大厂有一些劣势,因此不排除国产DPU芯片会采用更先进的14纳米制程,通过更高端的工艺制程提升竞争力。6、国内云厂商的公有云服务器配置DPU的情况l阿里:阿里在DPU上布局很早,2017年阿里云推出了自研第一代神龙服务器,搭载自研MoC卡,以MoC卡为雏形,2022年发布云数据中心专用处理器CIPU。涉及到相关的虚拟化业务已经使用了MoC卡。在高端的网络应用场景,会外采国外芯片,比如英伟达的高端网卡,支撑高性能集群的应用。l腾讯:腾讯有自研DPU产品,布局相对阿里稍晚,使用规模也没有阿里大。l三大运营商:也有DPU的布局,比如中国电信推出天翼云资金DPU。运营商在DPU的部署时间慢于云厂商,目前部署的规模也不是很大。【问答环节】Q:DPU的市场规模l专家介绍,如果看更大的SmartNIC市场,每年大概三四十亿美金的规模。数据中心本身有3-5年的迭代周期,随着服务器算力增长,提供算力服务需求越大,会使得DPU或者SmartNIC的网络带宽需求持续增加。同时,大语言模型等人工智能技术推动的AI集群在各大领域的部署,会更加加速数据中心网络向高速网络迭代的节奏,数据中心在网络通信上的投资有变快的迹象。Q:国内DPU出货量l如果算上SmartNIC,国内25G以上网卡市场,大概每年有300-400万张出货量。Q:公有云单台服务器配置DPU的数量l实际上进数据中心的服务器都有网络互联的需求,所以一台服务器至少要一张网卡。具体看服务器的类型,比如说在AI应用里的GPU服务器,网卡数量会达到8-10张;CPU服务器是1-2张,其他场景介于两者之间,根据业务和带宽需求,部署不同数量的网卡。Q:25G/100G/200G/400G的DPU的价格l目前DPU价格较贵,DPU比普通网卡价格高2-3倍,比如25GDPU大概7000-8000元,100GDPU在15000元以上,200G和400G的DPU的价格超过20000元。Q:SmartNIC到DPU的难点l从SmartNIC到DPU的难度并不会太多体现在技术上,DPU是SOC芯片,类比手机芯片,手机芯片没有高速网络功能,但其他的内存访问、CPU计算处理等功能都和DPU相似,DPU还做了一些安全、存储相关的加速功能的IP设计,这些功能在SmartNIC网卡上也有,也就是说,如果想做好DPU,可以先把SmartNIC做好。l从SmartNIC到DPU的难度,专家认为更多体现在如何让客户对DPU产品买单,DPU深度依赖于客户需求和场景,要有更灵活的设计才能满足云厂商的需求。l如果只是做SmartNIC,解决大带宽传输、CPU资源卸载等需求,各家客户没有太大差别。Q:网卡或者DPU的国产化率?l25G/100G网卡上的器件、PCB板等,大部分已经实现国产;但是芯片内部的IP,比如SerDes和PCI-E的IP授权还是有向国外购买的需求。