中国联通DPU网络域场景应用白皮书 中国联通 DPU网络域场景应用白皮书 中国联合网络通信有限公司研究院 下一代互联网宽带业务应用国家工程研究中心 2023年08月 前言 NFV技术在5G网络建设中已普及应用,NFV云资源池是运营商云基础设施整体规划和建设中的网络域部分。随着5G的规模商用和6G的提出,网络业务对网络域云基础设施提出了新的需求和挑战。DPU作为一种新型计算技术,具备灵活可编程、算力卸载、安全可信和统一资源管控等特性,为NFV技术的演进提供了新思路。 本白皮书阐述了DPU技术优势和当前网络域云基础设施面临的几点问题,给出了DPU在几种典型网络域业务场景中的应用方案,分析了引入DPU面临的挑战和建议。 希望通过本白皮书的发布能引起行业的共同深入思考,为业界开展DPU和NFV演进研究提供参考,加速推进DPU和通信产业发展,助力灵活安全绿色高效的5G网络建设和万物智联的6G愿景实现。 本白皮书的版权归中国联通解释,未经授权,任何单位或个人不得复制或拷贝本建议之部分或全部内容。 联合编写单位:(排序不分先后) 中国联通集团网络部,中国联通研究院,下一代互联网宽带业务应用国家工程研究中心,联通数字科技有限公司,中兴通讯股份有限公司,深圳云豹智能有限公司 指导专家:唐雄燕,丁鼎,曹畅,王友祥,童俊杰,高功应 编写组成员:(排序不分先后) 杨文聪,王立文,杨文强,张雪贝,朱威,岳毅,隋腾飞,过晓春,刘宇龙,朱堃,郑怀林,阎松明,岳文卿,陈文斌,王雪强,孙传明,吴杨,王紫程 目录 1.背景1 2.DPU技术分析3 2.1.DPU发展历程3 2.2.DPU技术特性6 2.2.1.灵活可编程6 2.2.2.统一资源管控7 2.2.3.算力卸载12 2.2.4.低时延网络12 2.2.5.安全可信13 2.3.DPU产业生态17 3.网络域云基础设施面临的问题19 3.1.资源统一管控需求19 3.2.通用算力损耗问题20 3.3.转发性能问题20 3.3.1.低时延网络传输问题20 3.3.2.云资源池网络域的大流表需求22 3.4.潜在安全风险23 3.5.绿色节能要求24 4.DPU在网络域中的应用方案25 4.1.虚层卸载的虚机方案25 4.2.云化裸金属方案29 4.3.DPU的扩展应用方案33 4.3.1.控制节点下沉33 4.3.2.边缘盒式一体机34 4.3.3.网内计算35 5.引入DPU的挑战与建议37 6.总结与展望41 7.缩略语列表43 1.背景 云计算通过虚拟化技术和集群管控技术实现资源共享、弹性伸缩、高可用、简化管理等特性,得到了广泛关注和应用,取得了巨大成功。通信网络也借鉴云计算技术,在5G的架构设计中引入了网络功能虚拟化(NetworkFunctionVirtualization,NFV),将传统的软硬一体的网络设备转换为软件网元形态,可以在基于通用设备的云资源池上部署运行,从而实现网络功能的快速部署、灵活调度和资源优化。这种用于网元部署的云平台是云计算在网络领域的落地应用,这些用于网元部署的云资源池是运营商云基础设施整体规划和建设中的网络域部分,用于支撑5G核心网等通信网络的部署和运行。 相对于公有云业务,网络域承载的通信网络业务可靠性要求高,需要在性能、稳定性等方面进行增强加固;业务种类繁多,如5GC、IMS、炫铃、新通话等不同的通信服务和网元实现信令处理、报文转发、媒体流量处理等不同功能,在业务特征、产业生态等方面差异跨度大,对云资源池的资源要求也差别大。 在5G建设进程的推进中,算力与网络不断融合,NFV及SDN技术在移动通信网络、家庭宽带网络的应用持续深入,云化网络技术成为这些业务网络保持弹性敏捷的基础。但是随着5G在垂直行业的应用和AI大模型、短视频类业务的发展,网络需要更大带宽更低时延,这就导致网络域云基础设施必须不断扩容和迭代。长期以来在摩尔定律和登纳德缩放定律的共同作用下,引领了芯片行业 30年的飞速发展。但随着摩尔定律放缓、登纳德缩放定律失效,后摩尔时代通用CPU的算力提升已经无法满足当前网络域NFV业务对转发性能的增长需求。同时,随着6G愿景的提出,各种新型通信服务如VR/AR、车联网、数字孪生、智能内生、安全内生等也在逐渐崛起,这些多样化个性化的应用场景对通信网络提出了更高的要求,也将对网元功能对云资源池的安全稳定、资源利用率、运维管控等各方面能力提出了挑战。 DPU(DataProcessingUnit)是源于智能网卡的新兴计算技术,也是一种IO密集型的专用处理器,采用SoC/CPU+可编程硬件方案为数据处理提供灵活高效的硬件加速服务,可支持网络、存储、安全、管理等数据中心基础设施层功能卸载(因此也被称为IPU,即InfrastructureProcessingUnit基础设施处理单元),也可支持根据应用层业务需求定制加速能力。业界已经将其定位为继数据中心CPU、 GPU之后的“第三颗主力芯片”,以应对算力规模快速增长带来的挑战。 在公有云领域,DPU被用于卸载和加速云数据中心的存储访问、数据转发、安全卸载等方面,释放更多可售卖的算力资源。在网络域,DPU由于其更高的转发效率,可以进行网络报文处理降低对CPU计算资源的依赖,以更少的CPU核和服务器节点提供更高的转发性能,以此降低云资源池的能耗,推动网络域NFV的绿色节能。 2.DPU技术分析 2.1.DPU发展历程 随着云计算、物联网、大数据和人工智能等产业的飞速发展,数据中心中针对计算资源、网络资源和存储资源池化和虚拟化的需求不断增强。尤其数据中心应用中的网络正在向高带宽和新型传输体系发展,网络带宽增加的速度与CPU算力增长的速度之间的差距逐渐增大,网络数据处理占用的CPU资源也不断地增加,数据中心税的问题愈发突出。在这种背景下,DPU从传统NIC网卡逐步衍生而来,基本可以分为三个发展阶段: 1.传统基础网卡NIC:负责数据报文的收发,具有较少的硬件卸载能力; 2.智能网卡SmartNIC:具备一定的数据平面硬件卸载能力; 3.DPU卡:兼具智能网卡功能的同时,可以支持数据面和控制面的卸载,以及一定的控制平面与数据平面的可编程能力。 图1.DPU演进历程 DPU经历了从NIC到DPU卡的发展历程,实现了功能定位的转变。而DPU的愿景是希望改变现有以CPU为中心的计算架构,通过其灵活可编程和高效的数据处理能力完成资源按需调度、网络与部件及部件之间的互联互通和数据处理,实现以DPU为中心的新型计算架构,以提高数据中心计算效率。 传统基础网卡NIC 传统基础网卡NIC,又称网络适配器,是构成计算机网络系统中最基本和最 重要的连接设备,它的主要工作是将用户需要传输的数据转换为网络设备能够识别的格式。 在网络技术发展的带动下,传统基础网卡的功能也更加丰富,已经初步具备了一些简单的硬件卸载能力,如CRC校验、TSO/UFO、LSO/LRO、VLAN等,支持SR-IOV和流量管理QoS,传统基础网卡的网络接口带宽也由原来的百兆、千兆发展到10G、25G乃至100G。 在云计算虚拟化网络中,传统基础网卡向虚拟机提供网络接入的方式主要分为以下三种: 1.网卡接收流量经操作系统内核协议栈转发至虚拟机; 2.由DPDK用户态驱动接管网卡,让数据包绕过操作系统内核协议栈直接拷贝到虚拟机内存; 3.使用SR-IOV技术,将物理网卡PF虚拟化成多个具有网卡功能的虚拟 VF,再将VF直通到虚拟机中。 智能网卡SmartNIC 随着VxLAN等隧道协议以及OpenFlow、OVS等虚拟交换技术的应用,网络处理的复杂度在逐渐增大,需要消耗更多的CPU资源,因此智能网卡SmartNIC诞生了。 智能网卡SmartNIC除了具备传统基础网卡的网络传输功能外,还提供丰富的硬件卸载加速能力,能够提升云计算网络的转发速率,释放主机CPU计算资源。智能网卡SmartNIC主要卸载加速对象是数据平面,如虚拟交换机OVS/vRouter等数据面FastPath卸载、RDMA网络卸载等,通常需要主机CPU进行控制面管理。 但是随着云计算应用中网络速率的不断提高,主机仍会消耗大量宝贵的CPU资源对流量进行分类、跟踪和控制。因此,如何实现主机CPU的“零消耗”成了云厂商下一步的研究方向。 DPU卡 相比智能网卡SmartNIC,DPU卡基于“软件定义、硬件加速”的理念,在硬件加速架构上增加了更加灵活可编程的通用处理单元,实现对网络、存储、安全和管控等通用基础设施的加速和卸载。 DPU通用处理单元用来处理控制平面业务,专用处理单元保证了数据平面的处理性能,从而达到了性能与通用性的平衡。DPU专用处理单元用来解决通用基础设施虚拟化的性能瓶颈,通用处理单元则保证DPU的通用性,使得DPU能够广泛适用于云基础设施的各种场景中,实现虚拟化软件框架向DPU平台的平滑迁移。 DPU的产品形态有多种。从结构上看还主要为PCIe外设卡形态,受性能规格、功耗散热等影响,有单卡、多卡等不同的产品方案;从硬件架构上看,主要有NP/MP+CPU、FPGA+CPU、ASIC+CPU以及高度集成的DPUSoC等方案,不同方案具有不同特点,如: 基于FPGA+CPU硬件架构的DPU有良好的软硬件可编程性,具有开发时间相对较短且迭代快速的优点,能够迅速完成定制化功能开发。但是也有功耗等方面限制,且FPGA芯片价格相对较高,在产品规模商用后也不利于控制成本。 集成度更高的DPUSoC在前期设计阶段对技术和资金投入要求较高、研制和迭代周期长,但是在产品定型规模商用后,单片成本相对更低,具备高性能、低功耗和低成本等优势。并且其通用可编程等特性同样能够满足更复杂、更广泛的应用需求,也是当前国内外头部DPU厂商和云服务提供商选择的主流技术路线之一。 以DPU为中心的愿景目标 在当前以CPU为中心的计算架构中,CPU负责调度管理、业务计算、虚拟化层网络及存储计算,存在资源损耗大、数据吞吐受限、管理复杂等问题。未来以DPU为中心进行计算,DPU将编排管理、虚拟化网络、虚拟化存储、安全加密等功能卸载到DPU,实现外部网络数据和服务器内部CPU、GPU等各算力芯片间的数据分转,并具有按需完成各类芯片任务调度编排的功能,发挥枢纽作用。 该阶段中DPU与服务器的集成方式也将不再局限于传统物理服务器的PCIe外设形态和集成方式,服务器的板级管理、上电时序、部件间级联总线设计等方面都可能会产生改变,以适应以DPU为中心的计算架构的需求。 2.2.DPU技术特性 DPU实现基础设施(IaaS)层的全面卸载,提供各种应用领域的硬件加速,协同实现多租户的数据和计算安全。有助于网络域NFV基础设施在资源管理、算力、转发性能、安全可信、绿色节能等方面的能力提升。 2.2.1.灵活可编程 随着网络、算力需求的持续增加,DPU不仅需要提供数据面的加速能力,还需要针对控制面的操作进行解耦和卸载。因此,DPU需要通用的多核处理器提供基础设施软件组件的卸载,以及可编程的网络处理引擎提供对网络数据处理的硬卸载能力和多种特定领域的数据面加速引擎来实现DPU的可编程特性。 依据DPU所具备的功能组件的功能不同,DPU可提供通用可编程、网络可编程和专用可编程三类计算资源实现灵活开放的可编程能力。 图2.通用可编程特性 通用可编程计算资源 DPU的多核处理器主要对用户提供完全可编程能力和向前兼容性,把主机上的基础设施服务完全从主机侧下沉到DPU,降低主机侧CPU的算力资源开销。另外,在云计算控制平面中的部分组件,例如虚拟化管理、裸金属管理、监控脚本、系统日志等,也可以无缝地移植到DPU的多核处理器中。 网络可编程计算资源 DPU作为一款软硬一体化设计的DSA硬件,也面临着如何持续跟进并满足软件侧持续迭代开发带来的新需求的挑战。传统的依赖厂商结合硬件侧能力及资源规格,通过驱动以API形式向用户开放芯片能