您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动]:云计算通用可编程DPU发展白皮书2023 - 发现报告
当前位置:首页/行业研究/报告详情/

云计算通用可编程DPU发展白皮书2023

云计算通用可编程DPU发展白皮书2023

云计算通用可编程DPU发展白皮书 (2023年) 中移(苏州)软件技术有限公司 中国信息通信研究院云计算与大数据研究所深圳云豹智能有限公司 2023年3月 编委会 编委成员 主编: 陈继磊、陈文斌 编委(排名不分先后): 栗蔚、刘军卫、张学利、黄明飞、龙翼、姚军、杨亚军、陶云祥、王立、曲悦、周昱杰、赵兴华、马飞、苏越、赵伟博、桑柳、贺健、李志超、赵真、孙传明、许斌、袁林思、王雪强、王国安、王金全、黄成云、吴杨 参编单位: 中移(苏州)软件技术有限公司 中国信息通信研究院云计算与大数据研究所深圳云豹智能有限公司 版权声明 本白皮书版权属于中移(苏州)软件技术有限公司、中国信息通信研究院、深圳云豹智能有限公司,并受法律保护。转载、摘编或利用其他方式使用本白皮书内容或观点,请注明:“来源:云计算通用可编程DPU发展白皮书(2023年)”。违反上述声明者,编者将追究其相关法律责任。 目录 1.前言1 2.DPU行业的机遇与挑战3 2.1DPU的发展历程3 2.1.1NIC的发展和应用4 2.1.2SmartNIC的发展和应用5 2.1.3DPU发展和应用6 2.2DPU的现状7 2.2.1海外DPU的现状7 2.2.2国内DPU的现状10 2.3DPU行业的挑战12 3.DPU核心特性13 3.1层级化可编程14 3.1.1层级1–通用可编程17 3.1.2层级2–嵌入引擎可编程17 3.1.3层级3–领域可编程18 3.2低时延网络19 3.3统一资源管控21 3.3.1统一的计算资源管控22 3.3.2统一的网络资源管控24 3.3.3统一的存储资源管控25 3.4持续发展的加速卸载27 4.DPU应用场景分析28 4.1云计算卸载28 4.1.1网络功能卸载28 4.1.1.1虚拟交换机功能的卸载28 4.1.1.2虚拟主机接口的硬件加速29 4.1.1.3RDMA协议的硬件卸载30 4.1.2存储功能卸载31 4.1.2.1NVMe-oF存储协议的卸载31 4.1.2.2存储接口的硬件加速32 4.1.2.3存储应用的卸载32 4.1.3ServiceMesh的卸载33 4.2统一的存储35 4.35G/UPF卸载38 4.3.1UPF简介38 4.3.2UPF卸载和加速40 4.3.3UPFDPU管控方案42 4.4零侵入管控42 4.5零信任安全44 4.5.1基于信任根的安全启动44 4.5.2分布式可编程防火墙45 4.5.3数据安全传输46 4.5.3.1虚拟机数据传输加密46 4.5.3.2RPC调用数据传输加密47 4.5.4数据安全存储48 4.6ChatGPT训练加速49 5.DPU行业发展展望52 5.1国内外DPU发展格局52 5.1.1技术路径52 5.1.2商业化布局52 5.1.3长期战略规划53 5.2DPU在算网融合发展战略中的价值54 附录56 插图目录56 术语与缩略语57 1.前言 《“十四五”数字经济发展规划》中指出数字经济是继农业经济、工业经济之后的主要经济形态,是以数据资源为关键要素,以现代信息网络为主要载体,以信息通信技术融合应用、全要素数字化转型为重要推动力,促进公平与效率更加统一的新经济形态。随着数字经济的持续发展,算力需求呈爆发性增长,算力正在逐步成为新时代的核心生产力。算力的发展同步带动了网络的变革,构建高效、灵活、敏捷的算力基础设施底座,成为数据中心网络新型基础设施基于数据算力驱动和演进的关键。 中国移动云能力中心IaaS产品部总经理刘军卫谈到:“随着人类生产力进入算力时代,传统以CPU为核心的架构正在遭受算力瓶颈考验,多样化算力需求亟需软硬件架构全面变革,算力技术发展必将遵循‘软件定义一切,硬件加速一切’的理念,重构算力基础设施,通用可编程加速单元DPU将成为新的算力核心,重新定义算力时代云计算技术新标准,构建算力时代新技术曲线。” 面向数据中心基础设施的通用数据处理芯片(DataProcessingUnit,以下简称DPU),是新近发展起来的一种通用数据处理器,是底层架构和上层服务相互作用的产物。同时,DPU也是支撑各平台间互联互通的关键节点。 DPU要解决的不仅是基础设施“降本增效”的问题,也要解决现有数据中心网络基础设施架构不能满足飞速增长的数据算力需求的问题。随着数据中心应用部署的复杂度持续增高和数据中心规模的不断扩展,不但各个数据中心之间,而且数据中心内部之间数据交换的需求也呈倍数的增长。当前在数据中心的应用中,数据交换不仅仅是简单的服务器之间的数据搬运,还需要对数据进行有效的智能化处理。传统基础网卡(NIC)以及后续的智能网卡(SmartNIC)由于本身技术结构的限制,无法在飞速发展的数据中心技术演进中承担起对数据交换和智能处理的需求,它们正在被DPU这种通用数据处理器所取代。着眼于数据中心的技术发展和演进,DPU作为通用的数据处理器,它不是对NIC/SmartNIC的简单替代, 而是对网络基础架构的本质改变。DPU本身所具有的通用层级化可编程性、低时延网络、统一管控的特性使得DPU正在促进新一代数据中心从架构上实现优化和重构。DPU作为通用数据处理的基础部件,将卸载原本运行在CPU、GPU中的通用数据处理任务,释放CPU、GPU的算力,支撑CPU、GPU发挥更大的效能。 本白皮书通过阐明和分析DPU发展的过程与现状,指出哪些DPU特性是解决上述核心问题的关键点,从而推动DPU技术的深入发展,助力实现完整的生态链建设和产业落地。 2.DPU行业的机遇与挑战 随着云计算、物联网、大数据和人工智能等产业的飞速发展,数据中心网络正在向高带宽和新型传输体系发展,网络带宽逐步从10Gbps、25Gbps向100Gbps、200Gbps、400Gbps乃至更高的带宽演进。数据中心网络带宽与CPU算力的增长速度差距逐渐增大,网络数据处理占用的CPU资源在不断地增大,迫切需要一种新型处理器来减少对CPU的消耗。 在这种背景下,DPU技术应运而生。DPU是以数据处理为中心的芯片,是继CPU、GPU之后的“第三颗主力芯片”。DPU是一种提供数据中心基础设施服务的通用处理器,可以卸载及加速网络、存储、安全和管控等基础功能,释放更多的CPU算力供客户使用。 2.1DPU的发展历程 随着云计算虚拟化技术的发展,网卡的发展基本可以分为三个阶段: 1.传统基础网卡NIC:负责用户数据交互的网络设备,具有较少的硬件卸载能力; 2.智能网卡SmartNIC:具备丰富的数据平面硬件卸载能力; 3.数据处理器DPU:兼具智能网卡功能的同时,又可以卸载控制平面业务,实现了控制平面与数据平面的通用可编程加速。 DPU作为软件定义芯片的典型代表,完美诠释了“软件定义、硬件加速”的理念,是集数据中心基础架构于芯片的通用处理器。DPU通用处理单元用来处理控制平面业务,专用处理单元保证了数据平面的处理性能,从而达到了性能与通用性的平衡。DPU专用处理单元用来解决数据中心通用基础设施虚拟化的性能瓶颈,通用处理单元则保证DPU的通用性,使得DPU能够广泛适用于各家云厂商的基础设施,实现了数据中心虚拟化软件框架向DPU的平滑迁移。 2.1.1NIC的发展和应用 传统基础网卡NIC,又称网络适配器,是构成计算机网络系统中最基本、最重要的连接设备,它的主要工作是将用户需要传输的数据转换为网络设备能够识别的格式。 HOST 虚拟机 虚拟机 管控 安全 存储 网络 虚拟机 PCIe总线 以太网口 NIC 图1NIC在虚拟化中应用 在网络技术发展的带动下,传统基础网卡的功能也更加丰富,已经初步具备了一些简单的硬件卸载能力,如CRC校验、TSO/UFO、LSO/LRO、VLAN等,支持SR-IOV和流量管理QoS,传统基础网卡的网络接口带宽也由原来的百兆、千兆发展到10G、25G乃至100G。 在云计算虚拟化网络中,传统基础网卡向虚拟机提供网络接入的方式主要分为以下三种: 网卡接收流量经操作系统内核协议栈转发至虚拟机 由DPDK用户态驱动接管网卡,让数据包绕过操作系统内核协议栈直接拷贝到虚拟机内存 使用SR-IOV技术,将物理网卡PF虚拟化成多个具有网卡功能的虚拟VF,再将VF直通到虚拟机中 随着VXLAN等隧道协议以及OpenFlow、OVS等虚拟交换技术的应用,网络处理的复杂度在逐渐增大,需要消耗更多的CPU资源,因此智能网卡SmartNIC诞生了。 2.1.2SmartNIC的发展和应用 智能网卡SmartNIC除了具备传统基础网卡的网络传输功能外,还提供丰富的硬件卸载加速能力,能够提升云计算网络的转发速率,释放主机CPU计算资源。 HOST 虚拟机 虚拟机 虚拟机 管控 安全 存储 网络控制面 PCIe总线 网络数据面 SmartNIC RDMA 加解密 高速以太网口 图2SmartNIC在虚拟化中应用 智能网卡SmartNIC上没有通用处理器CPU,需要主机CPU进行控制面管理。智能网卡SmartNIC主要卸载加速对象是数据平面,如虚拟交换机OVS/vRouter等数据面Fastpath卸载、RDMA网络卸载、NVMe-oF存储卸载以及IPsec/TLS数据面安全卸载等。但是随着数据中心网络速率的不断提高,主机仍会消耗大量宝贵的CPU资源对流量进 行分类、跟踪和控制,如何实现主机CPU的“零消耗”成了云厂商下一步的研究方向。 2.1.3DPU发展和应用 相比智能网卡SmartNIC,DPU在硬件架构上增加了通用处理单元CPU和丰富的硬件加速单元。从而便于实现对网络、存储、安全和管控等通用基础设施的加速和卸载。 HOST 虚拟机 虚拟机 虚拟机 虚拟机 虚拟机 虚拟机 PCIe总线 网络 DPU 存储安全 管控 高速以太网口 图3DPU在虚拟化中应用 DPU的产品形态主要有NP/MP+CPU,FPGA+CPU和ASIC+CPU。基于NP/MP+CPU和FPGA+CPU硬件架构的DPU具有良好的软硬件可编程性,在DPU发展初期大部分DPU厂商都选择了这个方案。该方案开发时间相对较短且迭代快速,能够迅速完成定制化功能开发,便于DPU厂商快速推出产品,抢占市场。但是随着网络带宽的快速增长,基于NP/MP+CPU和FPGA+CPU硬件架构的DPU在性能上将难以满足,功耗控制方面也会存在很大的挑战。基于ASIC+CPU的硬件架构结合了ASIC和CPU的优势,兼顾了专用加速器的优异性能和通用处理器的可编程灵活性,成了DPU产品的发展趋势。 2.2DPU的现状 早在2016年,美国Fungible就已经提出了DPU的概念,它也是第一家专注于设计DPU的创业公司。2020年,Nvidia在其GTC大会上隆重介绍了数据中心网络领域新产品BlueFieldDPU。自此,DPU的概念开始逐渐活跃起来,引起了国内外众多厂商密切关注。 目前,国内外已经有很多云厂商和芯片巨头布局DPU产业,如国外有AWS、Nvidia、Intel、AMD和Marvell等,国内有阿里、腾讯、中国移动、中国电信和云豹智能等。 2.2.1海外DPU的现状 本章主要介绍一些海外DPU厂商的发展情况和其产品。 1.AWSNitroDPU AWS是全球领先的云计算服务和解决方案提供商,AWSNitroDPU系统已经成为了AWS云服务的技术基石。AWS借助NitroDPU系统把网络、存储、安全和监控等功能分解并转移到专用的硬件和软件上,将服务器上几乎所有资源都提供给服务实例,极大地降低了成本。 图4AWSNitroDPU(来源AWS官网) NitroDPU系统主要分为以下几个部分: Nitro卡:一系列用于网络、存储和管控的专用硬件,以提高整体系统性能 Nitro安全芯片:将虚拟化和安全功能转移到专用的硬件和软件上,减少攻击面,实现安全的云平台 Nitro控制卡:一种轻量型Hypervisor管理程序,可以管理内存和CPU的分配,并提供与

你可能感兴趣

hot

2023语义增强可编程知识图谱SPG白皮书

信息技术
蚂蚁集团&OpenKG2023-09-11
hot

2021中国DPU行业发展白皮书

信息技术
赛迪智库2021-12-08
hot

DPU金融行业发展白皮书:打造绿色节能的金融云平台

金融
北京金融科技产业联盟2023-11-15
hot

算力网络可编程服务白皮书

信息技术
中国联通2022-05-19