DPU是当下算力基础设施的核心创新之一。如果把CPU比做大脑,那么GPU就好比是肌肉,而DPU就是神经中枢。CPU承载了应用生态,提供了通用型算力;GPU提供了高密度各类精度的算力,特别是在智算领域,对系统算力大小有决定性作用;DPU负责数据在各种CPU之间、CPU与GPU、以及GPU与GPU之间高效流通,很大程度上决定了系统是否能协同工作。 DPU作为数据中心的第三颗“主力芯片”,主要通过其专用处理器优化数据中心的网络、存储、安全等处理性能,助力服务器运行效率显著提升,有效降低成本。因此,在新型数据中心建设时,围绕DPU构建数据中心网络的基础设施,在其上挂载了各种计算、存储资源的节点,对于系统的资源弹性、运行效率、性能都大有益处。但是这种使用方式的变化,需要对现有云计算架构进行一定程度的变革,才能充分发挥出DPU的优势。云计算中的头部企业AWS与阿里云在DPU的应用方面也有成功案例,借助其软硬件全栈自研的优势,快速完成了云计算系统的改造工作,实现了DPU大规模落地部署,在降低自身运营成本的同时为客户提供更好的使用体验,并产生了可观的经济效益。这种正向循环促进了相关技术栈的快速迭代与成熟,也帮助他们发展成为云计算业务领域的领军企业。 随着众多芯片厂商投身到DPU技术领域后,业界对DPU的产品形态定义逐渐清晰,DPU的技术标准也在不断完善。从此DPU不再是行业巨头的“专享”技术,基础设施与云计算相关产业参与者都在寻求一种简单高效的方法,将DPU的优势运用到自身业务系统之中,例如RedHat、VMware、PaloAlto等公司纷纷推出相关解决方案。这些方案背后共同的本质思想是:将云计算的IaaS层组件从服务器侧卸载后围绕DPU构筑高性能算力底座,与AWS、阿里云的技术路线不谋而合。 我们将这种思想所代表的技术路线统一归纳命名为“IaaSonDPU(IoD)”技术路线,简称IoD。本文重点阐述了IoD技术的构成以及与当前主流云计算体系的融合方案,从计算、网络、存储、安全、管控等几个方面进行深度分析,论证了基于DPU构建云计算基础设施服务(IaaS)的性能优势与建设路径。 随着DPU技术的成熟,不论从功能完备性、系统稳定性还是性价比角度,DPU均已经具备在大规模生产环境落地应用的条件。某种程度上,IoD技术已成为下一代高性能算力底座的核心技术与最佳实践。 前言第1章 云计算发展趋势 ii 1 1.1 云计算系统已经成为数字世界的“操作系统”................ 1 1.1.1云计算的发展历程........................... 1 1.1.2云计算技术特点............................. 2 1.2 AI产业催生高性能云计算需求......................... 3 1.2.1AI技术发展概述............................ 3 1.2.2云计算性能对AI计算影响重大.................... 4 1.2.3主流AI训练的云计算支撑架构.................... 5 1.3 IaaSonDPU(IoD)算力底座技术路线..................... 6 1.3.1IoD发展历程.............................. 6 1.3.2IoD技术路线解析............................ 7 1.3.3高性能云计算的规格定义....................... 10 1.4 IoD高性能云计算应用范式........................... 13 1.4.1“兼容并包”的公有云......................... 13 1.4.2“安全强大”的私有云......................... 14 1.4.3“小巧精美”的边缘云......................... 15 1.4.4“异军突起”的智算云......................... 15 1.4.5“电光火石”的低时延云....................... 16 第2章 云计算业务模型分析 18 2.1 当前主流云计算体系结构............................ 18 2.1.1硬件部分................................. 18 2.1.2基础软件................................. 19 2.1.3云管平台................................. 19 2.1.4业务服务................................. 20 2.2 计算业务分析.................................. 20 2.2.1裸金属服务器.............................. 21 2.2.2虚拟机21 2.2.3容器22 2.2.4GPU服务器22 2.2.5应用场景与选择策略23 2.3网络业务分析24 2.4存储业务分析25 2.5安全业务分析26 2.6平台服务业务分析27 2.6.1数据库27 2.6.2中间件27 2.6.3服务治理28 第3章 高性能云计算基础设施建设路径 29 3.1 通用算力技术分析................................ 29 3.1.1CPU的计算能力发展历程....................... 29 3.1.2云计算卸载技术为CPU算力提升带来的优势............ 30 3.1.3IoD技术为Hypervisor卸载提供最佳支撑.............. 32 3.2 智算算力技术分析................................ 34 3.2.1GPU的计算能力发展历程....................... 34 3.2.2GPU算力提升带来与网络吞吐的矛盾现状.............. 35 3.2.3无损网络技术为AI训练带来的性能提升............... 36 3.3 云计算网络技术分析.............................. 38 3.3.1云计算网络是算力连通的基础..................... 38 3.3.2云计算网关是算力开放的门户..................... 39 3.3.3高性能云计算需要网络卸载进行性能提升.............. 39 3.4 云计算存储技术分析.............................. 42 3.4.1单一存储技术方案无法满足云计算要求............... 42 3.4.2云存储需要引入新技术突破性能限制................. 43 3.4.3IoD技术可以提升存算分离架构下的处理性能............ 44 3.5 云计算安全技术分析.............................. 45 3.5.1纷繁庞杂的云计算安全体系...................... 45 3.5.2安全处理性能提升需要异构算力加持................. 46 3.5.3安全卸载技术在高性能云安全中至关重要.............. 47 3.5.4DPU将成为可信计算服务中的重要组件............... 47 3.5.5IoD技术助力构建“零信任”网络.................. 48 3.6 云计算服务治理技术分析............................ 50 3.6.1服务治理技术是云原生时代的重要基础............... 50 3.6.2传统服务治理技术的局限性...................... 50 3.6.3IoD技术带来新的服务治理模式.................... 51 3.7 IaaSonDPU(IoD)高性能云计算全景..................... 51 第4章 高性能云计算系统架构持续演进 53 4.1 高性能云计算可观测性建设.......................... 53 4.1.1可观测建设是云计算运维体系的关键环节.............. 53 4.1.2当前观测方法所面临的难题...................... 54 4.1.3高性能云可观测性建设建议...................... 55 4.2 轻量级虚拟化系统演进架构革新........................ 56 4.2.1轻量级虚拟化技术演进路线...................... 56 4.2.2轻量级虚拟化技术为云计算带来新气象............... 57 4.2.3DPU+轻量级虚拟化=新一代技术革命................ 58 4.3 “一云多芯”系统融合............................. 59 4.3.1“一云多芯”的应用困境....................... 59 4.3.2IoD技术有助于完善“一云多芯”的服务评估体系......... 59 第5章 高性能云计算为PaaS服务赋能 61 5.1 高性能大数据计算服务............................. 61 5.2 高性能中间件服务................................ 62 5.3 高性能数据库服务................................ 62 第6章 未来展望 64 第1章云计算发展趋势 1.1云计算系统已经成为数字世界的“操作系统” 1.1.1云计算的发展历程 云计算技术的最初起源可以追溯到20世纪50年代ChristopherStrachey发表的 《TimeSharinginLargeFastComputer》论文,开启了对虚拟化技术探讨的大门。随后的60年代,以IBM与MIT为首的产业与学术巨头纷纷投入相关研究并在虚拟化领域取得了众多突破,最具代表性的事件是1974年,GeraldJ.Popek和RobertP.Goldberg发表论文《FormalRequirementsforVirtualizableThirdGenerationArchitectures》,提出了波佩克与戈德堡虚拟化需求(PopekandGoldbergvirtualizationrequirements)和I型与II型虚拟化类型。 随着虚拟化技术的不断成熟与基础算力设施能力的提升,使得具备“弹性、按用计量、在线、无限”这几个云计算典型特征的业务类型逐步具备了落地应用的可行性,期间虚拟化技术领域也涌现出了Qemu、Xen、KVM等众多明星项目。终于在2006年,Google时任CEOEricSchmidt在搜索引擎大会上首次提出“CloudComputing”概念,亚马逊在同年成立了亚马逊网络服务公司(AWS),云计算产业轰轰烈烈的发展起来。2010年,OpenStack项目创建,标志着云计算技术进入平民化时代,将云计算行业发展正式推向了高潮。 云计算技术的另一个分支,容器技术起源于20世纪70年代UnixV7引入的chroot工具,并在2009年以LXC形式成为Linux内核的容器管理器。容器技术凭借显著的轻量化优势取得快速发展并借助CNCF社区进行大力推广,在2018年发布的云原生技术定义中,容器被确立为云原生的代表技术之一。随着业务的多样化发展,云原生技术逐渐显现出强大的统治力,成为未来发展的主要方向。 伴随着云计算的蓬勃发展,当前世界上的主要