您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动研究院]:DPU硬件标准化的探索与实践 - 发现报告
当前位置:首页/行业研究/报告详情/

DPU硬件标准化的探索与实践

DPU硬件标准化的探索与实践

DPU硬件标准化的探索与实践 王鹏 中国移动研究院项目经理 目录 章节一:DPU技术现状及挑战 章节二:DPU硬件标准化探索 章节三:《裸金属服务器技术规范V2.0》解读章节四:中国移动DPU标准及生态建设 DPU技术现状及挑战 极低损耗 CPU“零”损耗算力资源极致利用 极强性能 线速转发、极低时延无损网络 极高灵活 裸金属弹性发放网络可编程 极致安全 防火墙等安全功能加速 虚拟化安全能力增强 DPU技术现状及挑战 •DPU是继CPU、GPU之后的数据中心第三颗大芯片,本质是围绕数据处理提供网络、存储、安全、管理等数据中心基础设施虚拟化能力的专用处理器 算力服务 算力服务形态 管理编排 虚拟机 容器 裸金属 CPU、GPU、AI芯片…… 管理运维 系统 DPU 算力节点 业务网络、存储网络 •DPU以数据为中心构建敏捷、灵活、高效的算力基础设施底座,实现极低损耗、极强性能、极高灵活、极致安全,支撑中国移动算力网络多样化业务需求 业务 场景 智能 计算 大数据 云游戏 分布式 存储 … DPU技术现状及挑战 各自为营、定向适配的商业模式限制了DPU的产业发展 亟需完善技术体系,构建统一软硬件标准,加强产业合作,推动DPU产业生态稳步健康发展 技术体系产业生态 云计算的需求决定DPU技术体系,云计算新技术、新场 景迭代频繁,使得DPU的“易用性”成为落地关键    技术架构不独立:DPU本质是云化、虚拟化技术从纯软件 实现向软硬结合发展的结果,技术架构与云计算关系密切,耦合度高 技术路线不明晰:DPU在实现某一功能时,存在多种技术路线,无法收敛 技术标准不成熟:DPU功能与接口缺乏标准,硬件及服务 器多为定制化实现,国内外相关标准组织刚刚起步 DPU与云平台、服务器三位一体共同构成端到端解决方 案,任一环节的缺失均会影响产业落地 云平台 DPU 服务器 DPU落地商用需要云平台、 DPU、服务器三方定向适配,导致适配时间长、成本高 DPU硬件标准化探索 DPU硬件标准化探索 •DPU作为典型的软硬一体解决方案,亟需优先引导整机层及部件层标准化、通用化,为芯片与软件的深度整合及生态繁荣提供底层支撑 裸金属服务器 DPU卡 服务器整机面对的问题 DPU卡部件可看作在服务器内部的另一个小型服务器。DPU卡的引入对通用服务器设备在多个方面提出了定制化要求 软件平台层 DPU卡部件面对的问题 引入DPU后,服务器内多网卡替换为一张DPU卡。终端客户的组网方案、单节点网络带宽需求、带外纳管方案均存在较大差异,导致DPU卡关键硬件规格难以统一 芯片层部件层整机层 标准化 DPU硬件标准化探索 •服务器硬件标准化建议分两个阶段进行推进。于阶段一优先解决与硬件设计强相关的结构、供电、散热等需求,于阶段二迈入服务器与DPU卡紧密耦合的“深水区”,进一步收敛两者的在带外纳管、上下电协同、底层固件的关系。通过生态标准进行前期引导,待生态成熟通过企标及采购进行落地 •DPU卡硬件标准化建议通过生态标准优先对卡硬件架构、带外纳管等达成方案级别一致,再通过企标或限定场景的行业标准进一步约束端口数量规格、功能性能等具体设计要求 服务器标准化阶段一 结构 供电 散热 辅助边带信号 服务器标准化阶段二 带外纳管 上下电及运维 BIOS、BMC 其他 DPU卡标准化 硬件架构 •形态 •端口规格 •功耗 •温度范围 •功能性能 •… 阶段一 阶段二 DPU硬件标准化探索 统一散热能力 统一服务器结构及供电最大能力 •在DPU裸金属服务器技术领域,于ODCC立项《裸金属服务器技术规范》,通过两个阶段的讨论,提出四个统一,旨在实现DPU与服务器设备之间的硬件解耦,及早引导产业进行针对性设计,突破新技术规模应用瓶颈 VenderA:DPU卡 网口 网口 硬件 加速引擎 协处理器 CPU 带外管理 供 电 1 2 3 PCIe槽位 CPU PCIe槽位 CPU 散热 模组 带外 管理 电源 时序 控制 4 VenderB:服务器 •约束服务器可支持卡的最大结构规格及最大功耗门限 •约束服务器可支持卡在服务器未开机状态启动 •约束服务器支持未开机状态对卡进行散热及调速 统一带外纳管方案 统一开关机方案 •建议卡内带外信息由DPU带外管理模块统一汇总、统一管理、统一传递 •约束带外信息传递硬件通道 •建议由硬件管理平台对接Host-BMC及DPU带外管理模块,制定相关策略并完成统一控制,实现设备的优雅上下电 《裸金属服务器技术规范V2.0》解读 《裸金属服务器技术规范V2.0》解读 •2.0规范围绕服务器与DPU卡硬件带外纳管、上下电、底层固件的关系进行了深入探讨并给出技术建议,进一步收敛并完善硬件技术细节,实现设备边界清晰 •感谢中国移动、中国电信、信通院、英特尔、中兴、华为、新华三、锐捷、NVIDIA、超聚变、烽火通信、联想、曙光、星云智联、凌华、忆联等十六家企业专家对本规范的大力支持 Host-BMC DPU卡 带外管理模块 弹性裸金属应用 •DPU卡是否必须具备带外管理模块? •DPU卡的带外管理模块与Host-BMC的顶层关系? •带外管理模块应具备哪些必须功能? •面向弹性裸金属应用,裸金属服务器的BIOS、BMC是否有特征需求可以进行归一化? Host-BMC Host-BIOS 裸金属服务器 DPU •DPU卡是在服务器内运行的“第二套小系统”,裸金属卡又作为PCIeSlave设备挂在Host-CPU下 •引入DPU卡后,卡与整机的上下电需要如何设计才可保证系统稳定运行? 《裸金属服务器技术规范V2.0》解读 •DPU卡设备身份具备二重性,需要为新设备构建纳管新方案。项目组从带外管理需求、硬件方案、软件协议逐步达成技术共识 管理需求一致 硬件方案一致 已完成已完成待深入 软件协议一致 带外 管理网络 Host-BMC DPU处理器 PCIe PCIeor 内部总线 硬件加速引擎 DPU 带外管理模块 Host-CPU 硬件管理平台 基础设施管理 裸金属服务器节点DPU卡 •从终端客户管理运维角度,定义DPU卡带外管理模型 •模型既包含卡类信息,又包含主机类信息 •DPU卡内管理信息由带外管理模块统一汇总,避免DPU直接对主机暴露大量Sensor •DPU卡带外管理信息由Smbus或自身带外网口传递 •进一步定义双带外管理模块交互协议,实现BMC软件解耦 《裸金属服务器技术规范V2.0》解读 •弹性裸金属应用场景对于服务器的Host-BIOS和Host-BMC存在多项特征需求,需要围绕安全性及资源分配进行约束,从底层硬件保证裸金属业务持续性服务能力 •筛选能够影响到服务器安全性的Host-BMC控制命令,并对此类命令的带内操作权限进行限制 •Host-BIOS层面,建议针对Host-BIOS进行特殊限制,例如不能通过Hotkey进入BIOSSetup界面,以防止客户随意修改Host-BIOS设置 •Virtio设备热插拔要求:DPU卡对应的PCIeRootPort需要为后端switch与virtio设备分配足够的资源,并为每个downstreamswitch的p-memory&np-memory分配足够空间,例如2M •设备数量要求:支持裸金属卡对应的PCIeRootPort至少支持不小于32个后端Bus的 扩展,以满足裸金属实例挂载需求,例如支 持挂载16net+16blk; BIOS、BMC安全性设计建议 虚拟接口资源设计建议 《裸金属服务器技术规范V2.0》解读 •充分利用DPU卡可独立供电特性,硬件管理平台通过带外管理网络对接Host-BMC及裸金属卡带外管理模块,实现控制逻辑和被控设备彼此独立,由第三方对卡及服务器进行统一控制,实现系统的优雅上下电 设计原则硬件方案 •需要保证裸金属卡内作为Host-CPUPCIeSlave的部分完成启动后,主板CPU才进行上电及PCIe初始化工作,以避免设备错过PCIe初始化时间点导致设备丢失; •当主板进入S0后,需要避免DPU卡下电导致Host端出现PCIe设备丢失; •建议管理平台作为第三方,对DPU卡与裸金属服务器上下电进行统一管理; 控制逻辑被控设备 DPU卡 带外管理模块 硬件 管理平台 DPU卡 Host-BMC 裸金属服务器 中国移动DPU标准及生态建设 中国移动DPU标准及生态建设 中国移动从标准体系构建、产业生态催化两方面进行攻关,推动DPU产业稳步发展打造解耦开放型DPU标准和新生态 发布《DPU技术白皮书》阐明三大标准化方向 构建标准体系繁荣开源生态 凝聚产业合力 推进产业稳步健康发展 •1套DPU技术架构 •5大软件功能接口定义 •硬件4个维度统一 •CCSATC1牵头DPU总体技术要求等行标立项 •CCSATC606(ODCC)牵头裸金属服务器技术规范立项 •三大定位:产业聚合平台、技术方案实验床、业务场景孵化器 •生态聚合:已汇聚28家云平台、服务器、DPU厂商 中国移动DPU标准及生态建设 中国移动发布《NICC新型智算中心技术体系白皮书》,指出DPU可在智算领域三大应用场景,与计算、网络、存储深度协同,助力算效提升 面向不断涌现的新兴场景,希望产业共同探讨前沿技术方案,深化标准体系,普惠DPU能力 统一云化管理高性能存储加速RDMA网络协同优化 VMM K8S OS OS OS 裸金属 虚拟机 容器 DPU AIServer GuestOS virtio-fs virtio-fs backend DPU RDMA 硬件加速 FSclient 新设备 新拓扑 新协议 AI应用 AI应用 端 新流控 端 网 络协议 拥 塞算法 动 网 态RNICorDPU络 选 路 协 议 拥动 塞态 算选 法路 网 •裸金属、容器、虚机统一管理 •多租户存储隔离,存储灵活分配 •文件系统卸载,训练数据格式统一化 提供高性能云盘 •块存储协议栈硬件加速, •端网协同,满足可编程拥塞控制、超大QP数量等RDMA标卡无法解决的高级需求 中国移动DPU标准及生态建设 多层级探讨硬件规范,聚拢产业伙伴,达成技术共识,助推产品规模应用 芯片层级部件层级整机层级 未来,中国移动愿与开放数据中心一道持续推进新技术生态建设