王鹏 中国移动研究院项目经理 1.DPU技术现状及挑战 2.DPU硬件标准化思考 3.DPU硬件标准化探索 4.中国移动DPU标准及生态建设 极低损耗 CPU“零”损耗算力资源极致利用 极高灵活 裸金属弹性发放网络可编程 极强性能 线速转发、极低时延无损网络 极致安全 防火墙等安全功能加速 虚拟化安全能力增强 •DPU是继CPU、GPU之后的数据中心第三颗大芯片,本质是围绕数据处理提供网络、存储、安全、管理等数据中心基础设施虚拟化能力的专用处理器 业务 场景 智能计算 大数据 云游戏 分布式 存储 … 算力服务 管理编排 虚拟机 算力服务形态 容器 裸金属 CPU、GPU、AI芯片…… 管理运维 DPU 系统 算力节点 业务网络、存储网络 •DPU以数据为中心构建敏捷、灵活、高效的算力基础设施底座,实现极低损耗、极强性能、极高灵活、极致安全,支撑中国移动算力网络多样化业务需求 各自为营、定向适配的商业模式限制了DPU的产业发展 亟需完善技术体系,构建统一软硬件标准,加强产业合作,推动DPU产业生态稳步健康发展 技术体系 产业生态 云计算的需求决定DPU技术体系,云计算新技术、新场景迭代频繁,使得DPU的“易用性”成为落地关键 技术架构不独立:DPU本质是云化、虚拟化技术从纯软件实现向软硬结合发展的结果,技术架构与云计算关系密切,耦合度高 技术路线不明晰:DPU在实现某一功能时,存在多种技术路线,无法收敛 技术标准不成熟:DPU功能与接口缺乏标准,硬件及服务器多为定制化实现,国内外相关标准组织 刚刚起步 DPU与云平台、服务器三位一体共同构成端到端解决 方案,任一环节的缺失均会影响产业落地 云平台 DPU 服务器 DPU落地商用需要云 平台、DPU、服务器三方定向适配,导致适配时间长、成本高 DPU作为典型的软硬一体解决方案,亟需优先引导整机层及部件层标准化、通用化,为芯片与软件的深度整合及生态繁荣提供底层支撑 网 络 存 储 计 算 裸金属服务器 DPU卡 安全 管理 服务器整机面对的问题 DPU卡部件可看作在服务器内部的另一个小型服务器。DPU卡的引入对通用服务器设备在多个方面提出了定制化要求 DPU卡部件面对的问题 引入DPU后,服务器内多网卡替换为一张DPU卡。终端客户的组网方案、单节点网络带宽需求、带外纳管方案均存在较大差异,导致DPU卡关键硬件规格难以统一 软件平台层芯片层 部件层整机层 标准化 •服务器硬件标准化建议分两个阶段进行推进。于阶段一优先解决与硬件设计强相关的结构、供电、散热等需求,于阶段二迈入服务器与DPU卡紧密耦合的“深水区”,进一步收敛两者的在带外纳管、运维、底层固件的关系。通过生态标准进行前期引导,待生态成熟通过企标及采购进行落地 •DPU卡硬件标准化建议通过生态标准优先对卡硬件架构、带外纳管等达成方案级别一致,再通过企标进一步约束端口数量规格、功能性能等具体设计要求 服务器标准化 阶段一 结构 供电 散热 辅助边带信号 服务器标准化 阶段二 带外纳管 上下电及运维 BIOS、BMC 其他 DPU卡标准化 硬件架构 •形态 •端口规格 •功耗 •温度范围 •功能性能 •… 阶段一 阶段二 统一散热能力 统一服务器结构及供电最大能力 •在DPU裸金属服务器技术领域,中国移动于ODCC立项《裸金属服务器技术规范》,提出四个统一,旨在实现DPU与服务器设备之间的硬件解耦,及早引导产业进行针对性设计,突破新技术规模应用瓶颈 VenderA:DPU卡 网口 网口 硬件 加速 引擎 协处理器 CPU 带外管理 供 电 PCIe槽位 CPU PCIe槽位 带外 管理 电源 CPU 散热 模组 时序 控制 •约束服务器可支持卡的最大结构规格及最大功耗门限 •约束服务器可支持卡在服务器未开机状态启动 •约束服务器支持未开机状态对卡进行散热及调速 统一硬件辅助边带信号定义 统一带外管理功能边界 VenderB:通用服务器 •约束服务器能够提供给DPU的辅助边带信号 •逐步收敛DPU及服务器两者带外管理模块的职责及交互框架, 最终做到边界清晰 •在服务器与DPU卡紧密耦合的技术领域,DPU卡设备身份的二重性使带外纳管成为首先要解决的问题 •建议从带外管理需求、硬件方案、软件协议逐步达成技术共识,最终实现复杂设备间的解耦 管理需求一致 硬件方案一致 软件协议一致 基础设施管理裸金属服务器节点DPU卡 •从终端客户管理运维角度,定义DPU卡带外管理模型 •模型既包含卡类信息,又包含主机类信息 •DPU卡内管理信息由带外管理模块统一汇总,避免DPU直接对主机暴 露大量Sensor •DPU卡带外管理信息由Smbus或自身带外网口传递 •在Smbus总线基础上,进一步定义双 带外管理网络 Host-BMC DPU处理器 PCIe PCIeor内部总线 硬件加速引擎 DPU 带外管理模块 Host-CPU 硬件管理平台 带外管理模块交互协议,实现BMC软件解耦 •在DPU卡技术领域,以全高双宽3/4长PCIe标卡为最大结构,以三颗芯片为核心的DPU卡硬件架构已逐步成为事实标准 基础设施管理 裸金属服务器节点DPU卡 带外管理网络 Host-BMC 虚拟化层例如 NovaCinderIronic …… PCIe 带内管理网络 PCIeor内部总线 硬件加速引擎 管理控制组件 SPDK DPDK 存储 OVS- DPU处理器 网络 DPU 带外管理模块 Host-CPU GuestOS 硬件管理平台 DPU处理器 DPU 硬件架构 硬件加速引擎 DPU 带外管理模块 2 G 1 G 1 G •DPU作为软件定义硬件的产品,不同终端客户组网方案导致的DPU端口规格差异,以及不同业务场景对卸载功能性能要求差异,仍需产业共同探讨 注:此处为网络平面 逻辑图,不代表实际 网卡配置 业务面 存储面 管理面 运营商某业务组网原有方案业务、存储、管理三平面6端口 网卡3 0 网卡2 0 网卡1 5 服务器节点 管理TOR10G 存储TOR10G 业务TOR25G 业务TOR 25G、10G 网络平存面储设T计OR待讨论 10G 管理TOR 10G 引入DPU后 DPU卡 端口规格待讨论 服务器节点 中国移动从标准体系构建、产业生态催化两方面进行攻关,推动DPU产业稳步发展打造解耦开放型DPU标准和新生态 发布《DPU技术白皮书》,阐明三大标准化方向 •1套DPU技术架构 •5大软件功能接口定义 •硬件4个维度统一 构建标准体系,繁荣开源生态 •CCSATC1牵头DPU总体技术要求等行标立项 •CCSATC606(ODCC)牵头裸金属服务器技术规范立项 凝聚产业合力,推进产业稳步健康发展 •三大定位:产业聚合平台、技术方案实验床、业务场景孵化器 •生态聚合:已汇聚28家云平台、服务器、DPU厂商