您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动研究院]:王鹏:DPU裸金属服务器技术规范和生态建设 - 发现报告
当前位置:首页/行业研究/报告详情/

王鹏:DPU裸金属服务器技术规范和生态建设

王鹏:DPU裸金属服务器技术规范和生态建设

DPU裸金属服务器技术规范和生态建设 演讲人:王鹏演讲单位:中国移动研究院 目录 01 机遇与挑战 02 03 04 《裸金属服务器技术规范》解读中国移动DPU标准和生态建设总结和展望 趋势与机遇 数据多样性 催生以数据为中心的新型计算架构 DPU是算力网络算力基础设施坚实底座 •产业数字化转型要求极致的数据处理效率 •以DPU为代表的软硬件深度融合的新型计算架构 逐渐兴起 •中国移动所提出的算力网络业务对于底层基础算力和数据中心网络的要求更加高端和多样化 •DPU可实现低损耗、高性能、高灵活、强安全, DPU CPU GPU AI芯片 CPU SDN RDMA GPU AI芯片 iSCSI、NVMe … HDD SSD DPU 算力服务形态 算力节点 管理运维系统 算力服务管理编排 业务网络、存储网络 CPU、GPU、AI芯片…… DPU 裸金属 容器 虚拟机 业务 场景 … 分布式存储 云游戏 大数据 智能计算 支撑算力网络多样化业务需求 iSCSI、NVMe … HDD SSD 技术体系不完善、产业生态不健全是DPU行业面临的核心挑战 各自为营、定向适配的商业模式限制了DPU的产业发展, 亟需完善技术体系,构建统一软硬件标准,加强产业合作,推动DPU产业生态稳步健康发展 技术体系 云计算的需求决定DPU技术体系,云计算新技术、新场 景迭代频繁,使得DPU的“易用性”成为落地关键 产业生态 DPU与云平台、服务器三位一体共同构成端到端解决方案,任一环节的缺失均会影响产业落地 技术架构不独立:DPU本质是云化、虚拟化技术从纯软件实现向软硬结合发展的结果,技术架构与云计算关系密切,耦合度高 技术路线不明晰:DPU在实现某一功能时,存在多种技术路线,无法收敛 技术标准不成熟:DPU功能与接口缺乏标准,硬件及服务器多为定制化实现,国内外相关标准组织刚刚起步 云平台 DPU 服务器 DPU落地商用需要云平台、DPU、服务器三方定向适配,导致适配时间长、成本高 目录 01 机遇与挑战 02 03 04 《裸金属服务器技术规范》解读中国移动DPU标准和生态建设总结和展望 为什么做硬件规范 •技术现状:裸金属智能网卡内除网络芯片外还会包含轻量级CPU芯片(或集成在其他芯片内的处理器内核)及带外管理模块,该部件可看作在服务器内部的另一个小型服务器。裸金属智能网卡的引入对传统服务器设备提出了定制化要求 •行业已有的解决方案:大云采用JDM模式,服务器+DPU硬件全定制实现 •做规范的驱动力:集采模式存在服务器整机与裸金属卡硬件解耦的需求,多样化的DPU卡厂商与服务器厂商也存在彼此适配的需求。新技术的规模推广需要足够聚焦足够灵活的硬件规范进行设计拉齐 定制卡 VenderA:裸金属智能网卡 DPU 服务器整机 网口 协处理器 CPU 硬件加速引擎 网口 CPU PCIeSlot CPU PCIeSlot 网口 协处理器 CPU 硬件加速引擎 网口 PCIeSlot PCIeSlot CPU CPU 主从 定制化服务器设备 VenderB:通用服务器 规范做什么 •目标:用于指导基于DPU的裸金属服务器设计,约束整机硬件所能为卡提供的最大能力,让服务器与卡具 备适配前提 •范围:适用于数据中心通用服务器产品,使用对象为服务器厂商(不涉及裸金属卡的硬件标准化) •内容:面对未来2-3年技术趋势,遵循最小影响原则做通用增强,设置Optional等级约束,聚焦“四个统一”,形成可量化的硬件规范 统一散热能力 统一服务器结构及供电最大能力 VenderA:裸金属智能网卡 网口 网口 硬件加速引擎 协处理器 CPU 带外管理 供电 PCIe槽位 CPU PCIe槽位 CPU 散热模组 带外管理 时序 控制 电源 •约束服务器可支持卡的最大结构规格及最大功耗门限 •约束服务器可支持卡在服务器未开机状态启动 •约束服务器支持未开机状态对卡进行散热及调速 统一硬件辅助边带信号定义 统一带外管理功能边界 VenderB:通用服务器 •约束服务器能够提供给DPU的辅助边带信号 •逐步收敛DPU及服务器两者带外管理模块的职责及交互框架,最终做到边界清晰 结构及槽位信号解读 •关键点1:槽位最大支持全高、双宽、3/4长规格的标准PCIe设备 •关键点2:(optional)建议裸金属卡所在槽位的100MHz时钟在主板S5状态使能 •关键点3:(optional)裸金属卡为解决卡自身散热需求会倾向采用较重材质的散热片设计,建议整机结构 预留支持卡的卡尾设计,设计兼容半长、3/4长卡 供电及散热解读 •关键点1:为满足裸金属场景云平台管理需求,整机需要支持裸金属卡在整机S5状态启动,即裸金属卡与主板内BMC、CPLD等设备同时上电,也需要具备在S5状态下对裸金属卡进行针对性散热的能力 •关键点2:满足金手指+主板辅助供电总功耗不小于225W,(optional)建议根据需求及方案综合评估是否提供总功耗不小于300W的供电能力 •关键点3:(optional)建议整机可提供在BIOS或BMC下选择PCIe槽位是否支持特殊供电方式(S5下使能)或通用供电方式(无S5下使能)的选项 网口 网口 硬件加速引擎 协处理器 CPU 供电连接器 PCIe槽位 CPU PCIe槽位 CPU 散热 模组 带外管理 时序控制 电源 带外管理 服务器未开机时裸金属 卡所在槽位的供电及散 热无法满足,是硬件生态面临的首要问题 部件功耗已突破150W且日益上涨,需要谨慎讨论功耗门限 主板供电连接器提供辅助供电能力 12V电轨,12.5A以上电流 主板PCIe槽位提供 75W供电能力 供电及散热解读 •关键点4:主板BMC需能够在整机S5和S0状态下获取裸金属卡内关键温度信息,包括但不限于进出风口、 FPGA、SOC、ASIC、光模块、内存模组等,在主板S5及S0状态提供针对性的风扇调控策略 •关键点5:(optional)建议支持S5状态下N颗风扇转速调节(N小于等于整机内总风扇数量),以降低整机能耗 协处理器 建议支持S5状态仅部分风扇使能,精细化调速 主板BMC在S5及S0均可获取 网口 网口 硬件加速引擎 CPU PCIe槽位 CPU 风扇 风扇风扇 风扇 带外管理 时序控制 电源 PCIe槽位 CPU 供电 带外管理 DPU内关键温度信息 辅助边带信号解读 •关键点1:除了标准PCIe槽位以外,辅助边带信号应包括NSCI信号,并选择性提供UART、I2C、RSVD_IO信号 •关键点2:(optional)RSVD_IO建议由辅助边带信号连接器连接至主板CPLDGPIO,利用CPLD可编程特性满足不同 场景的差异化需求。包括但不限于裸金属卡在位、裸金属卡心跳信号、裸金属卡BootComplete、线缆插稳检测等 •关键点3:规范不对辅助边带信号的连接器选型及Pin定义进行约束 信号名称 信号电平 信号描述 必要性 RBT_REF_CLK 3.3V RMII参考时钟,典型频率50MHz±50ppm 必选 RBT_CRS_DV 3.3V RMII控制信号 必选 RBT_RXD0RBT_RXD1 3.3V RMII数据接收信号 必选 RBT_TX_EN 3.3V RMII控制信号 必选 RBT_TXD0RBT_TXD1 3.3V RMII数据发送信号 必选 I2C_SCL 3.3V I2C时钟信号 optional I2C_SDA 3.3V I2C数据信号 optional UART_TX 3.3V 串口数据发送信号,多用于满足裸金属卡与主机BMCSOL需求 optional UART_RX 3.3V 串口数据接收信号,多用于满足裸金属卡与主机BMCSOL需求 optional RSVD_IO0 3.3V 预留信号 optional RSVD_IO1 3.3V 预留信号 optional RSVD_IO2 3.3V 预留信号 optional RSVD_IO3 3.3V 预留信号 optional GND 3.3V 地信号 必选 规范后续规划 项目后续将会围绕裸金属服务器双带外管理模块功能边界、BIOS及BMC特征需求、整机上下电及运维场景等方面进行探讨并给出方案建议,并逐步推动规范在通用服务器中的物理实现 Host-BMC DPU卡 带外管理模块 弹性裸金属应用 •DPU卡是否必须具备带外管理模块? •DPU卡的带外管理模块与Host-BMC的顶层关系? •带外管理模块应具备哪些必须功 能? •面向弹性裸金属应用,裸金属服务器的BIOS、BMC是否有特征需求可以进行归一化? Host-BIOS Host-BMC 裸金属服务器 DPU •裸金属卡是在服务器内运行的“第二套小系统”,裸金属卡又作为PCIeSlave设备挂在Host-CPU下 •引入裸金属卡后,卡与整机的上下电,卡的复位、固件升级、异常下电、故障处理等场景需要如何设计? 目录 01 机遇与挑战 02 03 04 《裸金属服务器技术规范》解读中国移动DPU标准和生态建设总结和展望 计算系统 HostOS CPU 网络系统 硬件加速引擎 存储系统 安全系统 DPU 虚拟机/容器 裸金属 中国移动DPU标准和生态建设 中国移动在DPU标准和生态建设方面有着系统化布局及分阶段推进策略 分阶段推进软件标准化:围绕管理、网络、存储、计算、安全五大软件系统,定义DPU软件功能要求和交互接口 建立DPU开放实验室:锚定业务场景孵化器、技术方案实验床、产业聚合平台三大定位,推进DPU产业稳步健康发展 三云实践:面向公有云业务、5G网络云业务、IT私有云业务,同步推进内部试点及企标制定,明确特征性需求,最大化使能DPU能力 管理系统 业务场景孵化器 技术方案实验床 产业聚合平台 网络云 移动云 IT云 目录 01 机遇与挑战 02 03 04 《裸金属服务器技术规范》解读中国移动DPU标准和生态建设总结和展望 总结与展望 多层级探讨硬件规范,聚拢产业伙伴,达成技术共识,助推产品规模应用 芯片层级部件层级整机层级 未来,中国移动愿与开放数据中心一道持续推进新技术生态建设