服务器插入式设备带外管理技术白皮书ODCC-2023-0100C 1 [编号ODCC-2023-0100C] 服务器插入式设备带外管理技术白皮书 开放数据中心委员会2023-09发布 服务器插入式设备带外管理技术白皮书ODCC-2023-0100C 版权声明 ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。 转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。 I 服务器插入式设备带外管理技术白皮书ODCC-2023-0100C 编写组 项目经理: 李宁三星半导体 王兴隆浪潮电子信息产业股份有限公司工作组长: 王峰中国电信股份有限公司研究院 贡献专家: 金范俊三星半导体 李炅根三星半导体 李欣予三星半导体 李玉芳三星半导体 杨柳三星半导体 路明远浪潮电子信息产业股份有限公司周春法浪潮电子信息产业股份有限公司郭平浪潮电子信息产业股份有限公司郭睿浪潮电子信息产业股份有限公司 II 服务器插入式设备带外管理技术白皮书ODCC-2023-0100C 前言 随着云计算、大数据、人工智能技术的高速发展,数据中心所管理的服务器等IT设备数量急速增加,同时IT设备内的插入式设备数量和形态也急速增加,如何高效适配、管理插入式设备是亟待解决的问题。传统的插入式设备管理技术主要依赖于带内管理,带外管理能力较弱,各种类型和厂商的插入式设备管理方案不同、通信协议多样,给服务器集成和管理带来了巨大的困难,数据中心对于开放性、标准化的插入式设备管理技术的需求越来越强烈。服务器插入式设备带外管理技术的引入,设计带外管理与主控芯片供电系统解耦,分别进行独立供电,带外管理系统将全时段、全方位监控主控芯片,并且提供了丰富而强大的带外管理功能,提升了插入式设备的可靠性、可用性、可维护性和可管理性。 本文重点围绕服务器插入式设备引入带外管理技术的总体架构以及核心技术体系,对带外管理方案具备的核心功能进行了详细介绍。为了保证服务器插入式设备引入带外管理技术的硬件兼容性,减少集成适配工作量,本文还就硬件定制点进行了说明。同时,三星与浪潮信息共同开展了服务器和固态硬盘设备带外管理的技术合作,也期待和更多的合作伙伴一起拉动服务器插入式设备的带外管理技术向标准、统一、开放的方向快速发展与成熟,完善新技术生态。 本白皮书由开放数据中心标准推进委员会发布。由于时间仓促,水平所限,错误和不足之处在所难免,欢迎各位读者批评指正。如有意见或建议请联系dceco@caict.ac.cn。 II 服务器插入式设备带外管理技术白皮书ODCC-2023-0100C 目录 版权声明I 编写组II 前言III 一、引言1 (一)目的和范围1 (二)缩写和术语1 (三)参考文献3 二、OMC技术概述7 (一)带外管理的优势7 (二)当前插入式设备管理存在的主要问题8 (三)BMC-OMC架构概述9 三、OMC技术硬件介绍10 四、OMC的核心技术体系13 (一)OMC软件协议栈介绍16 I 服务器插入式设备带外管理技术白皮书ODCC-2023-0100C (二)丰富和标准化的Redfish接口19 (三)高效全面的插入式设备健康状态和错误日志的监测技术 .......................................................................................................20 (四)应用PLDMforRDE协议实现的设备状态监测技术23 (五)OMC的带外固件更新26 (六)OMC管理控制器的安全技术28 (七)OMC应对BMC告警的预先保护措施技术32 (八)带外电源重启技术34 五、OMC带外管理案例35 (一)三星与浪潮信息的技术合作项目概述35 (二)硬件框架介绍37 (三)软件架构介绍37 (四)支持特性39 六、总结与展望50 V 服务器插入式设备带外管理技术白皮书ODCC-2023-0100C 服务器插入式设备带外管理技术白皮书 一、引言 (一)目的和范围 本白皮书适用于数据中心通用服务器插入式设备,主要使用对象为插入式设备厂商。 本白皮书对服务器及插入式设备引入带外管理需要的定制点进行技术要求,用于指导服务器插入式设备带外管理技术的软硬件设计。主要内容包括: 1)带外管理服务器和插入式设备,以及插入式设备内部带外管理控制器和主控器的硬件连接,包括但不限于引脚、电气和协议要求。 2)服务器和插入式设备的带外管理特性,包括但不限于软件协议栈、协议要求、核心功能和实现流程。 3)插入式设备带外管理的案例介绍,以及下一步发展构想。 (二)缩写和术语 表1缩写和术语 缩略语 英文全称 中文含义 OMC Out-of-bandManagementController 带外管理控制器 1 服务器插入式设备带外管理技术白皮书ODCC-2023-0100C BMC BoardManagementController 基板管理控制器 MainCtrl MainController 主控制器 NVMe NonVolatileMemoryExpress 非易失性快速存储器 PLDM PlatformLevelDataModel 平台级数据模型 SMBus SystemManagementBus 系统管理总线 MCTP ManagementComponentTransportProtocol 管理组件传输协议 PCI-e PeripheralComponentInterconnectExpress 高速串行计算机扩展总线 EEPROM ElectricallyErasableProgrammableRead-onlyMemory 带电可擦可编程只读存储器 VPD VitalProductData 重要产品数据 AUXPower AuxiliaryPower 辅助电源 JSON JavaScriptObjectNotation JavaScript对象简谱 HTTP HypertextTransferProtocol 超文本传输协议 HTTPS HypertextTransferProtocolSecure 安全超文本传输协议 BEJ Binary-encodedJavaScriptObjectNotation 二进制编码的JavaScript对象符号 RSA Rivest-Shamir-Adleman 李维斯特-萨莫尔-阿德曼算法(一种非对称加密算法) AEAD AuthenticatedEncryptionwithAssociatedData 带关联数据的验证加密 MAC Messageauthenticationcode 消息认证码 SSD SolidStateDisk 固态硬盘 AI ArtificialIntelligence 人工智能 HPC HighPerformanceComputing 高性能计算 2 服务器插入式设备带外管理技术白皮书ODCC-2023-0100C OpenBMC Open-sourceBaseboardManagementController 开源的基板管理控制器 LED LightEmittingDiode 发光二极管 PSU PowerSupplyUnits 电源供给单元 DMTF DistributedManagementTaskForce 分布式管理工作组 PLDMforplatformM&C PlatformLevelDataModel(PLDM)forPlatformMonitoringandControl 用于平台监测和控制的平台级数据模型 PLDMforRDE PlatformLevelDataModel(PLDM)forRedfishDeviceEnablement 支持Redfish设备的平台级数据模型 NVMe-MI Non-VolatileMemoryExpressManagementInterface 非易失性存储器快速管理接口 OOBPU Out-of-bandprocessingunit 带外处理单元 MC Managementcontroller 管理控制器 MD Managementdevice 管理设备 (三)参考文献 [1]SystemManagementBus(SMBus)Specification,version3.119-Mar-2018, http://smbus.org/specs/SMBus_3_1_20180319.pdf [2]DMTF,DSP0236,ManagementComponentTransportProtocol(MCTP)BaseSpecification1.3, http://www.dmtf.org/sites/default/files/standards/documents/DSP0236_1.3.pdf 3 服务器插入式设备带外管理技术白皮书ODCC-2023-0100C [3]DMTF,DSP0239,ManagementComponentTransportProtocol(MCTP)IDsandCodes1.3, http://www.dmtf.org/standards/published_documents/DSP0239_1.3.pdf [4]DMTF,DSP0237,ManagementComponentTransportProtocolSMBus/I2CTransportBindingSpecification1.0, http://www.dmtf.org/standards/published_documents/DSP0237_1.0.pdf [5]NVMExpress,NVMeManagementInterface1.2b,https://nvmexpress.org/wp-content/uploads/NVM-Express-Management-Interface-Specification-1.2b-2022.01.10- Ratified.pdf [6]DMTF,DSP0235,NVMe™(NVMeExpress™)ManagementMessagesoverMCTPBindingSpecification1.0.1, https://www.dmtf.org/sites/default/files/standards/documents/DSP0235_1.0.1.pdf [7]DMTF,DSP0240,PLDMBaseSpecification1.1.0,https://www.dmtf.org/sites/default/files/standards/docum 4 服务器插入式设备带外管理技术白皮书ODCC-2023-0100C ents/DSP0240_1.1.0.pdf [8]DMTF,DSP0245,PlatformLevelDataModel(PLDM)IDsandCodesSpecification1.3.0, https://www.dmtf.org/sites/default/files/standards/documents/DSP0245_1.3.0.pdf [9]DMTF,DSP0241,PlatformLevelDataModel(PLDM)OverMCTPBindingSpecification1.0.0, https://www.dmtf.org/sites/default/files/standards/documents/DSP0241_1.0.0.pdf [10]DMTF,DSP0267,PlatformLevelDat