您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[开放数据中心委员会]:浸没式液冷集中供电技术白皮书 - 发现报告
当前位置:首页/行业研究/报告详情/

浸没式液冷集中供电技术白皮书

浸没式液冷集中供电技术白皮书

浸没式液冷集中供电技术白皮书 I [编号:ODCC-2023-09006] 浸没式液冷 集中供电技术白皮书 浸没式液冷集中供电技术白皮书 版权声明 浸没液冷智算产业发展论坛发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。 转载、摘编或利用其它方式使用浸没液冷智算产业发展论坛成果中的文字或者观点的,应注明来源:“浸没液冷智算产业发展论坛”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,浸没液冷智算产业发展论坛及有关单位将追究其法律责任,感谢各单位的配合与支持。 I 浸没式液冷集中供电技术白皮书 编制说明 本报告由阿里云计算有限公司牵头撰写,在撰写过程中得到了多家单位的大力支持,在此特别感谢以下参编单位和参编人员: 参编单位(排名不分先后): 阿里云计算有限公司、中国信息通信研究院、OPPO广东移动通信有限公司、台达电子企业管理(上海)有限公司、杭州云电科技能源有限公司 参编人员(排名不分先后): 练恒、文芳志、郭亮、唐虎、郭锐、曹洪浩、余品德、董慨、蔡友准、承良超、车良松、黄勇、黄俊来、郭兴宽、肖昌允、张江、马高洁 项目经理: 练恒,邮箱lianheng.lh@alibaba-inc.com II 浸没式液冷集中供电技术白皮书 前言 在信息技术快速发展的背景下,数据中心作为关键基础设施,有力支撑了当前移动互联网、云计算、大数据等技术的发展。随着5G、物联网、人工智能、VR/AR、无人驾驶等新一代信息技术的快速演进,将对数据中心提出更高的要求,即要求数据中心有更强的计算能力、更大的存储能力以及更快的传输能力。而这一切都需要消耗更多的能量、需要更高的供电功率支持,同时也意味着服务器供电架构的变革需求,功率密度将进一步突破、提升。 更高功率和更高功率密度的需求,直接带来的问题是如何在更小的空间下处理更多的热量。而目前普遍采用的强制对流风冷方案已经无法满足这日益增长的功率和功率密度需求。因此亟需一种新的冷却方案,浸没式液冷可以极大地提高散热能力,为解决这一问题提供了有效方案。 服务器电源液冷化对高功率、高功率密度、高效率以及高可靠性有着重要的意义。阿里巴巴联合台达电子、杭州云电等电源厂商联合发布《浸没式液冷集中供电技术白皮书》,旨在通过阿里巴巴和各电源厂商在浸没式液冷集中供电技术上的探索和研究,定义液冷电源插框(POWERSHELF)和液冷双输入电源模块(ATS-PSU)的部分关键功能、性能指标,以及技术优势等。为下一阶段将浸没式液冷集中供电架构技术规范开源做准备,在中国数据中心应用场景下营造更好的液冷集中供电产业生态。 III 浸没式液冷集中供电技术白皮书 目录 版权声明I 编制说明II 前言III 1.概述1 1.1供电系统组成1 1.2供电系统架构图2 2.技术优势3 2.1大功率,极致能耗3 2.2高可靠,长寿命设计3 2.3模块化设计,智能运维3 3.设计及实现4 3.1极致能耗5 3.2全供电链路高可靠性设计6 IV 浸没式液冷集中供电技术白皮书 1.概述 本白皮书所述的浸没式液冷集中供电架构,是一种将核心功率变换部件完全浸没于冷却液中,能高效散热的,极致能效设计的,高可靠的,服务器(及网络设备)供电系统。供电系统采用模块化设计,按需配置,最大能支持115Kw供电能力,是目前业界机柜供电之最。 图1液冷集中供电系统 1.1供电系统组成 供电系统由五个部分组成:输入配电盒,电源插框POWERSHELF(简称PWF),液冷双输入供电模块ATS-PSU(简称TPU),监控模块ShelfManagementController(简称SMC),池化输出54VBUSBAR。 1 浸没式液冷集中供电技术白皮书 图2供电系统组成 1)输入配电盒:连接沧龙供电系统和机房供电系统的桥梁。 2)无源电源插框(PWF):PWF是TPU和SMC载体,并承担实现TPU的输入和54V的输出。PWF采用全无源设计,PCB电路板上实现“0”电子元器件设计;通过加强绝缘和输入间线路隔离等设计,实现PWF的高可靠性、高可用性。 3)液冷双输入供电模块(TPU):TPU是沧龙供电系统的核心单元,承担电压转换和保证稳定输出的核心。ATS转换器实现两路机房供电输入的自由切换,任何一路输入故障,不影响沧龙供电系统的正常工作,保证供电的高可靠性,TPU可支持在线热插拔和更换。 4)监控模块SMC(ShelfManagementController):实现对PWF和TPU的监控和管理,故障的采集和上报等功能。SMC支持在线更换和升级,SMC故障或拔出时不影响供电系统的正常工作和输出。 5)集中输出54VBUSBAR:供电系统的54V输出桥梁,连接PWF输出,汇聚后对服务器、交换机等IT设备进行供电。 1.2供电系统架构图 供电系统架构逻辑图如下图3所示,2路不同源的机房供电(ACorDC)同时接入TPU,TPU输出54VDC,汇流到Busbar,给液冷IT设备供电;单台液冷机柜内最大可配置4台PWF,最大输入功耗115千瓦。 2 浸没式液冷集中供电技术白皮书 图3供电系统架构框图 2.技术优势 2.1大功率,极致能耗 a)单柜功率等级突破:高达115KW/柜; b)可灵活配置:池化供电能力从25KW~115KW可选; c)极致能效设计:主力负载区间优化,主供电效率大于97%; d)采用54VBUSBAR总线:进一步提升系统能效; e)PEU:低至1.09。 2.2高可靠,长寿命设计 a)无局部热点,无灰尘、振动、温、湿度等失效模式 b)在单路电力故障场景下,仍保证N+2冗余供电 c)PWF为纯无源设计,实现“0”电子元器件 d)全供电链路可靠度99.9999% e)设计寿命:10年@55度满载 2.3模块化设计,智能运维 a)高度模块化设计,快速部署,无区域海拔限制 b)PWF和PSU均支持前维护盲插和热插拔,支持在线不断电运维 c)系统智能SMC,支持远程智能监控和批量快速运维 d)数字压降检测,故障主动感知和预警隔离 3 浸没式液冷集中供电技术白皮书 3.设计及实现 液冷集中供电架构强调所有浸没冷却部件与冷却液的兼容性和长期可靠性。液冷电源必须与数据中心指定的冷却液兼容,并能确保在该液体环境中长期可 靠运行。必须按下述三个级别完成兼容性分析。 a)成分级别兼容性分析 将液冷电源BOM中器件进行材料成分级分析,分为三种工况:①所有成分跟液体兼容,可以使用;②有部分成分与液体不兼容,禁用;③部分成分兼容性未知,需进入器件级别兼容性测试。 b)器件级别兼容性分析 将所有BOM中器件进行器件兼容性测试,重点测试成分兼容性未知的器件。器件测试需考虑温度,深度,测试时间等这里不一一展开。测试完成后,需针对不同的器件做不同的测试方案进行验收,不仅需包含体积,重点,外观等变化,有源或者半导体器件需要做电气测试。 c)整机级别兼容性分析 整机级别兼容性测试需要定义关键测试项和关键指标,需定期在液体内复测关键测试项,观察测试结果是否有异常波动。 除了材料与液体的兼容性设计以外,液冷集中供电架构重点聚焦于极致能效和全供电链路的高可靠性设计,多项创新专利技术加持下,供电系统各关键规格指标均为业界领先。 4 浸没式液冷集中供电技术白皮书 图4无源电源插框PWF及液冷双输入TPU 本白皮书针对浸没式液冷集中供电架构的两大核心部件,电源插框(PWF)和液冷双输入供电模块(TPU)的多项创新设计作简要阐述。 3.1极致能耗 通过对供电系统的负载率区间统计分析及优化,整个Tank的核心电压变换部分TPU长期工作在最佳负载区间,供电效率在主力负载区间内均保持在97%以上,达到超钛金水平,全行业领先。同时BUSBAR总线电压从12V抬升到54V减少传输路径上的损耗,后级DC-DC转换采用高效非隔离方案也为全链路追求极致高效提供有力保障。 5 浸没式液冷集中供电技术白皮书 图5液冷集中供电系统的TPU长期工作在最佳负载区间 3.2全供电链路高可靠性设计 沧龙供电系统基于全供电链路可靠性建模分析,识别系统供电风险点,采用一系列可靠性创新专利技术,针对性地进行强化设计,例如通过PCB无源化设计、前后级故障隔离机制、主动检测和故障感知预警等技术手段,有效提升整个系统供电可靠性。 图6液冷集中供电系统全供电链路可靠性强化设计 6 浸没式液冷集中供电技术白皮书 沧龙供电系统的前后级故障隔离机制,可确保系统在单点故障及双点故障下均不影响系统工作。 故障数 故障点 分布式供电CRPS1+1 集中式供电N+N 集中式供电ATSN+2 IDC供电输入 PSU 1FAIL AC输入 FAIL OK OK OK OK DC输入 FAIL OK OK OK OK OK 1FAIL OK OK OK 2FAIL AC输入 FAIL 1FAIL 超电风险 超电风险 OK DC输入 FAIL 1FAIL 超电风险 超电风险 OK OK 2FAIL 超电风险 OK OK 3FAIL AC输入 FAIL 2FAIL 超电风险 超电风险 OK DC输入 FAIL 2FAIL 超电风险 超电风险 OK OK 3FAIL 超电风险 OK 3点故障超电风险 表2液冷集中供电系统相对传统供电系统失效模式分析 (1)纯无源设计的PWF POWERSHELF为纯无源设计,PCB上实现“0”电子元器件,易损坏的器件或部件均设计在可拔插更换且有冗余备份的PSU模块内,从而有效提高了整个供电链路的可靠性和可用性。 POWERSHELF内全供电链路保证两路输入间的独立性和完整性,强制两路输入间PCBlayout加强绝缘且禁止叠层设计,连接器pin间距满足加强绝缘的 7 浸没式液冷集中供电技术白皮书 电气间隙和爬电距离。ATS前全链路满足双路隔离独立,以确保消除供电链路中可能形成的“独木桥”,达到整个供电系统的高可靠性要求。 图7液冷集中供电系统中PWF的无源化设计 (2)高可靠TPU 液冷双输入TPU是一款高可靠性的超钛金TPU,是供电系统的电压变换核心部件。全面满足ODCC发布的《中国数据中心云服务器浸没式液冷电源技术规范V1.0》,各项基础规格均能贴合中国数据中心云服务器应用场景需求。如: 市电直供场景的匹配能力,更强的抗DIP和SURGE能力,大动态负载承接能力,热插拔,防倒灌以及失效隔离能力,并机均流精度,主力负载率区间的效率优 化,等等。 液冷双输入TPU在满足《中国数据中心云服务器浸没式液冷电源技术规范V1.0》基础上持续创新。其中,能在浸没液冷环境中可靠应用的继电器为业界首创,已通过长时间高温浸泡测试,且兼容性验证已验收通过。同时为保证继 8 浸没式液冷集中供电技术白皮书 电器寿命,采用业界领先的继电器切换技术,实现继电器的软开通和软关断,继电器寿命以数量级指标提升,获得多项国家创新专利。 基于供电链路可靠性模型分析,TPU的故障隔离机制是影响系统可靠性的另一关键技术点。通常在集中供电系统中,某一供电单元故障时,其输出侧的短路通道极有可能将整个供电系统的母排电压拉低,从而导致系统宕机。TPU的故障隔离机制可确保供电系统在任意TPU故障时均不影响系统工作。而供电系统针对故障隔离机制的可靠性强化设计和创新专利技术可确保故障隔离机制在偶发失效时可被即时监测感知,结合系统的N+2的冗余设计,可确保系统长期安全可靠。 a)液冷ATS双输入技术:在电力故障/电力演练等场景下,电源N+2冗余保障系统可靠运行; b)N+2加强冗余:确保供电系统在任意TPU故障时仍保持N+1冗余,不影响系统工作; c)故障巡检和主动感知技术:TPU针对隔离机制的关键器件OringMOS采用多项创新专利技术,包括健康状态轮循及实时温度监控等,确保故障隔离机制的稳固; 图8供电系统中TPU的故障隔离机制 9 浸没式液冷集中供电技术白皮书