液冷GPU加速生物结构前言应用 沈佳威-苏州超集信息科技有限公司高级硬件工程师 目录 生物结构解析及专业软件需求 液冷GPU在生物结构中的应用 GPU液冷技术与高性能服务器 案例分析 生物结构解析及专业软件需求 •生物结构解析-背景介绍 •生物结构解析-算法理论 •生物结构解析-冷冻电镜单颗粒分析 •生物结构解析-图像处理 •NVIDIA加速情况 “ 生物体的生命过程,往往和生物大分子的结构功能有关 如何获得生物大分子的结构,以及他们之间的相互作用是一项复杂的工作 随着硬件仪器的发展,冷冻电子显微镜已经可以做到原子级别的分辨率,这对于医疗诊断和制药起了重要作用 生物结构解析的常用技术: • • • X-射线晶体学 核磁共振NMR冷冻电子显微镜 利用冷冻电子显微镜解析生物分子结构,他使用电子束来对待测样品进行拍照成像,常用的一些成像方法有: •断层成像 •单颗粒分析(冷冻电镜单颗粒技术(CryoEM-SPA),一种在低温状态下使用透射电子显微镜观察样本的显微技术,受到了越来越多的关注,并将逐渐比肩或超越传统晶体衍射技术,在生物学、医学、药物开发中发挥至关重要的作用。) •微晶电子衍射 “ 中心截面定理 中心截面定理是指,一个物体在某一方向上投影的傅里叶变换,等于该物体三维傅里叶变换中过中心的与投影方向垂直的截面。 根据中心截面定理,我们拍摄41张不同角度的照片,对这些照片做傅里叶变换,就能够得到这个物体三维傅里叶空间里41张截面的信息。我们再对这个被信息填充的三维傅里叶空间做逆变换,就能够获得该图像的三维形状。 优势 快速冷冻制样处理,可使样本保持近自然水合状态; 无需结晶,可解析业界难点膜蛋白 微克级样品需求,对蛋白纯度耐受性高允许检测同一靶蛋白的多种构象 可解析大型蛋白复合物的结构 目前冷冻电镜的数据处理部分主要包含了以下的流程 (图3): 1.衬度传递函数的修正(CTFcorrection) 2.样品分子投影数据的筛选(particleselection) 3.二维投影数据的分类和降噪(2Danalysis) 4.三维模型的重构和优化(3Dreconstructionandrefinement) 5.多重构象的结构分析(heterogeneityanalysis) 6.对重建结构分辨率的分析(structureresolutionassessment) 7.结合生物化学原理和实验数据对三维结构的解读 (modelinterpretationandvalidation) 液冷GPU在生物结构中的应用 •液冷在生物结构中的应用 •为什么需要液冷 液冷在生物结构中的应用 “ 在冷冻电镜领域有非常多的工具软件被科学家所使用 Bsoft,CCP4,ChimeraX,cisTEM,Coot,CryoSparc,CtfFind4,EMAN,EMAN2,emClarity,EPicker,Gctf,IMOD,RELION,Pymol, Resmap 原始数据量大 单台电镜:2GB/movie*1500movies/day*300days*80%有效数据=720TB 通信量大 单节点数据读入:峰值>2GB/s,平均~300MB/s单节点数据写入:峰值>500MB/s,平均~100MB/s通常有20-50个节点执行任务 计算需求: 每个实验需要消耗20万GPU卡小时 数据中心冷却方式 相变浸没液冷 冷板式液冷喷淋式液冷 背板热交换 行级制冷内部热风抽取冷却 机柜循环冷却 顶置盘管冷却 冷热通道 0kW5kW10kW15kW20kW25kW30kW35kW单机柜能耗 (数据中心单机柜能耗和冷却方式) 封闭冷/热通道 Period 2020-2021 2021-2022 Future IntelXeonCPU PurelyCascadeLake Whitley IceLake EagleStream SapphireRapids TDP(W)upto 205 270 350 Period 2019-2020 2020-2022 Future AMDEpycCPU Zen1 Naples Zen2,Zen3 Rome,Milan Zen4 Genoa TDP(W)upto 180 280 320 Period 2020 2021-2022 Future NVIDIAGPU VoltaV100SXM2 AmpereA100SXM4 HopperAdaLovelace TDP(W)upto 300 400 450-600 为什么需要液冷 “ 纵坐标代表运行时间,越短越好 相同硬件但是不同GPU数量,相同软件及CPU配置 GPU液冷技术与高性能服务器 •散热对比 •技术分类 •仿真开发 •AMAX高性能服务器 空气 水 导热系数W/(m·K) 0.02 0.59 比热容J/(kg·K) 1030 4200 风冷服务器与液冷服务器比较——服务器热量导出方式不同 液冷换热效率高——使用液体取代空气作为冷媒,与发热部件进行换热,带走热量 低温空气 空气与发热部件 接触换热 高温空气 传统风冷 冷塔+冷机 冷塔 中温液体 液体与发热部件接触换热 高温液体 液冷 自然环境 冷机+冷塔 冷塔 间接冷却 冷板式 将液冷冷板固定在服务器的主要发热器件上,依靠流经冷板的液体将热量带走达到散热目的。 优点: 液体不接触器件,安全性高冷板可灵活拆卸,灵活度高环境依赖度低,节省成本制冷能力强,散热效果很好 缺点: 液体导电,需要较高可靠性验证支持 直接冷却 单相浸没 将发热器件完全浸泡在阻燃,绝缘的液体中,利用液体良好的散 热性能,对系统进行散热。 优点:对IT设备形态兼容性高 缺点:冷却液要求高;需要配合机房建设,成本较高;散热效率适中,无法解决更高热通量的芯片 相变浸没 将发热器件完全浸泡在阻燃,绝缘的液体中,利用低沸点工质潜热及显热进行热量交换,生成的气体通过冷凝,过冷凝的方式回流。优点:噪音低;散热效率高 缺点:容器要求高,冷却液易污染;需要配合机房建设,成本较高 喷淋式 在机箱顶部储液和开孔,根据发热体位置和发热量大小不同,让 冷却液对发热体进行喷淋,达到设备冷却目的。 优点:噪音低 缺点:冷却液蒸发,雾滴和气体易造成环境污染或影响其他设备;需要配合机房建设,成本较高 系统热阻构成:接触热阻散热器热阻 温升 遵从傅里叶定律 热对流/传导/辐射 接触热阻 散热器热阻 输入条件:40℃进液标准流量 温度阈值 CPU冷板设计 •基于通用风冷服务器,二次开发水路结构,采用液冷散热,搭配换热单元或液冷机柜使用 GPU冷板设计 •基于标准PCB设计,严格把控冷板材质,加工标准,确保冷板与PCB紧密贴合,确保高密封性与高耐压性 •设计思维区别于消费级产品,从选材到加工,选择工业级材料和流程把控 机箱设计 •高品质的全铝制机箱,兼具灵动与大气,极具质感,别具一格 模拟仿真 构建标准结构设计,利用仿真来模拟热流通数据,定义合适供水温度、流量、环温等关键指标。 设计参数(由客户指定) 环境温度 最大环境温度40°C 工质牌号 30%乙二醇的水溶液 系统供液温度 最高供水温度55"C 系统供液流量 流量2.1L/min(设计供回水温差8C) 设计要求(与客户共同确认) GPU芯片温度 ≤80°C 系统流阻 ≤50Kpa CPU芯片温度 ≤80°C 芯片节温-壳温 7°C(GPU)8°C(CPU) 接触温升 3°C 输出内容 GPU芯片温度 (66.9+10)76.9°C≤80°C OK 系统流阻 (24+20)44Kpa≤50Kpa OK CPU芯片温度 (65+11)76°C≤80°C OK 设计工况下冷板热阻 0.052°C/W 仿真数据分析 No . Q [W] Tin [°C] Tout [°C] Flowrate[LPM] 𝐿𝐶𝑃0𝑇� [°C] 𝐿𝐶𝑃1𝑇�[°C] 𝐶𝑝𝑢0𝑇�[°C] 𝐶𝑝𝑢1𝑇𝑗[°C] 𝑑�[°C] MaxtemperatureofCPU(𝐶𝑃𝑈𝑇c.max)(1)_[°C] LCP𝑅� (2)_[°C/W] Pressure drop_[𝑘𝑃𝑎] 1 270 40 48.48 1 47.3 51.5 59.3 63.5 5.67 57.17 0.048 17.1 Note: •CPU发热面积31*20.67mm²,导热硅脂选用TC-5888,5.2W/m*K,贴合面间隙:0.07mm,thepoweris270W, 接触面温升𝑑�=5.67℃,芯片核心温度温度:CPUTc.𝑚𝑎�=𝐿𝐶�𝑇�+dT℃(Tin=40℃) •LCP𝑅�=(𝐿𝐶𝑃0𝑇�+𝑑�−𝑇𝑖𝑛)/Q ServMAX®EL20-X3 •尺寸仅46*45*17(D*W*H,cm),小巧精致•实况模拟与仿真,确立高效循环水路 •2颗IceLake处理器,1TB内存•GPU,Memory,HDD/SSD等部件特殊加固 •2-4张AmpereGPU+2张PCIe扩展卡,蕴藏超高算力•高规格静音风扇,满载运行噪音52dB以下 •顶级边缘芯片NVIDIAOrin64G性能的130倍(FP32/FP16)•40℃高温下,机器可稳定运行 •顶级边缘芯片NVIDIAOrin64G性能的13倍(INT8/INT4) ServMAX®TL40-X3 •CPU+GPU全液冷设计,实现部件级精确制冷•满负荷整机噪音低于51dB •“并联GPU”设计,支持GPU灵活拆卸•金属密封焊接冷板,封闭循环水路,无漏液风险 •2颗IceLake处理器+4TB内存•智能液晶面板,实时监测状态 •支持4张AmpereGPU,整体显存高达320GB•实时漏液检测,安全可靠 •满负荷运行,CPU和GPU皆低于75℃,稳定可靠 ServMAX®GL202-X3 •CPU+GPU全液冷设计,实现部件级精确制冷•支持2张AmpereGPU,整体显存高达160GB •串联式设计,每张GPU可通过快接头单独拆卸,方便维护•满负荷运行,CPU核温低于69℃,GPU核温低于73℃ •CDU制冷模块与服务器采用快速接头连接,方便拆装•专利金属冷板+工业级无滴漏快速连接器 •2颗IceLake处理器+8TB内存•常规运行噪音低至59dB,构建静音液冷数据中心模块 模式1单机液冷模式 适用场景 液冷服务器与液冷工作站的区别在于,液冷服务器需要特制的换热单元来进行热量交换,而不像液冷工作站可以把水泵、水箱等内容集成在机箱内,超集信息根据使用场景专门设计了特制的换热单元,可以支持1台GL202-X3(含GPU)或2台GL202-X3(不含GPU)。 特点 •不改造现有风冷机房,部署运维难度低 •换热单元灵活、简单,适应多种机房环境 •特制换热单元,性价比高、交期短、部署快 •液冷设计+特制换热单元,噪音低于60dB 模式2单柜液冷模式 模式3多柜液冷模式 适用场景 数据中心的新建需要满足OUE≤1.3的国家政策,传统风冷数据中心,PUE值在1.8-2.0,新型液冷数据中心可实现PUE<1.3,不仅符合国家政策,而且每年可以节省大量电费。超集信息可以提供整柜GL202-X3+液-液CDU解决方案,助力绿色、节能的数据中心建设。 特点 •15-35kw制冷量的液-液CDU,强制冷力 •大幅降低机房PUE,满足国家政策要求 •工业级CDU,具备高稳定性、强扩展性 •液冷设计+专业换热单元,噪音低于60dB 适用场景 2-8台GL202-X3超过特制换热单元的散热范围,需要配置专业的风-液换热单元(CDU),CDU高度4U,可以安装导轨,放置于机柜底部,以提供稳定的换热能力。 特点 •不改造现有风冷机房,部署运维难度低 •CDU可放置机柜底部,节省机柜空间 •一台CDU支持1-8台服务器,复