热门搜索：

云原生时代下大规模 GPU 资源利用率优化最佳实践

信息技术2023-10-08张伟快手周***

AI智能总结

本文主要介绍了快手在云原生时代下大规模GPU资源利用率优化的最佳实践。随着业务的容器化和大规模GPU资源的需求，快手采用了GPU虚拟化和混部技术，实现了GPU资源的高效利用。通过GPU潮汐混部实践，快手实现了在线服务、AI训练任务和近线服务的多场景统一调度，提高了GPU资源的利用率和稳定性。此外，快手还采用了成本与稳定性控制策略，实现了GPU资源的弹性需求和单卡、多卡、多机多卡场景的业务背景与趋势。未来，快手将继续推动全局资源效率的发展，启动扩量与精细化，以满足业务的多样化需求。

云原生时代下大规模GPU资源利用率优化最佳实践张伟快手基础技术部容器云技术中心目录页 Contents 1背景与趋势 2GPU虚拟化与混部 3GPU潮汐混部实践 4持续演进与展望快手编排调度发展历程 2018~2019 发展启动推动业务容器化 2019~2020 扩量与精细化 CPU在离线混部CPU潮汐混部 2021~2022 成本与稳定性大套餐预留策略实时负载&节点健康度调度服务间亲和反亲和社区策略定制服务画像机制服务内亲和反亲和本地多磁盘策略多集群联邦计量计费 GPU虚拟化与GPU混部AI训练与潮汐混部NUMA亲和 2023~后续全局资源效率资源合池多场景统一调度全局弹性能力扩量业务背景与趋势服务量动态增长微服务改造、长尾增多实时流量潮汐实例负载及规模快速变化资源池共享推理/训练/近线多场景混合算力需求多样化 GPU 算力强需求与提升GPU资源效率卡类型多样 GPU硬件多年持续迭代平台系统损耗故障及主机异构的调度损耗资源弹性需求单卡、多卡、多机多卡场景云原生化多业务场景 GPU应用已深刻影响各类业务（搜广推、音视频、MMU、风控等）场景快手内部GPU在线服务及离线训练任务均完成云原生化迁移背景：成本问题逐步凸显核心优化目标：GPU资源利用率提升图：快手内部某服务GPU使用率趋势 GPU卡规模主流A100、A30、A10、T4等多型号数万台GPU主机&十万量级GPU卡十万量级在线服务（推理等）、AI训练任务及近线服务（特征提取等）多样化场景 GPU服务数千量级在线服务GPU峰均差值约30PP训练类算力全天需求旺盛运行效率峰均差值面临挑战业务框架适配云原生合池 GPU卡型多样机型异构成本控制利用率云原生下的挑战容量冗余控制稳定性 GPU显存约束流量潮汐变化 GPU编解码器新卡性能增强故障隔离资源配额保障成本优化是目标，稳定性保障是前提目录页 Contents 1背景与趋势 2GPU虚拟化与混部建设 3GPU潮汐混部实践 4持续演进与展望为什么需要虚拟化与混部类技术任务颗粒度 VGPU 大量单实例无法用满GPU资源硬件算力持续增强形成浪费 GPU算力显存编码器渲染器请求优先级 Prioritized-QoS 在线容量冗余，峰值高而日均利用不足离线训练成本高昂，近线类需求旺盛高优抢占分时复用削峰填谷消除冗余高优保障在线峰值流量提升利用率优化成本离线训练+近线任务压缩算力成本保障实时在线需求如何落地系统能力业务场景 Services 电商推荐广告搜索音视频…特效处理直播媒体处理风控框架平台 Framework&Platform 在线推理音视频增强服务容器部署平台特征提取等近线任务离线AI训练机器学习平台 VGPU在线业务场景混部GPU离线训练与近线任务虚拟GPU资源定义与调度 API劫持GPU算力隔离显存隔离限制显存水位预测算力请求优先级离线时间片兜底高优QoS抢占显存分配识别编解码器拦截显存实时避让离线内存监测离线CPU压制硬件基础设施 Infrastructure GPU卡CPU内存网络存储路径允许多容器实例在资源隔离前提下共享GPU卡方式 VGPU实例：CPU+内存+算力占比+显存占比+器件选配收益业务：用量减少成本降低平台：部署密度增加利用率提升单实例独占 GPU显存 GPU算力 GPU显存 GPU算力多实例共享编解码器可选项 N分之一算力/显存什么是GPU虚拟化算力单元算力单元 GPU 显存编解码器渲染器 GPU虚拟化底层技术选型 NvidiaMPS 多进程共享上下文，吞吐指标更优缺乏故障强隔离，容器间异常会传导不支持显存硬隔离内核层劫持内核层拦截驱动API隔离显存/算力细粒度的显存和算力调度策略无需替换CUDA库上层应用无感 CUDA层劫持（vCUDA） CUDA层拦截API隔离显存/算力依赖容器镜像替换CUDA库CUDA发新版需要迭代适配 NvidiaMIG 硬件物理切分方式，适用A100、A30等卡型不支持动态划分依赖CUDA11及以上高版本快手GPU虚拟化方案技术路线：内核态劫持 ●算力隔离：基于内核态的时间片轮转调度，多容器时分复用GPU计算器件 ●显存隔离：基于内核态劫持显存申请、回收等接口，控制容器使用显存配额共享GPU的多容器时间片分配周期Period 多容器实例按时间片轮转切换占用GPU出让GPU Pod1 Pod2 VGPU按时间片调度示意图时间轴t 性能压测数据 25.000 聚合QPS对比 20.000 15.000 10.000 原生GPU整卡快手虚拟化单卡双实例MPS方案单卡双实例 有效吞吐介于原生整卡与MPS抢占模式间 具备故障强隔离能力，显著优于MPS方案 5.000 0.000 1816 BatchSize 3264 35.00 30.00 P99延迟对比原生GPU整卡模式快手GPU虚拟化单卡两实例MPS方案单卡两实例 25.00 时间片轮转引入极端场景P99延迟放大 适用具备一定延迟容忍的业务场景 20.00 15.00 10.00 5.00 0.00 18163264 BatchSize GPU虚拟化-产品形态按比例切分出VGPU单元产品设定不同比例套餐并推荐（1）在线服务使用整卡（2）在线服务使用半卡资源套餐通用GPUA30（8核12GB整卡50%显存）资源套餐通用GPUA30（4核8GB0.5卡50%显存） VGPU集群资源调度架构碎片控制 同服务尽力反亲和 1/N卡实例优先组合 存核比匹配优化瓶颈 … 负载感知 编解码器显式分配 离近线+低压力在线优先组合 在线VGPU扩容感知混部GPU … 什么是GPU混部？允许在线和离近线容器实例在请求优先级保障前提下共享同一块GPU卡算力抢占在线服务有GPU计算请求时立刻获取算力执行，离线服务的请求被压制在线请求实时抢占立即执行执行结束请求resume resume 请求请求suspend d 请求suspen 在线实例A 离线实列B 离线实例C 显存避让当剩余GPU显存低于安全阈值时，离线服务实例会被立即驱逐以释放显存供给在线服务进程时间轴t 整卡显存缓冲阈值空闲显存离线已用显存在线已用显存离线实例 6重调度后在新主机拉起 1申请显存 kGPU驱动 2实时检测显存余量低于阈值则生成通知事件 4感知显存实时可申请量单机管理组件离线进程可用显存 3主动驱动低优离线实例 5阻止低优实例原地拉起 DevicePlugin GPU混部利用率提升 GPU混部提升利用率示意仅在线服务运行的GPU利用率在线与离近线复用资源下的GPU利用 KGPU驱动-内核模块 /dev/nvidia0 CUDAAPP /dev/nvidia0 CUDAAPP /dev/nvidia0 CUDAAPP 容器1容器2容器N … 抢占调度 权重隔离 GPU算力调度器 虚拟设备透传 业务透明无感切换 KgpuDeviceWrapper 算力调度器容器N … 容器2 容器1 KGPUDeviceWrapper 离在线混部 Doorbell拦截显存隔离 CUDA库逆向显存避让水位预警高优QOS抢占实时退避 Busy检测判断 IOCTL透明劫持显存分配识别使用预测 离在线混部 显存隔离 显存避让核心功能因素驱动二进制解析原生Driver 硬件GPU卡利用率提升效果 GPU日均利用率趋势 完备的故障隔离能力 实时量化干扰指标稳定性保障 对接服务成本优化超50% 数千卡近线类算力稳态供给业务成本显著下降 GPU峰均提升约6PP GPU日均提升近7PP 推理类资源池利用率提升显著 JanFebMarAprMayJuneJulyAug 目录页 Contents 1背景与趋势 2GPU虚拟化与混部建设 3GPU潮汐混部实践 4持续演进与展望潮汐混部业务背景 GPU整机维度分时复用 AI训练计算量大 •多机多卡高算力需求 •多角色Gang调度 •任务非实时可推迟运行利用率优化痛点 •训练过程需要稳态运行 •内存+IO+网络等多瓶颈 •资源配额实时协调在线服务强保障 •延时极度敏感 •性能波动关乎收入 •潮汐特征明显风险与挑战风险收益 X核心业务延迟增加影响收入 ✔ X网络+磁盘等瓶颈拉低可用性 VS资源复用模型训练吞吐加速 ✔业务成本显著优化 X在线流量变化实时扩量需保障 XAI算法团队研发效率波动风险潮汐混部的周期切换实时抢占推理稳态运行 07:30~08:30早高峰在线流量启动期抢占在线服务逐步扩容增加容量，抢占逻辑最高优稳态保障在线服务资源供给 08:30~22:30在线业务流量持续高位保障在线推理场景持续稳定运行，冗余资源支持小微低优任务运行流量预测+弹性扩量+优先级抢占训练任务运行稳态转换 23:30~07:30凌晨在线流量持续低谷干扰观测跟踪+调度策略定制在离资源转换 22:30~23:30晚高峰在线流量消退期提升训练任务错峰规模化运行稳定性，尽力减少运行失败导致的无效损耗在线按容量预测缩容，尽力空出整机调度实时感知算力分布调度策略定制+重调度干预离线训练运行保障 08:30~22:3022:30~23:3023:30~07:3007:30~08:30 离线训练任务运行规模趋势特点离线GPU资源持续压制状态空闲整机存在不确定性离线GPU资源逐步增多空闲整机规模快速增加离线GPU资源规模趋势于稳定态空闲整机确定性显著增强离线GPU资源被实时抢占空闲整机规模快速减少策略低配短时训练任务排队提交训练任务队列逐步迁移扩量高配长任务放量启动运行任务队列暂停高优提交装箱优先策略保持整机空闲预留任务失败自动重试提升成功率干预缩容实例尽力空出整机二次调度主动腾挪提升装箱率调度器感知任务优先级+运行时长压制训练任务因资源导致的失败率训练任务保存结果逐步退出切换适量低配短时训练任务资源抽取率提升实践编排控制器干预缩容过程调度器推荐缩容排序控制器执行缩容过程 整机抽取率>20% 白天装箱率>96% 夜间装箱率>90% 晚高峰后业务并发缩容实例压测完成容量预估HPA缩减实例释放配额快速释放在线资源批量空闲离线整机并发实现碎片聚合装箱率跟踪整机空闲转换为离线节点非空闲持续提升装箱指标重调度主动规整 DeScheduler跨服务并发重调度一次调度策略重聚合空闲整机潮汐策略运转效果 01GPU日均提升 01成本优化凌晨时段资源转化抽取率20+% 混部GPU实际分配率近80% GPU日均提升3~5PP 仅以T4和A10型号为统计范围凌晨时段可转化节省数千块A10卡和T4卡年化收益数千万元 2023年潮汐范围GPU日均趋势 2023年GPU资源转化率趋势 JanFebMarAprMayJune JanFebMarAprMayJune 目录页 Contents 1背景与趋势 2GPU虚拟化与混部建设 3GPU潮汐混部实践 4持续演进与展望持续演进与趋势资源及业务趋势平台演进展望 •GPU性能持续增强 •集群增长+硬件异构 •多业务动态共享算力 •训练+在线资源实时双向互通 •提取业务特征，优化多维度瓶颈 •实时负载感知，极限提升利用率 •多队列+优先级，持续提升吞吐 ThankYou! Q&A

点击免费查看完整报告

你可能感兴趣

云原生时代下大规模 GPU 资源利用率优化最佳实践

你可能感兴趣

腾讯大规模云原生技术实践案例集

云原生机密计算&商用密码技术最佳实践白皮书

2023云原生机密计算最佳实践白皮书

2023云原生节点管理最佳实践白皮书

云原生离线在线资源混部实践