热门搜索：

大模型场景下智算平台的设计与优化实践

信息技术2024-06-14-百度C***

AI智能总结

智算平台设计与优化实践

引言与需求概述

在大模型时代，智算平台面临一系列挑战与需求：

小模型 vs. 大模型：对比小模型，大模型在训练时长、成本、算力需求、存储需求、网络需求等方面均有显著差异。
基础设施、调度、应用、运维：智算平台需解决跨多个层面的问题，包括硬件适配、资源管理、任务调度、性能优化及运维自动化。

大模型时代智算平台新特点

基础设施：支持多种异构芯片、优化存储读写性能、提升网络效率。
调度：高效调度多类型算力、支持AI框架与并行策略、实现资源虚拟化。
应用：加速数据集处理、优化训练与推理性能。
运维：强化故障检测、提升容错能力、优化资源使用效率。

技术实践

基础设施层：采用混合多芯架构、高性能存储解决方案、优化网络配置。
调度层：通过GPU虚拟化技术、资源管理和调度策略优化算力使用。
应用层：采用AI加速技术、优化算法、提升训练和推理性能。
运维层：实现自动化故障检测、监控与资源优化。

百度百舸架构与演进

百度百舸：从AI基础设施产品化到云原生化，再到一站式大模型算力平台，持续迭代以支持大规模镜像、高性能存储、智能故障诊断等功能。
发展历程：从2021年太行项目开始，经过沧海、AI容器服务、X-MAN服务器等阶段，直至2023年的AIAK大模型训推加速工具包，形成一套全面的大模型算力解决方案。

对智算平台未来思考

核心价值：智算平台应聚焦于简化复杂性，使开发者能够高效地利用底层硬件资源。
发展趋势：随着预训练模型门槛的提升和领域特定微调需求的增加，大模型的推理应用将变得更为重要。
技术趋势：预测未来智算平台将更加注重AI研发栈的集成，以及自动化工具的发展，以应对日益增长的数据处理和模型优化需求。

综上所述，智算平台设计与优化实践旨在构建一个高效、灵活、自动化的生态系统，以适应大模型时代的计算挑战，促进人工智能领域的创新与发展。

大模型场景下智算平台的设计与优化实践肖松2024.06.14 引言不同时期对智算平台的需求客户A 我资源比较少，几十卡的规模，如何提升卡的利用率？客户B 我的模型跑起来耗时长，能加速吗？客户C 我想跑大模型，需要多少资源？网络如何构建？多长时间能跑完？国产卡怎么用？能否与NV卡一起使用？客户D 2018 2024 2 目录 01大模型时代，智算平台新特点4 02智算平台需解决的问题6 03大模型场景技术实践8 04对于智算平台发展的未来思考25 01大模型时代，智算平台新特点小模型vs.大模型大模型时代，智算平台新特点小模型vs.大模型 ResNet50（小模型） GPT-4（大模型）工程问题 158秒$15 训练时长训练成本 55天$2150万训练时长训练成本增强：耗时长凸显大模型训推加速需求新增：成本高带来稳定性需求，减少资源闲置参数25M（0.025B） vs. 参数1800B 新要求增强：参数爆炸突破显存墙，多机多卡成为常态增强：卡间和机间高性能通信愈发重要算力128块V100 数据167G（ImageNet）算力8192块H100 数据13T 维持：GPU切分在小模型和推理场景依然存在新增：新卡适配和芯片利旧，多芯混合调度新增：数据集处理加速新增：数据湖存储和高性能存储 *数据来源：非官方数据，为业界推测 5 02智算平台需解决的问题基础设施、调度、应用、运维智算平台需解决的问题基础设施、调度、应用、运维运维应用数据训练推理 •数据集下载和转储加速 •数据集的清洗和加工处理 •训练任务的性能优化 •任务的监控和容错 •FlashCheckpoint •推理任务的性能优化 •在线服务的监控告警调度资源管理任务管理 •大规模异构算力高效调度和分配 •算力虚拟化 •多种AI框架和并行策略支持 •AI任务调度和任务流管理 •云原生容器化基础设施算力存储网络 •适配多种异构芯片 •固件、OS内核、驱动兼容 •混合多芯 •优化存储读写性能 •镜像加速、镜像预铺 •搭建和调试高性能网络 7 03大模型场景技术实践基础设施层基础设施——混合多芯国产卡能否与NV卡一起使用？拟合性能系数统一并行策略 AI效能矩阵图谱通信整合 9 基础设施——高性能存储镜像加速超大镜像预加载P2P镜像分发流式镜像拉取训练数据加速高性能并行文件系统全SSD闪存 RDMA链路加速模型加速大吞吐数据湖存储分布式缓存加速如何实现数据集加速？如何I/O加速？镜像服务流式读取P2P加速 MEMDISK MEMDISK MEMDISK MEMDISK TCP/InfiniBand/RoCE并行文件存储PFS TCP 分布式缓存加速存储RapidFS 托管BCC/BBC集群对象存储BOS 标准存储低频存储冷存储归档存储 10 基础设施——高性能网络如何实现通信库加速？ 3层无收敛RDMA网络 Tor拓扑感知调度 NCCL通信拓扑感知 Upto512 Upto512 Upto16K+ 11 03大模型场景技术实践调度层调度——GPU虚拟化如何提高单卡资源利用率？用户态方案 CUDAdriverAPI，提供显存限制，算力时分复用 CUDAruntimeAPI，提供远程调用，显存限制，算力时分复用内核态方案内核模块修改，提供显存限制，算力时分复用 Full/para-虚拟化，内核模块修改，MMIO拦截，显存划分，算力时分复用硬件方案 NvidiaMIG昆仑2SR-IOV NV官方，硬件划分，提供显存划分、算力划分、编解码划分（1/7）SR-IOV，硬件划分，提供显存划分、算力划分（1/3、1/2） 13 调度——GPU虚拟化双引擎GPU虚拟化用户态优势：性能好，长尾延迟低缺点：故障隔离差内核态优势：故障隔离好缺点：有一定性能损耗14 调度——资源管理和调度逻辑如何调度资源？配额管理调度会话插件集合入队 Gang调度多租户资源管理资源分配 Binpack/Spread调度 Gang抢占集群资源视图资源回收亲和性调度 CPU/MEM 资源抢占 Tor架构感知 GPU拓扑异构芯片(独占/共享) RDMA 自定义资源选择最优调度 PodGroup Pod Pod Pod 资源调度回填混部调度 15 03大模型场景技术实践应用层应用——AIAK训推加速如何优化训练和推理性能？兼容Llama2、ChatGLM2等20余种开源模型，一键部署，透明加速大模型训练加速镜像大模型推理加速镜像数据并行优化张量并行优化量化/剪枝/蒸馏并行优化流水线并行优化图精简数学等价代换/死代码移除显存重算显存卸载访存密集型算子融合 GEMM/Conv长尾运算融合显存优化细粒度显存切分算子融合背靠背GEMM融合算子优化算子融合注意力机制优化调度优化算子优化访存优化模板化优化训练性能提升30%+推理性能提升60%+ 17 应用——训练容错如何提升训练稳定性？任务无效训练时间=故障中断次数×(任务故障恢复时长+任务故障重算时长)+任务常态写Ckpt总时长 • • 降低节点故障率提升故障感知召回率 • • 提升调度效率降低节点MTTR 降低Ckpt时长，缩短Ckpt间隔周期基础设施稳定性调度容错效率框架容错代价硬件故障快速感知硬件端到端上线预检测节点热维修/秒级冷迁移恢复任务异常快速感知重调度容错镜像/数据缓存加速 Ckpt存储加速异步Ckpt加速分布式Ckpt加速主流框架/分布式库，打开开关即可容错 Pytorch DeepspeedMegatron PaddlePaddle… 18 应用——FlashCheckpoint 如何降低Checkpoint时间？ Checkpoint容错机制带来了计算时间片浪费有效训练时间有效训练时间 Checkpoint等待Checkpoint等待传统方案FlashCKPT FlashCKPT并行内存写入，快速完成checkpoint操作，提升整体有效训练时长。训练框架同步写 Memory加速层 Memory 同步close 训练框架同步写 Memory加速层 Memory 异步close 业务可制定更细粒度的检查点策略，从而降低故障恢复时间 NVMESSD 流式分块上传等待lastpart 分布式，异步写 3小时每日节省有效训练时长 1秒千亿大模型CKPT写入远端对象存储并行文件存储PFS 小时级CKPT，容错恢复时间长秒级CKPT，更细粒度的打点恢复 19 03大模型场景技术实践运维运维目标可观测能力运维目标故障处理容量管理&优化任务性能调优任务告警发现（变更告警、故障告警、阈值告警）快速任务稳定性大盘定位（任务关联的节点、组件，配套服务健康情况）根因根因排查排查（集群、任务事件，任务运行日志）辅助智能排障建议止损（基于大模型的智能故障分析）集群资源视图（集群资源概览，利用率、分配率变化&趋势，任务资源概览）节点资源视图（节点资源详情、GPU分配/利用分析）任务资源视图（任务资源详情、GPU使用分析、Pod分配情况）任务性能大盘（训推吞吐指标，任务并行策略、性能关联参数）任务收敛监控&告警（监控任务loss收敛情况，异常报警）分阶段指标（诊断训练分阶段耗时，助力训练性能调优）故障定位时间小时级->分钟级发现资源瓶颈提升分配/利用率发现任务性能瓶颈，避免空跑 21 03大模型场景技术实践百度百舸架构和演进智算平台架构百度百舸大模型IO加速方案FlashCheckpoint 大镜像预加载大规模镜像P2P加速大模型任务增强开源大模型定制优化高性能算子高效显存利用高效并行策略高性能训推框架大模型训推任务加速镜像异构资源调度高性能存储插件高性能网络插件百舸组件 AI基础组件任务工作流管理 AI任务编排深度学习框架 AI编排调度通信测试工具自动任务容错多维故障感知稳定性&容错可观测大盘 30% 集群资源视图训练吞吐提升任务稳定性大盘 98.8% 性能监控&调优有效训练时长 60% 推理吞吐提升 95% 带宽有效性 CCEK8S集群百舸资源池 A800/H800/昆仑/升腾异构算力高性能分布式存储PFS万卡RDMA网络 23 百度百舸发展历程 AI硬核能力积累百舸1.0 AI基础设施产品化百舸2.0 AI基础设施云原生化百舸3.0 一站式大模型算力平台支撑百度核心业务发展视觉&自然语言处理自动驾驶&生命科学大模型新业态孔明超级计算集群 AI容器服务通信&算子加速 AI可观测大盘 X-MAN超级AI服务器太行.弹性裸金属云原生作业调度 AIAK大模型训推加速工具包自动故障容错智能故障诊断 RDMA高性能网络沧海.高性能存储 GPU容器虚拟化 FlashCheckpoint 大镜像分发加速百度十年AI实践202120222023 24 对智算平台发展的一些思考智算平台个人思考定位承上启下，向下纳管异构资源，向上承载AI平台核心屏蔽下层的复杂性，或许未来能像使用CPU一样使用GPU 发展不再满足资源纳管，对AI研发栈的需求越来越旺盛趋势预训练门槛变高，领域微调变多，模型推理或许会迎来爆发 26 THANKS

点击免费查看完整报告