您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[零一万物]:千亿参数LLM的训练效率优化 - 发现报告
当前位置:首页/行业研究/报告详情/

千亿参数LLM的训练效率优化

信息技术2024-10-28张力寰零一万物徐***
AI智能总结
查看更多
千亿参数LLM的训练效率优化

千亿参数LLM的训练效率优化 演讲人:张力寰 零一万物/AIInfra分布式训练优化架构师 01 模型训练硬件利用率影响因素 02 分布式训练效率提升 03 FP8训练经验分享 04 MoE训练经验分享 05 Goodput提升 06 总结与展望 CONT目E录NTS 模型训练硬件利用率影响因素 •92页的技术报告 •最大405B的模型 •16KH100训练集群 •54天的预训练,466次任务中断 •MFU:40%左右 •Goodput:90%左右的有效训练时间占比 https://arxiv.org/pdf/2407.21783 •ModelFLOPSUtilization,模型算力利用率 •FLOPS(FloatingPointOperationsPerSecond) 표푏푠푒rU푒怀�ℎr표ugℎ푝u�푀�U=�ℎ푒표r푒�i㘴㘱൭푚㘱푥i푚u푚�ℎr표ugℎ푝u� https://arxiv.org/pdf/2407.21783https://resources.nvidia.com/en-us-tensor-core/nvidia-tensor-core-gpu-datasheet •AmetrictomeasureAIsystemefficiency(Google) •SchedulingGoodput •RuntimeGoodput •ProgramGoodput 分布式训练效率提升 •DDP:DistributedDataParallel •模型较小,数据量较大 •Megatron-LM-1 •拆分均匀,但通信量大 •GPipe(Google),PipeDream(Microsoft) •Megatron-LM-2 •通信量低,但会引入bubble https://arxiv.org/pdf/1806.03377https://arxiv.org/pdf/1811.06965 •SwitchTransformers(Google) •MegatronExpertParallelism •RingAttentionwithBlockwiseTransformersforNear-InfiniteContext(UCBerkeley) •(a)Outerloop:computingblockwiseattentionamongdevices •(b)Innerloop:everydevicecomputesblockwiseattentionandfeedforwardoperations •基本原理:Onlinesoftmax •性能问题:负载不均衡 •原版VS负载均衡版 •SlidingWindowAttention+ContextParallel •不同情况序列长度的问题 •如何复用高性能Attention算子(如FlashAttention) •模基共建 •如何与FullAttention+CP混合使用 •通信计算并行 •分布式优化器显存优化 •TP的MPI依赖解耦 •... FP8训练经验分享 •E4M3:1signbit,4exponentbitsand3bitsofmantissa.+/-448andnan. •E5M2:1signbit,5exponentbitsand2bitsofmantissa.+/-57344,+/-inf https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/examples/fp8_primer.htmlhttps://resources.nvidia.com/en-us-tensor-core/nvidia-tensor-core-gpu-datasheet •FP8混合精度训练 •部分计算采用FP8 •前向用E4M3,反向用E5M2 •缩放方式 •Just-in-timescaling •Delayedscaling https://developer.nvidia.com/zh-cn/blog/nvidia-gpu-fp8-training-inference/ MoE训练经验分享 •SwitchTransformers(Google) •DeepSeekMoE •通信计算并行 •DynamicRoutinginMoEModels •算子融合 •细粒度重计算 •自定义流水线并行层数划分 •... Goodput优化 •基本原理 •GPU内存到CPU内存,同步 •CPU内存到磁盘,异步 •持续优化 •分布式优化器的切分 •多种分布式策略的适配 •xxx任务效果 •每次保存ckpt的额外耗时趋近于0 •Goodput提升15% 总结与展望 总结与展望 MFU •分布式训练效率提升 •DP/TP/PP/EP/CP及其优化 •FP8训练经验分享 •FP8训练介绍/实践 •MoE训练经验分享 •MoE介绍 •MoE系列优化 Goodput •训推任务调度系统 •拓扑亲和调度 •故障监控与定位 •FastCkpt •基本原理 •持续优化 •提升效果 THANKS 智能未来,探索AI无限可能 IntelligentFuture,ExploringtheBoundlessPossibilitiesofAI