空白演示 Loremipsumdolorsitamet,consecteturadipisicingelit. 腾讯AngelPTM大模型训练框架优化与实践支撑混元大模型训练的训练框架 薛金宝2024.6 1大模型发展趋势和训练面临的挑战 3 模型参数规模指数级增长 •生成式大模型突飞猛进,5年时间,模型参数规模增长100万倍,达到万亿量级 •ScalingLaw[1]:数据越多、模型越大,模型学习能力越强,模型效果越好 [1]OpenAI“ScalingLawsforNeuralLanguageModels”,https://arxiv.org/abs/2001.08361,2020 文生文 文生图 文生视频 多模态 全模态 ChatGPTLlama3 StableDiffusionDiT SoraSTDiT GPT4V Gemini GPT5 Expert1 Expert2 …Expert16 FFN层 门控模块 Self-Attention层(共享参数) Decoder-Only 120层 总参量:~1.8T 训练数据:~13TTokens 激活2个Expert(111B参数/Expert) Self-Attention层是55B的共享参数 ContextWindow,最初是8K,逐步精调至32K [1]GLaM:EfficientScalingofLanguageModelswithMixture-of-Experts [2]SwitchTransformers:ScalingtoTrillionParameterModelswithSimpleandEfficientSparsity [3]LifelongLanguagePretrainingwithDistribution-SpecializedExperts [4]https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/ 模型容量/效果 模型参数量越大效果越好 相同激活参数量,MoE更好 训练/推理成本 成本低,e.g.,GLaM[1]训练成本相当于GPT-3的1/3,推理成本相当于GPT-3的1/2,但效果超过GPT-3 终身学习 各类数据,知识和特征分布不同,容易出现知识干扰和遗忘 Dense模型数据的配比挑战很大,配比小的数据很难表现较好 显存需求大 算力规模大 网络通信量大 模型结构 参数规模 模型状态显存需求 激活值显存需求(Bs=1,Seq=4 k) 预估模型状态存储最少卡数(A100-40G) Bert 0.33B 5.94G 0.22G 1张 LLaMA 70B 1260G 5G 32张 GPT3 176B 3168G 7.64G 80张 GPT4 1800B 32400G 10.81G 810张 模型结构 参数规模 通信量(梯度) TP通信BS=64/Seq=4K BERT 0.33B 0.66G - LLAMA 70B 140G 1374.39G GPT3 176B 352G 2104.54G GPT4 1800B 3600G 2768.24G 2大模型训练框架AngelPTM 8 大模型训练推理面临双重挑战 ç 参数多计算量大 万亿ç参数 1.6E24Flops 突破低端卡限制,性能达到业界领先 ç GPU算力受限 H1ç00 A100 H200 A800 H800 H20 腾讯Angel机器学习平台 开源框架为高端GPU卡设计 高性能 产出混元万亿参数模型,训练性能是业界开源框架的2.6倍,推理性能是业界2.3倍 大规模单个训练任务突破万卡规模,达到99%线ç性加速比,并实现万卡长稳训练 低成本 GPU利用率MFU指标突破62%,业界领先(字节55%),训练成本下降60%,推理成本下降70% 训练产出混元万亿MoE模型 业 务云上输出 应 用框架协同多个Oteam 400+业务精调,服务调用量2.3亿 2023年中国电子学会科技进步一等奖,腾讯首次 VLDB、SIGMOD、EMNLP3篇国际顶会论文,VLDB最佳论文 12项发明专利,多篇媒体报道 影 ç ç响 力 9 云帆文生图 AI大模型基础设施 GPU显存与系统内存统一编址,统一视角管理,扩大了显存可存储模型的容量 基于定长内存Chunk段的内存管理,定长申请复用,避免频繁申请释放 模型存储容量提升90%,同时,使得24G/40G低配GPU卡也可 训练大模型,突破了高端算力限制,目前已基于40G显存低配卡训练出腾讯混元千亿大模型、24G低配卡实现模型精调; 效果:1T内存+40G显存可训练60B模型;2T内存+80G显存最大可训练120B模型 w0 w1 w2 w3 w0 w1 w2 w3 Allreduce + w1,0w1,1w1,2w1,3 w0,0w0,1w0,2w0,3 AngelPTM:多维并行加速训练效率 AllReduce AllGather/ReduceScatter Send/Recv Tensor+SequenceParallel Allgather/ReduceScatter w3 w2 w1 w0 w3 w2 w1 w0 w1,2w1,3 w0,0w0,1 1D并行 2D并行 3D并行 (数据并行) (数据并行+张量并行) (数据并行+张量并行+流水并行) 数据并行度:12 数据并行度:4 数据并行度:2 张量并行度:3 张量并行度:3流水并行度:2 数据并行:提高数据吞吐 张量并行:引入通信,多卡分担显存压力 流水并行:流水线提高并行效率,P2P低通信量 序列并行:LayerNorm和Dropout的计算和激活值被平摊到各个设备,减少冗余计算和显存开销 计算通信Overlap,多流异步解决机间通信效率 挑战:在多维并行策略中,需避免计算、通信操作串行,以及采用低精度更少字节数,进一步降低网络通信量 计算与通信异步流水线 FP8低精度量化通信 降低一倍 BF16通信量FP8通信量 •Router选择 •ExpertChoice •Top-1,2 •MoE并行策略 •ExpertParallel+DataParallel(EP+DP) •支持Dense部分采用TensorParallel+SequenceParallel(TP+SP) •支持Expert部分采用TensorParallel+SequenceParallel(TP+SP) •支持PipelineParallel(PP) •MoE通信优化 •通过ExpertSequenceParallel减少ExpertTensorParallel带来的冗余通信 •All2all通信计算overlap 精度无损,增加GPU卡量,contextwindows理论上支持无限大 固定GPU的情况下,如果要继续增大contextwindows,需要降低单卡的显存压力,可以通过激活值offload优化显存 可增加卡的情况下,通信压力会上升,可对通信计算overlap进行优化 精度无损,contextwindows长度受限于GPU卡数量,支持 窗口长度和RingAttention一致。 针对decoder-only模型优化计算负载不均衡。 STAGE2 FIRSTSTAGE LASTSTAGE STAGE3 … Stage均衡化划分+计算换显存 显存占用大显存占用大 计算量大 STAGE2 EMBEDDINGSTAGEMODEL FIRSTSTAGE LASTSTAGE STAGE3 … 部分layer重计算 PARALLEL 大模型训练效率对比 腾讯自研大模型 训练框架AngelTPM 业界传统大模型 Benchmark训练方案 15.2天 40天 3大模型超大规模集群训练优化和实践 1 9 训练性能能否线性扩展?实现大规模训练性能的Scalelaw,即随着卡数增加训练性能线性增加 大规模训练通信压力大有效带宽低、带宽利用不均衡带宽利用率低 大模型训练BatchSize扩大是否有特定的Scalelaw,即BatchSize的增大不影响模型效果 大规模训练故障频繁,持续长时间稳定训练如何保障? GPU卡硬件故障导致训练中断 训练速度异常 训练卡顿 GPU卡精度异常 突破NLP4MBatchSize限制,持续提高算力利用率 简单的BatchSize增大会导致模型效果变差 利用BatchSize和Lr的ScalingLaw突破大BatchSize影响模型效果的挑战,提高大模型训练GPU利用率[1] [1]https://arxiv.org/pdf/2405.14578 大规模训练网络通信挑战: 1.网络通信随着卡数增加通信带宽衰减 2.单个集群多个任务同时运行,每个任务分配GPU不全满足集群亲和性 3.随着模型增大,通信量增加,通信耗时增加 GPU拓扑感知路由,全链路零丢包 优选前通信路径 优选后通信路径 负载均衡技术和通讯库优化,带宽利用率提升3倍 3D并行机制网络亲和性优化,TP以及DP走最优网络路径,PP通信次之, 保证通信效率,通信带宽达到有效带宽80% 360全方位监控 多团队保障提前预警故障,问题机器实时提🎧,快速恢复训练 自动续训机制保障任务快速恢复,减少中断耗时 万卡加速比99%,线性扩展任务稳定性99.5% Thanks 2 6