热门搜索：

2024腾讯AngelPTM大模型训练框架优化与实践支撑混元大模型训练的训练框架

信息技术2024-06-01薛金宝腾讯陈***

AI智能总结

报告总结如下：

大模型发展趋势与挑战

参数规模与数据关系：大模型参数规模呈指数级增长，5年内增长100万倍至万亿量级，得益于Scaling Law理论，即数据量和模型规模越大，模型学习能力越强，效果越好。
模态变化：从单一模态向多模态发展，包括文本生成、图像生成、视频生成等，未来可能向全模态发展。
模型结构：引入MoE（Mixture of Experts）和更长上下文窗口，如GLaM、Switch Transformers等，以减少计算资源消耗，提高模型性能。

大模型训练框架：AngelPTM

高性能：AngelPTM是腾讯自主研发的大模型训练框架，相比业界开源框架，其训练性能提升2.6倍，推理性能提升2.3倍。
存储优化：通过ZeROCache技术，模型存储容量提升90%，支持低配置GPU卡（24G/40G显存）训练大型模型。
并行优化：实现1D、2D、3D并行加速，结合数据并行、张量并行、流水并行，提高训练效率。
大规模训练：AngelPTM支持万亿参数模型训练，训练性能线性扩展，GPU利用率最高达62%，显著降低训练成本。

超大规模集群训练优化

大规模通信优化：采用GPU通信拓扑感知和软硬件协同优化，提升通信效率，带宽利用率提升3倍。
稳定性优化：实施全方位监控，自动续训机制确保任务快速恢复，多团队协作预防和快速处理故障。

成果与应用

AngelPTM支撑了腾讯混元模型的训练，以及公司内部600多个业务的模型训练。

通过上述优化，AngelPTM大幅提升了大模型训练的效率、稳定性和成本效益，实现了从模型设计到实际应用的全面优化。

2024腾讯AngelPTM大模型训练框架优化与实践支撑混元大模型训练的训练框架

空白演示 Loremipsumdolorsitamet,consecteturadipisicingelit. 腾讯AngelPTM大模型训练框架优化与实践支撑混元大模型训练的训练框架薛金宝2024.6 1大模型发展趋势和训练面临的挑战 3 模型参数规模指数级增长 •生成式大模型突飞猛进，5年时间，模型参数规模增长100万倍，达到万亿量级 •ScalingLaw[1]：数据越多、模型越大，模型学习能力越强，模型效果越好 [1]OpenAI“ScalingLawsforNeuralLanguageModels”,https://arxiv.org/abs/2001.08361,2020 文生文文生图文生视频多模态全模态 ChatGPTLlama3 StableDiffusionDiT SoraSTDiT GPT4V Gemini GPT5 Expert1 Expert2 …Expert16 FFN层门控模块 Self-Attention层（共享参数） Decoder-Only 120层 总参量：~1.8T 训练数据：~13TTokens 激活2个Expert(111B参数/Expert) Self-Attention层是55B的共享参数 ContextWindow，最初是8K，逐步精调至32K [1]GLaM:EfficientScalingofLanguageModelswithMixture-of-Experts [2]SwitchTransformers:ScalingtoTrillionParameterModelswithSimpleandEfficientSparsity [3]LifelongLanguagePretrainingwithDistribution-SpecializedExperts [4]https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/ 模型容量/效果 模型参数量越大效果越好 相同激活参数量，MoE更好 训练/推理成本 成本低，e.g.,GLaM[1]训练成本相当于GPT-3的1/3，推理成本相当于GPT-3的1/2，但效果超过GPT-3 终身学习 各类数据，知识和特征分布不同，容易出现知识干扰和遗忘 Dense模型数据的配比挑战很大，配比小的数据很难表现较好显存需求大算力规模大网络通信量大模型结构参数规模模型状态显存需求激活值显存需求(Bs=1,Seq=4 k) 预估模型状态存储最少卡数（A100-40G） Bert 0.33B 5.94G 0.22G 1张 LLaMA 70B 1260G 5G 32张 GPT3 176B 3168G 7.64G 80张 GPT4 1800B 32400G 10.81G 810张模型结构参数规模通信量(梯度) TP通信BS=64/Seq=4K BERT 0.33B 0.66G - LLAMA 70B 140G 1374.39G GPT3 176B 352G 2104.54G GPT4 1800B 3600G 2768.24G 2大模型训练框架AngelPTM 8 大模型训练推理面临双重挑战 ç 参数多计算量大万亿ç参数 1.6E24Flops 突破低端卡限制，性能达到业界领先 ç GPU算力受限 H1ç00 A100 H200 A800 H800 H20 腾讯Angel机器学习平台开源框架为高端GPU卡设计高性能产出混元万亿参数模型，训练性能是业界开源框架的2.6倍，推理性能是业界2.3倍大规模单个训练任务突破万卡规模，达到99%线ç性加速比，并实现万卡长稳训练低成本 GPU利用率MFU指标突破62%，业界领先(字节55%），训练成本下降60%，推理成本下降70% 训练产出混元万亿MoE模型业务云上输出应用框架协同多个Oteam 400+业务精调，服务调用量2.3亿 2023年中国电子学会科技进步一等奖，腾讯首次 VLDB、SIGMOD、EMNLP3篇国际顶会论文，VLDB最佳论文 12项发明专利，多篇媒体报道影 ç ç响力 9 云帆文生图 AI大模型基础设施 GPU显存与系统内存统一编址，统一视角管理，扩大了显存可存储模型的容量 基于定长内存Chunk段的内存管理，定长申请复用，避免频繁申请释放模型存储容量提升90%，同时，使得24G/40G低配GPU卡也可训练大模型，突破了高端算力限制，目前已基于40G显存低配卡训练出腾讯混元千亿大模型、24G低配卡实现模型精调；效果：1T内存+40G显存可训练60B模型；2T内存+80G显存最大可训练120B模型 w0 w1 w2 w3 w0 w1 w2 w3 Allreduce + w1,0w1,1w1,2w1,3 w0,0w0,1w0,2w0,3 AngelPTM：多维并行加速训练效率 AllReduce AllGather/ReduceScatter Send/Recv Tensor+SequenceParallel Allgather/ReduceScatter w3 w2 w1 w0 w3 w2 w1 w0 w1,2w1,3 w0,0w0,1 1D并行 2D并行 3D并行（数据并行）（数据并行+张量并行）（数据并行+张量并行+流水并行）数据并行度：12 数据并行度：4 数据并行度：2 张量并行度：3 张量并行度：3流水并行度：2 数据并行：提高数据吞吐张量并行：引入通信，多卡分担显存压力流水并行：流水线提高并行效率，P2P低通信量序列并行：LayerNorm和Dropout的计算和激活值被平摊到各个设备，减少冗余计算和显存开销计算通信Overlap，多流异步解决机间通信效率挑战：在多维并行策略中，需避免计算、通信操作串行，以及采用低精度更少字节数，进一步降低网络通信量计算与通信异步流水线 FP8低精度量化通信降低一倍 BF16通信量FP8通信量 •Router选择 •ExpertChoice •Top-1，2 •MoE并行策略 •ExpertParallel+DataParallel（EP+DP） •支持Dense部分采用TensorParallel+SequenceParallel（TP+SP） •支持Expert部分采用TensorParallel+SequenceParallel（TP+SP） •支持PipelineParallel（PP） •MoE通信优化 •通过ExpertSequenceParallel减少ExpertTensorParallel带来的冗余通信 •All2all通信计算overlap 精度无损，增加GPU卡量，contextwindows理论上支持无限大 固定GPU的情况下，如果要继续增大contextwindows，需要降低单卡的显存压力，可以通过激活值offload优化显存 可增加卡的情况下，通信压力会上升，可对通信计算overlap进行优化 精度无损，contextwindows长度受限于GPU卡数量，支持窗口长度和RingAttention一致。 针对decoder-only模型优化计算负载不均衡。 STAGE2 FIRSTSTAGE LASTSTAGE STAGE3 … Stage均衡化划分+计算换显存显存占用大显存占用大计算量大 STAGE2 EMBEDDINGSTAGEMODEL FIRSTSTAGE LASTSTAGE STAGE3 … 部分layer重计算 PARALLEL 大模型训练效率对比腾讯自研大模型训练框架AngelTPM 业界传统大模型 Benchmark训练方案 15.2天 40天 3大模型超大规模集群训练优化和实践 1 9 训练性能能否线性扩展？实现大规模训练性能的Scalelaw，即随着卡数增加训练性能线性增加 大规模训练通信压力大有效带宽低、带宽利用不均衡带宽利用率低 大模型训练BatchSize扩大是否有特定的Scalelaw，即BatchSize的增大不影响模型效果 大规模训练故障频繁，持续长时间稳定训练如何保障？ GPU卡硬件故障导致训练中断 训练速度异常 训练卡顿 GPU卡精度异常突破NLP4MBatchSize限制，持续提高算力利用率简单的BatchSize增大会导致模型效果变差利用BatchSize和Lr的ScalingLaw突破大BatchSize影响模型效果的挑战，提高大模型训练GPU利用率[1] [1]https://arxiv.org/pdf/2405.14578 大规模训练网络通信挑战： 1.网络通信随着卡数增加通信带宽衰减 2.单个集群多个任务同时运行，每个任务分配GPU不全满足集群亲和性 3.随着模型增大，通信量增加，通信耗时增加 GPU拓扑感知路由，全链路零丢包优选前通信路径优选后通信路径负载均衡技术和通讯库优化，带宽利用率提升3倍 3D并行机制网络亲和性优化，TP以及DP走最优网络路径，PP通信次之，保证通信效率，通信带宽达到有效带宽80% 360全方位监控多团队保障提前预警故障，问题机器实时提🎧，快速恢复训练自动续训机制保障任务快速恢复，减少中断耗时万卡加速比99%，线性扩展任务稳定性99.5% Thanks 2 6

点击免费查看完整报告

你可能感兴趣

2024腾讯AngelPTM大模型训练框架优化与实践支撑混元大模型训练的训练框架

你可能感兴趣

2024腾讯云安灯AI大模型应用实践与探索

互联网电商行业海外研究：Arm提交IPO申请，腾讯发布混元大模型

传媒互联网行业周报：基于混元大模型腾讯元宝上线，首个未成年游戏退费标准意见稿发布

点评：腾讯发布新一代混元Turbo大模型，驱动智能化、融合创新及国际化

轻松打造全场景AIGC应用，把握企业创新增长新机遇——腾讯混元大模型专场