热门搜索：

胡晓光-飞桨框架技术创新之路

国防军工2024-07-05ArchSummit深圳2024|全球架构师峰会s***

AI智能总结

飞桨框架技术创新之路

一、深度学习框架核心功能

易用的开发接口
- 数据抽象：Tensor
- 操作抽象：Operator
- Python，Numpy
- 避免了底层硬件开发接口，如Cuda C, cuDNN, cuBlas等
自动微分功能
- 只需编写神经网络前向过程，自动计算损失关于参数的梯度
- 支持高阶自动微分和前向自动微分
多硬件支持
- 隔离硬件差异，如Cuda C, oneAPI, XTDK, BangC等
- 充分发挥硬件性能
分布式计算
- 合理安排计算、访存、通信等操作
可扩展性
- 支持硬件后端、算子、Pass、Dialect等

二、模型和框架代码规模对比

模型代码规模（推理）
- Llama3: 2千行
- StableDiffusion: 1.8万行
- AlphaFold: 2.4万行
框架代码规模
- TensorFlow: 420万行（去三方库）
- PyTorch: 298万行
- PaddlePaddle: 307万行

三、自动微分功能

深度学习框架发展历程
- Theano (2008)
- TensorFlow (2015)
- Caffe (2013)
- PyTorch (2016)
动静统一
- PaddlePaddle 开源 (2016)
- 大规模分布式训练
自动并行
- 融合两种开发模式
- 灵活和效率的平衡

四、动静统一和自动并行

动静统一
- 静态图模式
- 动态图模式
- 自动并行
自动并行
- 张量切分
- 策略寻优
- 自动微分

五、高阶自动微分

示例代码

def foo(x):
    y = conv2d(x, ...)
    z = batch_norm(y, ...)
    return relu(z)

六、动静转换技术

Python语法支持率
- 飞桨: 94%
- PyTorch: 59%
动静转换成功率
- 飞桨: 95%
- PyTorch: 62%

七、高性能编译计算

算子库
- CINN
- 基础算子
- 神经网络编译器
张量表示
- Tensor
- 数学计算
- 组网优化
- 存储管理

八、大模型技术发展趋势

RWKV
- 使用RNN网络达到Transformer效果
Mamba
- 线性时间序列建模
Switch Transformers
- 高效稀疏模型

九、硬件适配与优化

计算量 vs 摩尔定律
- 参数量 vs 显存
- 计算量、参数量增长迅速
- 多节点分布式/并行计算
显存优化策略
- 分裂模型
- 降低单卡显存占用
- 拆分mini-batch
- 混合精度训练

十、分布式技术架构

手动并行
- 手动管理张量切分和通信
自动并行
- 框架自动推导张量切分和通信
半自动并行
- 用户添加少量分布式标记信息
全自动并行
- 无需用户添加分布式标记信息

十一、混合并行策略

不同模型、不同规模、不同设备
- 需要不同的策略
混合并行代码开发
- 大幅简化

十二、动静统一自动并行架构

统一分布式标记
自动切分推导
动静统一
参数自动转换

十三、科学计算模型优化

飞桨AI for Science
- 开源工具链
- 支持可变形状输入

飞桨框架技术创新之路百度杰出架构师/胡晓光目录飞桨框架总体设计动静统一自动并行飞桨框架关键技术应用层NewBing Midjourney 百度新搜索…… 模型层 Gemini ChatGPT…… 框架层…… 芯片层 TPU…… 易用的开发接口 •数据抽象：Tensor •操作抽象：Operator •Python，Numpy •避免了解硬件底层开发接口，如CudaC,cuDNN,cuBlas等 自动微分功能 •只需要写神经网络的前向，通过链式法则自动计算Loss关于参数的梯度 •高阶自动微分 •前向自动微分 多硬件 •隔离硬件差异，如CudaC,oneAPI,XTDK,BangC等等 •充分发挥硬件性能 分布式，合理排布计算、访存、通信等操作 可扩展，如硬件后端、算子、Pass、Dialect等 •让深度学习技术的创新与应用更简单模型代码规模 Llama3(推理) 2千行 StableDiffusion 1.8万行 AlphaFold 2.4万行框架代码规模 Tensorflow(去三方库) 420万行 PyTorch 298万行 PaddlePaddle 307万行 https://github.com/meta-llama/llama3https://github.com/Stability-AI/stablediffusionhttps://github.com/google-deepmind/alphafold统计于2024年6月6日 https://github.com/tensorflow/tensorflowhttps://github.com/pytorch/pytorchhttps://github.com/PaddlePaddle/Paddle PaddlePaddle开源 LEarning) (PArallelDistributedDeep 飞桨2.0发布飞桨3.0Beta待发布静态图模式分布式训练动静统一千亿模型混合并行 +Compile +shard_tensor Theano开源于2008 Caffe开源 TensorFlow开源静态图模式 PyTorchv0.1发布动态图模式 TensorFlowv2.0 +Eager模式 PyTorchv1.3 飞桨CINN探索 Compiler PyTorchv2.0 +Compile 符号微分 Layer Operator 更小的复用粒度 +Graph模式融合两种开发模式灵活和效率的平衡大规模分布式极致性能优化 2006 2012 2016 2019 2023 DeepBeliefNets 图像、语音应用自然语言处理Transformer 预训练模型科学计算、生物计算等大语言模型、多模态模型学术创新科技企业参与大规模产业应用大模型时代 SelectiveStateSpaces RWKV使用RNN网络达到跟Transformer可比的效果Mamba:Linear-TimeSequenceModelingwith SwitchTransformers:ScalingtoTrillionParameterModelswithSimpleandEfficientSparsity https://openai.com/research/video-generation-models-as-world-simulators 2021年DeepMind公司提出AlphaFold2模型突破生物学家50年未解蛋白质结构预测难题 2022年英伟达&西门子基于AI和物理的风电场数字孪生以比传统方法快4,000倍 2023年DeepMind公司提出GraphCast气象模型90%气象要素预测精度领先权威气象台 2024年普林斯顿团队用AI提前300毫秒预测核聚变等离子不稳定态硬件飞桨框架产业落地 AI技术发展开发者开发体验：动静统一、训推一体、自动并行 MoE、多模态AIforScience 训、压、推全流程极致性能：广泛硬件适配、软硬一体协同优化模型层 … 语音计算机视觉科学计算多模态模型大语言模型 • • 自动微分反向微分高阶微分 • • 分布式并行策略集合通信 • • 自动并行张量切分策略寻优 • • 组合算子前向规则反向规则 • • 动转静 AST代码转写字节码模拟设备抽象 PHI算子库神经网络编译器CINN 适配层参数自动调优代码自动生成基础算子算子内核计算流管理存储管理算子自动融合动态形状推导算子定义 Tensor定义分布式通信设备运行时执行层内存/显存管理优化静态图新执行器动态图执行引擎表示层 PaddleIR Pass Dialect Operation SSAGraph语义 Program语义接口层 … 分布式自动微分优化器组网数学计算张量表示芯片层 … 寒武纪MLU 昇腾NPU 海光DCU 昆仑XPU 英伟达GPU 大模型自动并行 IR等基础架构统一高性能编译计算多硬件算子库动态执行引擎 CINN编译器推理部署执行器 Pas 组合算子 PIR 自动微分静态图（含自动并行）动转静动态图 (含自动并行) 动静统一、训推一体广泛硬件适配自动并行高阶自动微分动转静拆解对接动态图静态图框架基础算子编译器 x - Mean(x) x return ReLU BatchNorm Conv2d x Conv w bias deffoo(x): y=conv2d(x,…)z= batch_norm(y,…)returnrelu(z) + return Max(x,0) Std(x) 动态图动转静新IR自动微分自动并行组合算子编译器执行器像写单机代码一样写大规模分布式程序，通过自动并行、自动微分、编译优化等技术，实现极致性能和广泛硬件适配目录飞桨框架总体设计动静统一自动并行飞桨框架关键技术切换到静态图模式动静统一的组网创建计算图（编译期）每次执行都动态创建计算图每次执行相同的计算图（执行期）静态图动态图 to_static 一行命令转换成静态图飞桨动转静Python语法支持率94%，领先PyTorch的59%飞桨模型整图导出成功率95%，领先PyTorch的62% 通过比较官网文档说明的Python语法34项，以上展示部分语法自适应图构建机制 opop op 升级 Subgraph opop op •解决深度学习模型下Python语言与框架IR之间差异性，实现转静训练100%的成功率，极致化用户体验 •拓宽接入AI编译器的路径，解锁更多转静加速能力 op动转静终止 op Subgraph op op 自适应图构建静态图中间表示运行时先组网后执行、依赖执行器、全局视野张量+算子=计算图，即IR中间表示执行器硬件设备推理部署模型训练仅是深度学习任务链条的一环，更重要地是结合业务落地，部署推理，开放给用户使用性能优化 IR中包含了计算图的全局信息，如上下游算子的邻接关系等，更有利于进行图优化推理计算图常量折叠算子融合张量inplace 三段式Pass开发范式，让开发者更聚焦于Pass逻辑的处理，无需关心底层IR的细节 SourcePattern Pass样例：移除冗余连续的Cast计算 ResultPattern DRR应用广泛，在算子Fuse融合类Pass开发上，简洁易用，有效降低60%的开发成本 FlashAtten算子融合Pass Conv2d+Add+Act算子融合Pass 高扩展性IR 支撑大模型性能极致优化 70.00% 60.00% 统计超过900个模型配置PIR升级推理速度提升分布 58.98% 功能完善的Pass体系 PatternRewriter DRR 25.22% 10.23% 4.81% 1.76% 50.00% 多层级的Dialect ShapeDialect ControlFlowDialect CINNDialect KernelDialect OperatorDialect DistributedDialect 40.00% 30.00% 20.00% 10.00% 灵活的基础组件 Interface Trait Type Attribute Value Operation 0.00% 提升30%+ 提升10% 下降10%下降30%持平 通过使用PIR，Pass开发成本降低60%，推理性能提升超过10% •提前静态选Kernel策略，调度更加轻量高效 •常量折叠Pass适用范围更广、执行速度更快 •InplacePass适用范围更广、支持更多算子计算量、参数量增长大幅超越AI芯片算力、显存增长速度多节点分布式/并行计算带宽瓶颈计算量vs摩尔定律参数量vs显存算力vs带宽以NVIDIA近年代表性GPU发展为例 GPU型号发布时间 TensorPerformance 显存大小机内互联带宽 A100 2020 312TFLOPS(FP16/BF16) 80GB 600GB/s H100 2022 1000TFLOPS(FP16/BF16) 80/94GB 900GB/s B200 2024 2250TFLOPS(FP16/BF16) 192GB 1800GB/s 图片引自：https://arxiv.org/pdf/2005.14165.pdfhttps://medium.com/riselab/ai-and-memory-wall-2cb4265cb0b8 单设备训练太慢多设备摊分数据并行训练多设备优化 “训得快” 面临问题解决思路技术方案 FP32显存占用过高BatchSize=1都跑不起来进一步提高BatchSize 降低单卡显存占用 “可训练” 显存占用过高，导致单卡无法放下整个模型多设备摊分显存使用更低精度训练提前释放Activation节省显存拆分mini-batch，多次计算前反向，一次参数更新模型状态切分算子内部切分层间切分参数切片并行张量并行流水线并行数据并行单设备优化混合精度训练重计算梯度累加如何实现高效的混合并行策略以应对大模型的发展？ •不同模型、不同规模、不同设备可能需要使用不同的策略解决方案 •手动并行：手动管理张量切分和通信，不同并行策略使用不同的API •自动并行：框架自动推导张量切分和通信，用统一API表示不同并行策略 •半自动并行：需要用户添加少量分布式标记信息，框架推导剩余算子和张量的分布式信息 •全自动并行：不需要用户添加分布式标记信息，框架自动推导所有算子和张量的分布式信息手动并行到自动并行的架构演进动态图手动并行动静统一半自动并行动态图半自动并行动转静静态图半自动并行全自动并行 • 对于百亿甚至千亿规模的大模型，一般需要使用TP+PP+DP/Sharding的混合并行方式进行训练初始化分布式环境修改TP组网修改PP组网构造分布式model和optimizer运行模型训练如何用一种方式统一表达各种并行策略？如何表示张量在多卡设备的分布状态以及不同的并行策略？ •ProcessMesh每个设备映射一个进程，用进程mesh来表示设备资源 •Placement张量在不同设备的分布（切分）状态 •Replicate:复制的 •Shard(n):dim-n切分的 •Partial:不完整的，需要规约 •sum,mean… Data0 GPU0 GPU1 Data0 GPU4 GPU5 Data1 GPU2 GPU3 Data1 GPU6 GPU7 mesh0/stage0 m

点击免费查看完整报告