驱动未来:面向大模型的智算网络 陈文智 浙江大学求是特聘教授,博士生导师,信息技术中心主任 2024/09/19 AI大模型与数据中心网络的发展历程 大模型的发展历程 •参数规模从千亿到万亿:ChatGPT(1750亿)到GPT4(约1.8万亿) •从单模态到多模态:语言处理->到图像/视频/语音/文字跨模态交互 数据中心网络的发展 •标准数据中心网络:互联网驱动,规模超过万台物理服务器 •超大数据中心网络:云服务驱动,千万级租户数量,百万级设备数量 •大模型智算中心网络:AI大模型驱动,部署超过10万张卡的智算集群 AI大模型算力对网络的需求 多节点大带宽低长尾时延 175B大小的模型下,万卡训练可以显著 缩短训练时间[1] 训练过程中的耗时,通信的占比最高可达50%[2]长尾时延造成网络带宽衰减[3] [1]JiangZ,LinH,ZhongY,etal.MegaScale:Scalinglargelanguagemodeltrainingtomorethan10,000GPUs(NSDI24) [2]QianK,XiY,CaoJ,etal.Alibabahpn:Adatacenternetworkforlargelanguagemodeltraining(SIGCOMM24) [3]LiZ,HuangJ,WangS,etal.AchievingLowLatencyforMultipathTransmissioninRDMABasedDataCenterNetwork(IEEETransactionsonCloudComputing2024) AI大模型当前网络实现 •待训练数据传输 •Checkpoint数据传输 前端网络 Scale-Out •GPU服务器内GPU卡之间主要运行MP/TP(模型并行/张量并行)时,同步计算结果 •GPU芯片直出 •GPU服务器之间通常运行PP(流水线并行)/DP(数据并行)策略时,同步中间结果/损失值/梯度等数据 •基于PCIe网卡,GPUdirectRDMA Scale-out网络 Front-end网络(通算网络) GPU … GPU CPU Scale-Up互连 GPU服务器 GPU服务器 CPU服务器 CPU网 卡 CPU网 卡 GPU 网卡*N CPU网 卡 GPU 网卡*N 网络 Scale-Up 互连 AI领域的网络未来如何演进? 推理应用和领域模型应用将超越大模型训练的规模 大模型从训练走向部署、落地 模型推理市场开始兴起 1.头部芯片厂商英伟达2024财年数据中心有40%的收入来自推理业务; 2.国内23年的推理服务器占比约为41.3%,预计27年将达到72.6% 3.推理场景对算力成本和运营成本的诉求远超训练大模型,将直接决定模型训练结果能否走向落地部署 数据源于:华福证券《算力专题研究二:从训练到推理:算力芯片需求的华丽转身》 领域模型的类型将愈加丰富 1.基础模型的训练主要集中在少数头部厂商,垂直领域的模型加速了广大企业的参与和商业化进程 2.截止2024年7月30日,网信办备案的领域/行业大模型为136款,占大模型总备案数的69% 观止大模型 观止大模型起源浙江大学ARClab实验室,开源版本为Openbuddy,并构建了Openbuddy开源社区。观止大模型强化认知能力,提供3B~70B多种模型大小,适用于不同的应用场景和需求。 2024年03月斩获安全顶会NDSS2024杰出论文奖 艾伦人工智能研究所开源模型思维链能力榜单排名第一 Huggingface开源大语言模型榜单排名前列 推理和领域模型对网络的需求:异构算力按需分配,数据高效互通 任务1 计算密集型算力 任务2 GPU Prefill计算 … GPU GPU Prefill计算 存储密集型算力 GPU decode计算 … GPU GPU decode计算 CPU算力 … CPU CPU CPU 计算密集型算力 GPU … GPU GPU 存储密集型算力 KVcache传输 GPU… GPU GPU PrefixKVcache传输和热点复制 CPU CPU算力 … CPU CPU 异构算力按需分配需求 •推理和领域模型为了提升计算资源利用率和效率,每个任务计算密集型和存储密集型步骤在不同的计算资源上运行 •异构资源按任务需求分配 用户 数据高效互通 •异构GPU之间,CPU跟GPU/CPU之间需要高性能网络传输中间计算结果 •CPU跟用户之间需要高性能网络传输输入和输出数据 推理和领域模型网络演进方案:网络融合,支持算力并池灵活调度 推理的规模将超过训练 •超大规模:单卡400G-800Gbps/GPU,千卡无收敛,万卡/十万卡互联 •超大带宽:多路径网络技术,乱序/保序 •低时延:RDMA&GDR,拥塞控制 •持续高可靠:杜绝PFC死锁/风暴,多路径快速切换 •训推一体,算力并池:CPU和GPU间高速互联,不同GPU集群高速互联,CPU跟CPU之间高速互联 •一张网设计:统一IP编址,提升网络端口利用率 推理和领域模型场景网络演进方案:高性能协议,支持数据高效传输 RDMATCP-X 原理对比适用场景 传输协议下沉硬件, Bypasskernel和零拷贝 •AI计算 •HPC 硬件实现TCP包头-负 载的分离、合并,负载零拷贝 •AI异构加速计算 •HPC •通用计算低时延场景 DGR性能 较好 弱于RDMA •存储数据库 普适性多种协议难以统一 使用普通SocketTCP 即可实现异构、通用化 的组网,兼容性强 支持多种商用和自研物理网卡,解耦/虚拟网络解耦 支持各类协议栈接入商用RoCEv2、自研 RDMA协议以及TCP/TCP-X的接入 通过提供一个网络空间,支持数据在各种算力之间高效流转 下一代智算网络方案 谢谢 ThankYou