热门搜索：

驱动未来：面向大模型的智算网络

信息技术2024-09-19陈文智云栖大会洪

AI智能总结

大模型的发展与数据中心网络演进

大模型发展历程

参数规模：从千亿参数的ChatGPT（1750亿）发展到万亿参数的GPT4（约1.8万亿）。
从单模态到多模态：从单一的语言处理扩展到图像、视频、语音、文本等多种模态的交互。

数据中心网络的发展

标准数据中心网络：由互联网驱动，服务器规模超过万台。
超大数据中心网络：由云服务驱动，拥有千万级租户和百万级设备。
大模型智算中心网络：由AI大模型驱动，部署超过10万张计算卡的智算集群。

AI大模型对网络的需求

训练过程中的耗时：通信占比最高可达50%。
长尾时延：导致网络带宽衰减。
带宽需求：在175B大小的模型下，万卡训练可以显著缩短训练时间。

当前网络实现

Scale-Up互连：GPU服务器之间运行流水线并行（PP）/数据并行（DP），同步中间结果/损失值/梯度等数据。
Scale-Out网络：
- 前端网络（通算网络）：负责待训练数据传输和检查点数据传输。
- 后端网络：支持GPU服务器内部GPU卡之间的计算结果同步，主要采用基于PCIe网卡的GPU Direct RDMA。

推理和领域模型的需求

异构算力按需分配：确保计算密集型和存储密集型任务在不同的计算资源上运行。
数据高效互通：包括中间计算结果和输入输出数据的高效传输。

推理和领域模型网络演进方案

超大规模：单卡支持400G-800Gbps带宽，千卡及以上互联。
超大带宽：采用多路径网络技术，支持乱序和保序传输。
低时延：利用RDMA和GDR技术，优化拥塞控制。
持续高可靠：避免PFC死锁和风暴，支持多路径快速切换。

训推一体与算力并池

CPU和GPU间高速互联：不同GPU集群和CPU集群间的高速互联。
统一IP编址：提升网络端口利用率，支持数据高效传输。

高性能协议与数据传输

RDMATCP-X原理对比：传输协议下沉至硬件层，实现零拷贝传输，适用于AI计算、HPC和通用计算。
低时延场景：RDMA和GDR性能较好，但普适性较差，普通Socket TCP即可实现兼容性强的异构通用化组网。

下一代智算网络方案

支持各类协议栈接入：商用RoCEv2、自研RDMA协议及TCP/TCP-X。
解耦/虚拟网络：通过提供一个网络空间，支持数据在各种算力之间高效流转，兼容多种物理网卡。

结语

感谢各位的关注和支持！

驱动未来:面向大模型的智算网络陈文智浙江大学求是特聘教授，博士生导师，信息技术中心主任 2024/09/19 AI大模型与数据中心网络的发展历程大模型的发展历程 •参数规模从千亿到万亿：ChatGPT（1750亿）到GPT4（约1.8万亿） •从单模态到多模态：语言处理->到图像/视频/语音/文字跨模态交互数据中心网络的发展 •标准数据中心网络：互联网驱动，规模超过万台物理服务器 •超大数据中心网络：云服务驱动，千万级租户数量，百万级设备数量 •大模型智算中心网络：AI大模型驱动，部署超过10万张卡的智算集群 AI大模型算力对网络的需求多节点大带宽低长尾时延 175B大小的模型下，万卡训练可以显著缩短训练时间[1] 训练过程中的耗时，通信的占比最高可达50%[2]长尾时延造成网络带宽衰减[3] [1]JiangZ,LinH,ZhongY,etal.MegaScale:Scalinglargelanguagemodeltrainingtomorethan10,000GPUs(NSDI24) [2]QianK,XiY,CaoJ,etal.Alibabahpn:Adatacenternetworkforlargelanguagemodeltraining(SIGCOMM24) [3]LiZ,HuangJ,WangS,etal.AchievingLowLatencyforMultipathTransmissioninRDMABasedDataCenterNetwork(IEEETransactionsonCloudComputing2024) AI大模型当前网络实现 •待训练数据传输 •Checkpoint数据传输前端网络 Scale-Out •GPU服务器内GPU卡之间主要运行MP/TP（模型并行/张量并行）时，同步计算结果 •GPU芯片直出 •GPU服务器之间通常运行PP（流水线并行）/DP（数据并行）策略时，同步中间结果/损失值/梯度等数据 •基于PCIe网卡，GPUdirectRDMA Scale-out网络 Front-end网络（通算网络） GPU … GPU CPU Scale-Up互连 GPU服务器 GPU服务器 CPU服务器 CPU网卡 CPU网卡 GPU 网卡*N CPU网卡 GPU 网卡*N 网络 Scale-Up 互连 AI领域的网络未来如何演进？推理应用和领域模型应用将超越大模型训练的规模大模型从训练走向部署、落地模型推理市场开始兴起 1.头部芯片厂商英伟达2024财年数据中心有40%的收入来自推理业务； 2.国内23年的推理服务器占比约为41.3%，预计27年将达到72.6% 3.推理场景对算力成本和运营成本的诉求远超训练大模型，将直接决定模型训练结果能否走向落地部署数据源于：华福证券《算力专题研究二：从训练到推理：算力芯片需求的华丽转身》领域模型的类型将愈加丰富 1.基础模型的训练主要集中在少数头部厂商，垂直领域的模型加速了广大企业的参与和商业化进程 2.截止2024年7月30日，网信办备案的领域/行业大模型为136款，占大模型总备案数的69% 观止大模型观止大模型起源浙江大学ARClab实验室，开源版本为Openbuddy，并构建了Openbuddy开源社区。观止大模型强化认知能力，提供3B～70B多种模型大小，适用于不同的应用场景和需求。 2024年03月斩获安全顶会NDSS2024杰出论文奖 艾伦人工智能研究所开源模型思维链能力榜单排名第一 Huggingface开源大语言模型榜单排名前列推理和领域模型对网络的需求：异构算力按需分配，数据高效互通任务1 计算密集型算力任务2 GPU Prefill计算 … GPU GPU Prefill计算存储密集型算力 GPU decode计算 … GPU GPU decode计算 CPU算力 … CPU CPU CPU 计算密集型算力 GPU … GPU GPU 存储密集型算力 KVcache传输 GPU… GPU GPU PrefixKVcache传输和热点复制 CPU CPU算力 … CPU CPU 异构算力按需分配需求 •推理和领域模型为了提升计算资源利用率和效率，每个任务计算密集型和存储密集型步骤在不同的计算资源上运行 •异构资源按任务需求分配用户数据高效互通 •异构GPU之间，CPU跟GPU/CPU之间需要高性能网络传输中间计算结果 •CPU跟用户之间需要高性能网络传输输入和输出数据推理和领域模型网络演进方案：网络融合，支持算力并池灵活调度推理的规模将超过训练 •超大规模：单卡400G-800Gbps/GPU，千卡无收敛，万卡/十万卡互联 •超大带宽：多路径网络技术，乱序/保序 •低时延：RDMA&GDR，拥塞控制 •持续高可靠：杜绝PFC死锁/风暴，多路径快速切换 •训推一体，算力并池：CPU和GPU间高速互联，不同GPU集群高速互联，CPU跟CPU之间高速互联 •一张网设计：统一IP编址，提升网络端口利用率推理和领域模型场景网络演进方案：高性能协议，支持数据高效传输 RDMATCP-X 原理对比适用场景传输协议下沉硬件， Bypasskernel和零拷贝 •AI计算 •HPC 硬件实现TCP包头-负载的分离、合并，负载零拷贝 •AI异构加速计算 •HPC •通用计算低时延场景 DGR性能较好弱于RDMA •存储数据库普适性多种协议难以统一使用普通SocketTCP 即可实现异构、通用化的组网，兼容性强支持多种商用和自研物理网卡，解耦/虚拟网络解耦支持各类协议栈接入商用RoCEv2、自研 RDMA协议以及TCP/TCP-X的接入通过提供一个网络空间，支持数据在各种算力之间高效流转下一代智算网络方案谢谢 ThankYou

点击免费查看完整报告