CAICT HUAWEI中国信通院 OnlyA rpreview 星河AI网络白皮书 XingheNetworkWhitePaper 编制说明 本白皮书在撰写过程中得到了多家单位的大力支持,在此特别感谢以下顾问专家,参 编单位和参编人员。 顾问专家(排名不分先后) 华为数据通信产品线数据中心网络领域总裁:王武伟 中国信息通信研究院云计算与大数据研究所所长:何宝宏 参编单位(排名不分先后) 华为技术有限公司、中国信息通信研究院云计算与大数据研究所 参编人员(排名不分先后) 何宝宏、郭亮、王少鹏、李建高、赵笑可、郑晓龙、温华峰、李经、闫孩、于浩 Onlyforpi Onlyforpreview eW前言 进入数字经济时代以来,算力成为推动各行业数字化转型,赋能经济蓬勃发展的重要 引擎,同时也成为衡量国家综合实力的重要指标之一。随着以ChatGPT、GPT4为代 表的AI大模型的发布,智算需求快速爆发,并迅速掀起了新一轮人工智能技术的发 展浪潮。 近年来,OpenAl的ChatGPT、DeepMind的AlphaGo、华为的盘古等规模达到数 干亿参数的大模型,通过在海量数据上进行预训练,极大地推动了AI语言理解和多模态能力的进步。然而,训练如此复杂的模型需要投入极大的计算资源 随着ChatGPT等Al应用场景的快速增长,业界对更大规模的Al模型训练需求日益 毁切。这对支撑基础训练的数据中心网络的性能提出了新的要求。我们需要提供极致的通信性能、计算能力和稳定性,以支撑万亿级甚至更高规模参数的模型训练。如何通过网络技术突破来满足训练任务的规模、效率需求,已成为一个非常关键的研究方 向。 本白皮书旨在深入分析AI大模型训练对网络的新需求,探索网络技术发展新方向,为构建面向AI大模型的高性能训练网络提供参考。我们将从大模型训练的发展历程和业务需求角度出发,分析网络与其应用之间的差距,并探索如何通过技术创新优化网络,以便更好地服务于大模型训练。 前言 本白皮书的版权归华为和中国信息通信研究院云计算与大数据研究所所有,并受法律 Onlyforprev 保护。转载、摘编或利用其它方式使用本白皮书文字或者观点的,应注明来源。 Onlyforpreview Onlyforpreview 前言 Onlyforpreview 目录 eview 第1章AI发展全面加速,智能未来走深向实1.1算法:迈入万亿参数大模型时代,开启通用人工智能的大门 1.2算力:单卡算力2-3年翻倍,算力集群规模从干卡走向万卡, 1.3数据:数据需求持续增长,对高质量数据需求迫切第2章AI大模型时代到来,网络面临巨大技术革新. 2.1AI大模型并行计算模式,催生超大容量网络10 2.2AI处理器成本高昂,要求减少网络时间,提升有效算力.12 2.3AI大模型训练周期长,需要高可用健壮网络降低MTBF.13 2.4AI大模型云化即AICLOUD,需要面向多租户的云网一体化架构.15 第3章星河AI网络打造AI时代最强运力,以网强算,释放AI生产力.16 3.1高吞吐:端口和网络高吞吐,17 3.2高可靠:故障链路亚毫秒级快速切换22 目录 3.3可运维:通信异常一键诊断24 3.4大规模:超大规模算力集群30 3.5开放性:标准以太RoCE高效开放.33 第4章最佳实践35 4.1武汉人工智能计算中心35 第5章展望.38 第6章术语与缩略词表39 第7章参考文献41 Onlyforprevi Onlyforpreview iv 目录 第1章 AI发展全面加速,智能未来走 previ 深向实 随着ChatGPT引爆国内人工智能(Al,artificialintelligence)市场,行业进入 了生成式人工智能时代,将人工智能深度学习这波高潮推向了顶峰。当前,AI训练 模型正在从万干小模型走向百模干态的大模型时代,AI技术在干行百业中呈现出百模干态的繁荣局面,同时也对网络提出了新的需求。 Onlyforpr 在科技发展的浪潮中,AI的发展由算法、算力和数据三个核心要素决定,算法可以看成是人工智能这艘巨舰的“舵”,而算力和数据则分别是推动人工智能发展的“发动机”和“石油”。 AI发展全面加速,智能未来走深向实 1.1算法:迈入万亿参数大模型时代,开启 通用人工智能的大门 自2017年Google提出Transformer模型[1以来,至今Al大语言模型 (LLM,LargeLanguageModel)已取得了飞速的发展。 模型结构渐收敛到以解码器结构模型为主 当前大语言模型皆是由Transformer模型结构演进而来,Transformer模型由 编码器(Encoder)-解码器(Decoder)结构组成。2018年,Google提出了仅有编码器 (Encoder-only)的BERT模型,随后在2018年~2021年期间,Google、Meta 微软和百度等公司也在BERT基础上提出了改进的编码器模型[2]。然而在2021年之后,编码器结构模型路线几乎停止演进。另一方面,Google和Meta在2019年分 别推出T5(Text-To-TextTransferTransformer)模型和基于编码器-解码器结构的 BART,且Google在过去几年仍持续优化演进T5模型。目前,大语言模型的主战 场主要聚焦在解码器结构模型。随着模型结构发展至今,除了OpenAI公司的GPT 系列模型(包括GPT1、GPT2、GPT3、InstructGPT、ChatGPT3.5和GPT4)外, Google的PaLM系模型、Meta的LLaMa系模型,以及国内华为的盘古(PanGu-Z)、百度的文心一言(ERNIE)等主流模型都采用解码器结构。通常,解码器结构的大语言模型在预训练时,表现出了更好的泛化能力[3] 大模型扩展定律驱动模型规模持续增长 过去6年里,Al大语言模型参数量从Transformer的6500万,增长到GPT4 的1.8万亿,模型规模增长超2万倍,如图1-1所示。 only AI发展全面加速,智能未来走深向实 fo图r1-1p大语r言e模型v参数ie规模w演进 AI大模型规模演进 GPT4 1.8T PanGu-Z1.08T Megatron-Turing 530B GPT3 TransformerGPT1BERTGPT2T5Turing-NLG175B 65M117M340M1.5B11B17B 2017201720182019201920202020202120222023 根据Al大模型的扩展定律(Scalinglaw)[4],增大模型的参数规模、训练数据 集,投入更多的算力,就能持续提升大模型性能。此外,Google的研究[5]表明Al大 模型表现出一种无法预测和解释的现象一一涌现能力。所谓涌现能力就是由大模型的量变,即更大的参数规模、更多的训练样本以及更高的算力供给,引发的质变,使得AI大模型在解决通用问题上表现出非常优异的性能。正是扩展定律和涌现能力,驱动着AI大模型规模的持续增大。随着GPT4、盘古等万亿模型的发布,也正式标志 着,AI大模型进入了万亿模型时代。但与此同时,AI大模型的持续扩展开始面临着模型规模提升带来的收益递减的挑战。 多模态模型开启通用人工智能大门 OpenAl在GPT4模型中引入了多模态处理能力,能同时处理文本、图像、视频 等多元化数据。多模态处理能力可以对不同呈现形式的信息进行融合理解,进一步提 升AI大模型的学习能力,帮助A从多维度更好的理解真实的物理世界,对于通用人 工智能的实现有着重要的作用。目前文本、音频、图像等单模态大语言模型已经相对 AI发展全面加速,智能未来走深向实 成熟,大模型正加速朝着多模态模型的方向发展。从VisionTransformer的提出 再到GPT4的图文处理能力,多模态模型取得了明显的进步,如图1-2所示。 图1-2多模态模型演进 大模型阶段 图像生成 20202022 Stablediffusion Diffusionmodel 20202021DALL-E多模态阶段 VisiontransformerCLIP Midjourney2023 Kosmos TransformerGPTGPT2GPT3ChatGPTGPT4 文字生成PaLM-E 为进一步提升多模态模型的效率,模型通常采用混合专家并行(MoE,MixtureofExperts)架构,可以简单的理解为用不同的专家去学习、理解和处理不同模态的 信息,从而整体实现多模态信息的融合处理。但是研究表明,在多任务处理中,更多的专家模型存在难以泛化的问题,也更难收敛。 因此,尽管GPT4模型的多模态能力有了长足的进步,但是多模态模型的发展仍处于起步阶段,面临着较大的挑战。 1.2算力:单卡算力2-3年翻倍,算力集群 规模从干卡走向万卡 AI模型参数量的持续增大带来算力需求的指数级增长,如图1-3所示。2012年至2019年AI训练算力平均每100天翻倍。而GPU的单卡算力则需要2-3年增长 一倍,由此可见,单卡算力的发展速度远远落后于模型发展的算力需求。 AI发展全面加速,智能未来走深向实 图1-3算力需求演进 liew Pflops-day 感知认知生成 GPTA 1e+4 1e+3 1e+2 Only NeuralMachine Translation AlphaGoZero AlphaZero aChatGPT 数十万倍 0GPT-3算力需求 1e+1 T17Dota1v1数干倍 previe 1e+0Xception差距 1e-1Visualizing and Understanding VGG Seq2Seq ,DeepSpeech2"ResNets 1e-2 ConvNets 百倍级 1e-3 AlexNet,GoogleNetAI算力增长 1e-4 201220132014201520162017201820192020202120222023 近年来,随着各行各业都投入到AI大模型的研发中来,AI智算的算力规模增长 迅猛。据IDC(lnternationalDataCorporation)预测,到2o23年中国的智能算 力规模将达到427.0EFLOPS,超过通用算力规模,预计到2026年,智能算力规模 将进入ZFLOPS级别,达到1,271.4EFLOPS,如图1-4所示。 Onlyfor AI发展全面加速,智能未来走深向实 1400 1200 图1-4中国算力规模演进 中国智能算力规模及预测 forp Tew 1271.4 1000922.8 800 640.7 600 400268 427 200 31.7 155.2 75 百亿亿次浮点运算/秒(EFLOPS) 0 20192020202120222023E2024E2025E2026E 数据来源:未来智库 为了满足高速增长的算力需求,AI大模型厂商都在加速建设大规模的GPU卡集 群。Nvidia、斯坦福大学和微软的联合研究[7表明,训练AI大模型所需的GPU卡 数,由模型参数量、样本数、GPU卡的峰值算力、GPU卡的利用率以及预期的训练时长决定。具体而言,存在如下的近似量化关系: 8×模型参数量×样本数 需要的GPU卡数=预期的训练时长×GPU卡的峰值算力×GPU卡的利用率 以GPT3为例,模型参数量为1750亿,训练样本数为3000亿,如果GPU的 峰值算力为312T,预期一个月完成模型训练,考虑到业界GPU的平均利用率为 50%左右,则需要的GPU卡数为8×175B×300B/30×24×3600×312T×50%) 1038卡,也就是一个月训练干亿参数的稠密模型需要干卡。随着A/模型进入万亿参数模型时代GPU卡的数量也进一步提高到万卡规模。据[6透露,OpenAl使用 25000张A100GPU训练1.8万亿参数的GPT4。 AI发展全面加速,智能未来走深向实 1.3数据:数据需求持续增长,对高质