对等关税新质生产力低空经济 DeepSeek AIGC 人形机器人智能驾驶大模型固态电池半导体银发经济

星河AI网络白皮书

信息技术2023-10-18-华为&中国信通院肖***

AI智能总结

本白皮书主要探讨了AI大模型训练对网络的新需求，以及如何通过技术创新优化网络以更好地服务于大模型训练。白皮书从大模型训练的发展历程和业务需求角度出发，分析了网络与其应用之间的差距，并提出了如何通过技术创新优化网络的建议。此外，白皮书还介绍了星河AI网络，该网络旨在打造AI时代最强运力，以网强算，释放AI生产力。白皮书最后还介绍了最佳实践和展望，并列出了术语与缩略词表和参考文献。

CAICT HUAWEI中国信通院 OnlyA rpreview 星河AI网络白皮书 XingheNetworkWhitePaper 编制说明本白皮书在撰写过程中得到了多家单位的大力支持，在此特别感谢以下顾问专家，参编单位和参编人员。顾问专家（排名不分先后）华为数据通信产品线数据中心网络领域总裁：王武伟中国信息通信研究院云计算与大数据研究所所长：何宝宏参编单位（排名不分先后）华为技术有限公司、中国信息通信研究院云计算与大数据研究所参编人员（排名不分先后）何宝宏、郭亮、王少鹏、李建高、赵笑可、郑晓龙、温华峰、李经、闫孩、于浩 Onlyforpi Onlyforpreview eW前言进入数字经济时代以来，算力成为推动各行业数字化转型，赋能经济蓬勃发展的重要引擎，同时也成为衡量国家综合实力的重要指标之一。随着以ChatGPT、GPT4为代表的AI大模型的发布，智算需求快速爆发，并迅速掀起了新一轮人工智能技术的发展浪潮。近年来，OpenAl的ChatGPT、DeepMind的AlphaGo、华为的盘古等规模达到数干亿参数的大模型，通过在海量数据上进行预训练，极大地推动了AI语言理解和多模态能力的进步。然而，训练如此复杂的模型需要投入极大的计算资源随着ChatGPT等Al应用场景的快速增长，业界对更大规模的Al模型训练需求日益毁切。这对支撑基础训练的数据中心网络的性能提出了新的要求。我们需要提供极致的通信性能、计算能力和稳定性，以支撑万亿级甚至更高规模参数的模型训练。如何通过网络技术突破来满足训练任务的规模、效率需求，已成为一个非常关键的研究方向。本白皮书旨在深入分析AI大模型训练对网络的新需求，探索网络技术发展新方向，为构建面向AI大模型的高性能训练网络提供参考。我们将从大模型训练的发展历程和业务需求角度出发，分析网络与其应用之间的差距，并探索如何通过技术创新优化网络，以便更好地服务于大模型训练。前言本白皮书的版权归华为和中国信息通信研究院云计算与大数据研究所所有，并受法律 Onlyforprev 保护。转载、摘编或利用其它方式使用本白皮书文字或者观点的，应注明来源。 Onlyforpreview Onlyforpreview 前言 Onlyforpreview 目录 eview 第1章AI发展全面加速，智能未来走深向实1.1算法：迈入万亿参数大模型时代，开启通用人工智能的大门 1.2算力：单卡算力2-3年翻倍，算力集群规模从干卡走向万卡， 1.3数据：数据需求持续增长，对高质量数据需求迫切第2章AI大模型时代到来，网络面临巨大技术革新. 2.1AI大模型并行计算模式，催生超大容量网络10 2.2AI处理器成本高昂，要求减少网络时间，提升有效算力.12 2.3AI大模型训练周期长，需要高可用健壮网络降低MTBF.13 2.4AI大模型云化即AICLOUD，需要面向多租户的云网一体化架构.15 第3章星河AI网络打造AI时代最强运力，以网强算，释放AI生产力.16 3.1高吞吐：端口和网络高吞吐，17 3.2高可靠：故障链路亚毫秒级快速切换22 目录 3.3可运维：通信异常一键诊断24 3.4大规模：超大规模算力集群30 3.5开放性：标准以太RoCE高效开放.33 第4章最佳实践35 4.1武汉人工智能计算中心35 第5章展望.38 第6章术语与缩略词表39 第7章参考文献41 Onlyforprevi Onlyforpreview iv 目录第1章 AI发展全面加速，智能未来走 previ 深向实随着ChatGPT引爆国内人工智能（Al，artificialintelligence）市场，行业进入了生成式人工智能时代，将人工智能深度学习这波高潮推向了顶峰。当前，AI训练模型正在从万干小模型走向百模干态的大模型时代，AI技术在干行百业中呈现出百模干态的繁荣局面，同时也对网络提出了新的需求。 Onlyforpr 在科技发展的浪潮中，AI的发展由算法、算力和数据三个核心要素决定，算法可以看成是人工智能这艘巨舰的“舵”，而算力和数据则分别是推动人工智能发展的“发动机”和“石油”。 AI发展全面加速，智能未来走深向实 1.1算法：迈入万亿参数大模型时代，开启通用人工智能的大门自2017年Google提出Transformer模型[1以来，至今Al大语言模型 (LLM，LargeLanguageModel）已取得了飞速的发展。模型结构渐收敛到以解码器结构模型为主当前大语言模型皆是由Transformer模型结构演进而来，Transformer模型由编码器(Encoder)-解码器(Decoder)结构组成。2018年，Google提出了仅有编码器（Encoder-only）的BERT模型，随后在2018年~2021年期间，Google、Meta 微软和百度等公司也在BERT基础上提出了改进的编码器模型[2]。然而在2021年之后，编码器结构模型路线几乎停止演进。另一方面，Google和Meta在2019年分别推出T5（Text-To-TextTransferTransformer）模型和基于编码器-解码器结构的 BART，且Google在过去几年仍持续优化演进T5模型。目前，大语言模型的主战场主要聚焦在解码器结构模型。随着模型结构发展至今，除了OpenAI公司的GPT 系列模型（包括GPT1、GPT2、GPT3、InstructGPT、ChatGPT3.5和GPT4）外， Google的PaLM系模型、Meta的LLaMa系模型，以及国内华为的盘古（PanGu-Z）、百度的文心一言（ERNIE）等主流模型都采用解码器结构。通常，解码器结构的大语言模型在预训练时，表现出了更好的泛化能力[3] 大模型扩展定律驱动模型规模持续增长过去6年里，Al大语言模型参数量从Transformer的6500万，增长到GPT4 的1.8万亿，模型规模增长超2万倍，如图1-1所示。 only AI发展全面加速，智能未来走深向实 fo图r1-1p大语r言e模型v参数ie规模w演进 AI大模型规模演进 GPT4 1.8T PanGu-Z1.08T Megatron-Turing 530B GPT3 TransformerGPT1BERTGPT2T5Turing-NLG175B 65M117M340M1.5B11B17B 2017201720182019201920202020202120222023 根据Al大模型的扩展定律（Scalinglaw）[4]，增大模型的参数规模、训练数据集，投入更多的算力，就能持续提升大模型性能。此外，Google的研究[5]表明Al大模型表现出一种无法预测和解释的现象一一涌现能力。所谓涌现能力就是由大模型的量变，即更大的参数规模、更多的训练样本以及更高的算力供给，引发的质变，使得AI大模型在解决通用问题上表现出非常优异的性能。正是扩展定律和涌现能力，驱动着AI大模型规模的持续增大。随着GPT4、盘古等万亿模型的发布，也正式标志着，AI大模型进入了万亿模型时代。但与此同时，AI大模型的持续扩展开始面临着模型规模提升带来的收益递减的挑战。多模态模型开启通用人工智能大门 OpenAl在GPT4模型中引入了多模态处理能力，能同时处理文本、图像、视频等多元化数据。多模态处理能力可以对不同呈现形式的信息进行融合理解，进一步提升AI大模型的学习能力，帮助A从多维度更好的理解真实的物理世界，对于通用人工智能的实现有着重要的作用。目前文本、音频、图像等单模态大语言模型已经相对 AI发展全面加速，智能未来走深向实成熟，大模型正加速朝着多模态模型的方向发展。从VisionTransformer的提出再到GPT4的图文处理能力，多模态模型取得了明显的进步，如图1-2所示。图1-2多模态模型演进大模型阶段图像生成 20202022 Stablediffusion Diffusionmodel 20202021DALL-E多模态阶段 VisiontransformerCLIP Midjourney2023 Kosmos TransformerGPTGPT2GPT3ChatGPTGPT4 文字生成PaLM-E 为进一步提升多模态模型的效率，模型通常采用混合专家并行（MoE，MixtureofExperts）架构，可以简单的理解为用不同的专家去学习、理解和处理不同模态的信息，从而整体实现多模态信息的融合处理。但是研究表明，在多任务处理中，更多的专家模型存在难以泛化的问题，也更难收敛。因此，尽管GPT4模型的多模态能力有了长足的进步，但是多模态模型的发展仍处于起步阶段，面临着较大的挑战。 1.2算力：单卡算力2-3年翻倍，算力集群规模从干卡走向万卡 AI模型参数量的持续增大带来算力需求的指数级增长，如图1-3所示。2012年至2019年AI训练算力平均每100天翻倍。而GPU的单卡算力则需要2-3年增长一倍，由此可见，单卡算力的发展速度远远落后于模型发展的算力需求。 AI发展全面加速，智能未来走深向实图1-3算力需求演进 liew Pflops-day 感知认知生成 GPTA 1e+4 1e+3 1e+2 Only NeuralMachine Translation AlphaGoZero AlphaZero aChatGPT 数十万倍 0GPT-3算力需求 1e+1 T17Dota1v1数干倍 previe 1e+0Xception差距 1e-1Visualizing and Understanding VGG Seq2Seq ,DeepSpeech2"ResNets 1e-2 ConvNets 百倍级 1e-3 AlexNet,GoogleNetAI算力增长 1e-4 201220132014201520162017201820192020202120222023 近年来，随着各行各业都投入到AI大模型的研发中来，AI智算的算力规模增长迅猛。据IDC（lnternationalDataCorporation）预测，到2o23年中国的智能算力规模将达到427.0EFLOPS，超过通用算力规模，预计到2026年，智能算力规模将进入ZFLOPS级别，达到1,271.4EFLOPS，如图1-4所示。 Onlyfor AI发展全面加速，智能未来走深向实 1400 1200 图1-4中国算力规模演进中国智能算力规模及预测 forp Tew 1271.4 1000922.8 800 640.7 600 400268 427 200 31.7 155.2 75 百亿亿次浮点运算/秒（EFLOPS） 0 20192020202120222023E2024E2025E2026E 数据来源：未来智库为了满足高速增长的算力需求，AI大模型厂商都在加速建设大规模的GPU卡集群。Nvidia、斯坦福大学和微软的联合研究[7表明，训练AI大模型所需的GPU卡数，由模型参数量、样本数、GPU卡的峰值算力、GPU卡的利用率以及预期的训练时长决定。具体而言，存在如下的近似量化关系： 8×模型参数量×样本数需要的GPU卡数=预期的训练时长×GPU卡的峰值算力×GPU卡的利用率以GPT3为例，模型参数量为1750亿，训练样本数为3000亿，如果GPU的峰值算力为312T，预期一个月完成模型训练，考虑到业界GPU的平均利用率为 50%左右，则需要的GPU卡数为8×175B×300B/30×24×3600×312T×50%） 1038卡，也就是一个月训练干亿参数的稠密模型需要干卡。随着A/模型进入万亿参数模型时代GPU卡的数量也进一步提高到万卡规模。据[6透露，OpenAl使用 25000张A100GPU训练1.8万亿参数的GPT4。 AI发展全面加速，智能未来走深向实 1.3数据：数据需求持续增长，对高质

点击免费查看完整报告

你可能感兴趣

星河AI网络白皮书

你可能感兴趣

通信周跟踪：华为发布《星河AI网络白皮书》，算力产业迎来新催化

2024华为星河AI金融目标网络白皮书

公司事件点评报告：受益于华为星河AI网络，智算可视化景气度进一步提升

2024年星河AI融合SASE解决方案白皮书

电信网络AI技术白皮书