您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[紫金山实验室]:未来网络白皮书系列:智算网络技术与产业白皮书 - 发现报告
当前位置:首页/行业研究/报告详情/

未来网络白皮书系列:智算网络技术与产业白皮书

AI智能总结
查看更多
未来网络白皮书系列:智算网络技术与产业白皮书

版权声明 本白皮书版权属于紫金山实验室及其合作单位所有并受法律保护,任何个人或是组织在转载、摘编或以其他方式引用本白皮书中的文字、数据、图片或者观点时,应注明“来源:紫金山实验室等”。否则将可能违反中国有关知识产权的相关法律和法规,对此紫金山实验室有权追究侵权者的相关法律责任。 主要编写单位: 紫金山实验室、北京邮电大学、华为技术有限公司、中兴通讯股份有限公司、中移(苏州)软件有限公司、中移(杭州)信息技术有限公司、天翼云科技有限公司、上海邮电设计咨询研究院有限公司、北京交通大学移动专用网络国家工程研究中心、浙江大华技术股份有限公司、科大讯飞股份有限公司、苏州盛科通信股份有限公司 主要编写人员(排名不分先后): 黄韬、汪硕、高新平、肖玉明、徐鹍、李振红、时定兵、赵芷晴、杨彩云、韩红平、黄文浩、袁辉、胡秀丽、郑晓龙、徐峰、龚翔宇、吴涛、符哲蔚、陆振善、张佳玮、谷志群、李和松、段威、陆诗莹、贾玉、赵怡、成伟、王俊杰、罗远、刘静、马玉寅、彭天皓、吕宵双、杨志逵、刘耀华、史银妹、刘文斌、王国栋、周春旭、张涛 前言 当前,以生成式人工智能为代表的通用人工智能技术在全球范围内引起了广泛关注,并以前所未有的速度、广度与深度催动经济和社会发展,掀起了新一轮科技革命与产业变革。在人工智能产业发展过程中,智算网络发挥了基础性支撑作用。业界基于高性能网络构建算力集群,从而突破单点算力的性能极限,实现智算中心内外的算力协同与数据交互,并进一步打破智算中心的烟囱式孤立局面,实现更大规模的算力互联,为AI技术发展与科技创新提供强有力的支撑。 智算算力互联的实现依赖于一个能够支持高性能计算任务的网络环境,这要求智算网络必须具备超大带宽、超低时延、零丢包和稳定可靠的数据传输能力,以确保数据传输的及时性、完整性与准确性,从而满足智算业务对算力资源的按需取用与高效利用需求,并支持面向未来多样化智算应用场景提供定制化的网络服务。 针对上述挑战,本白皮书首先系统性梳理了当前智算网络领域的政策背景、产业动态以及技术发展脉络,并深入探讨了未来智算产业对网络能力的核心诉求,分析了高性能智算环境在网络带宽、时延、抖动、丢包等方面存在的挑战,由此引发对智算集群内与集群间核心支撑技术的讨论,涉及新型网络架构、超宽可编程转发、负载均衡、光电融合组网与路由、广域RDMA等关键技术。随后,结合智算网络产业的典型案例,阐释了上述关键技术在智算基建建设中的应用。最后针对智算网络提出了技术与产业发展建议,旨在为行业从业者、 决策者及研究者提供一定参考,以推动智算网络技术的创新与应用。 目录 前言I 目录III 一、智算网络技术与产业发展概况1 (一)政策态势1 (二)产业形势3 (三)技术趋势6 二、智算产业对于网络的核心要求11 (一)网络带宽要求11 (二)网络时延要求11 (三)网络抖动要求12 (四)网络丢包要求13 三、智算集群内网络关键技术15 (一)新型网络架构15 (二)超宽可编程转发技术22 (三)无损网络技术26 (四)网络负载均衡技术40 (五)端网协同的NetMind跨层通信架构46 四、智算集群间网络关键技术50 (一)光电融合组网与路由技术50 (二)广域拥塞控制技术53 (三)广域RDMA技术57 (四)新型低损光纤技术60 五、智算网络产业典型案例64 (一)天翼云昇腾智算项目64 (二)紫金山新型无损数据中心项目67 六、智算网络技术与产业发展建议71 七、总结与展望73 附录A:术语与缩略语75 参考文献77 一、智算网络技术与产业发展概况 近年来,全球对智能算力的需求急剧增长,推动智算服务进入新一轮爆发期。据统计,2022年全球智能算力规模已达142EFLOPS,并预计2030年将达到16ZFLOPS,年均增速超80%,这种增速奠定了智能算力将成为全球算力规模增长主要驱动力的地位。在此背景下,本章将围绕智算政策态势、产业形式与技术趋势等方面展开深入分析。 (一)政策态势 随着全球科技革命与产业变革的加速,我国高度重视数字基础设施的建设,尤其在智能计算领域。国家通过《“十四五”国家信息化规划》明确了未来几年加强数字基础设施的基调,特别是智能算力基础设施的建设,将成为推动经济高质量发展的核心支撑。 (1)加强政策引导与支持 2017年,国家工信部颁布了《促进新一代人工智能产业发展三年行动计划(2018-2020年)》,明确指出要将人工智能与制造业深度融合,并推动智慧工厂的发展;同年,国务院发布了《新一代人工智能发展规划》,提出要构建以人工智能为主攻方向的创新机构,并逐步增加在该领域的投入;2021年发布的《新型数据中心发展三年行动计划(2021-2023年)》和《“十四五”数字经济发展规划》指出,要推动智能计算中心有序发展,打造智能算力、通用算法和开发平台一体化的新型智能基础设施,提供体系化的人工智能服务;2023年 是AI大模型元年,该年两会报告中多次提及ChatGPT等大模型的人工智能词汇,并提出了关注数据安全与提升产业质量的核心建议和提案;2024年,《政府工作报告》中首次提出开展“人工智能+”行动,标志着人工智能向大规模落地应用发展的态势。 (2)加快数字基础设施建设 在《“十四五”国家信息化规划》指导下,我国正在加快建设泛在智联的数字基础设施体系,包括部署高速可靠的5G网络与大规模卫星互联网,以及建立全国一体化大数据中心。上述措施已在多地实施,显著提升了区域间的数据处理能力与网络响应速度,为经济社会数字化发展提供了强有力的支撑。此外,还优化了全国互联网骨干直联点并加快了IPv6的规模部署,新建了国家级互联网交换中心提升网络效率与数据处理能力。通过发布系列政策,加强智算设施的建设与升级,支撑新感知和新算力设施的快速发展。 (3)强化规划与管理 国家发改委发布的通知中指出,必须制定跨地域、跨系统的数字基础设施建设规划,以确保东西部算力协同发展。通过优化资源配置与推动区域平衡发展,使国内多个地区实现了更为高效的数字基础设施管理。为加强统筹监测,引导东西部算力协同发展,构建全国一体化算力体系,政策已着力制定跨地域、跨系统的数字基础设施建设规划。通过加大对智算资源的规划投资,确保各地区、各行业的数字化转型需求得到有效满足。 (4)推动数字化产业升级 各地方政府正在积极抢占智算先机,推动产业的数字化升级。例如,北京正在建设亦庄等E级智能算力高地,并计划到2027年实现智算基础设施软硬件产品的全栈自主可控;上海在推进“算力浦江”智算行动实施方案,打造高质量智算发展格局;贵州通过与华为云、科大讯飞等企业合作,推动盘古、星火基础大模型在本省落地,并建立公共数据目录“一本账”,力争在数据训练与行业大模型培育方面取得领先优势。 (二)产业形势 我国正在积极推进智算网络标准化进程,以满足人工智能与高性能计算需求。国内智算产业链涵盖从核心技术研发、资源整合到广泛应用的全链条。各大云服务商和电信运营商正在加速构建AI大模型与智算平台,以提升业务流程的智能化水平和效率。 在国内标准化方面,中国通信标准化协会正在主导国内的智算网络标准化工作。当前阶段主要集中在互联互通与基础支撑方面,系统化地推动智算网络的总体技术要求、无损协议、广域网能力要求、存算一体、设备平台互联互通、安全等标准化研究进程。2023年,中国联通、中国电信、信通院、紫金山实验室围绕下一代网络演进(NGNe,NextGenerationNetworkEvolution)在SG13启动智算立项;在国际标准化方面,智算网络的标准化工作主要由ITU和IETF等国际组织推动。为满足人工智能和高性能计算(HPC,HighPerformanceComputing)对智能算力需求的急速增长,2023年7月,Linux基金 会联合AMD、Arista、博通、思科等公司共同成立了超以太网联盟 (UEC,UltraEthernetConsortium),该联盟旨在通过改进以太网技术的物理层、链路层、传输层和软件层,提升其转发性能,同时兼容当前以太网生态。 此外,全国各地正在推进智算中心的建设。据统计,目前全国超过30个城市正在建设或提出建设智算中心,建设总数超100个,总投资规模超百亿元。这些项目的建设主体包括政府机构、三大电信运营商以及部分互联网企业。典型的智算中心包括中国电信京津冀大数据智能算力中心、阿里云张北超级智算中心、腾讯长三角(上海)人工智能先进计算中心、南京智能计算中心等,其中12个位于“东数西算”八大枢纽。2024年,武昌智算中心、中国移动智算中心(青岛)、华南数谷智算中心、郑州人工智能计算中心、博大数据深圳前海智算中心等也已相继开工或投产使用。 图1-1我国智算中心及大模型分布 我国智算产业链已形成完整的上游核心技术研发、中游资源整合服务到下游广泛应用的链条: (1)上游产业是智算的技术源头与核心支撑,包括芯片、软件及硬件供应商。目前,AI芯片领域呈现多元竞争格局,GPU和FPGA因其高技术壁垒,已形成稳固的寡头垄断市场;与同时,TPU、NPU等ASIC芯片崭露头角,如华为昇腾NPU和阿里平头哥NPU,凭借其在吞吐量、能效及算力等方面的突出表现,已在AI领域得到大量应用。 (2)中游产业是智算资源的整合者与服务提供者,主要由云服务商、电信运营商及第三方数据中心服务商组成。云商及科技公司利用技术积累,提供大模型及平台服务,一方面将部分传统数据中心改造为专为人工智能设计的智算中心,另一方面加速构建AI大模型。IDC服务商则依托云网资源,深度参与智算建设。例如,中国电信已推出息壤智能计算平台,提供智算、超算、通算等多元化算力服务,为大模型训练、无人驾驶、生命科学等领域提供软硬件一体化解决方案,其RDMA吞吐能力高达1.6Tb。 (3)下游产业涵盖互联网、交通、金融、工业等众多行业用户。通过引入智算技术,实现业务流程智能化、产品与服务创新以及决策支持优化,推动行业数字化转型与智能化升级。例如,百度文心大模型助力浦发银行与泰康保险在投资决策、理赔信息检索等业务中提升效率;华为盘古大模型为国家电网提供智能电力巡检解决方案;小鹏汽车在乌兰察布设立了自动驾驶智算中心“扶摇”,基于阿里飞天智 算平台,拥有600PFLOPS算力,使自动驾驶核心模型训练速度提升近170倍。 图1-2智算产业链 (三)技术趋势 (1)AI模型参数规模将超百万亿,超长序列成为主流标配 从2024年AI行业的发展趋势来看,大模型ScalingLaw依然保持旺盛生命力,万亿甚至百万亿参数规模的大模型成为必然趋势。以OpenAI为例,其下一代模型GPT-5的参数规模将达到2万亿以上,而更远期的Q*系列模型将采用多模态自我演进训练机制,使模型训练不再局限于有限的人类数据,实现从数据驱动向算力驱动的转变。同时,超长序列也逐渐成为未来模型的主流标配,以Sora为例,视频生成场景需要使用长达百万长度的序列,例如60秒的视频需要1M的序列长度、10分钟视频则需要10M序列长度,这标志着序列长度将成为衡量模型能力的重要指标。 模型规模与序列长度的急速递增推动了对算力的高需求,也激发了企业在智算基础设施领域的投入。例如,Tesla计划在2024年投入100亿美元建设AI算力集群,而微软联合OpenAI启动的星际之门项目更计划投资1000亿美元,打造数百万GPU规模的算力集群。 图1-3AI大模型的发展趋势 (2)以太推动智算网络开放互联,百万卡集群成为共识 在产业界共同努力下,智算网络呈现出两方面的演进趋势:一是以太将成为智算网络开放互联的基础,二是百万卡集群规模成为行业共识。 行业正逐步认识到以太网在AI与HPC场景中的强劲生命力。更多的GPU厂商选择以太作为其算力芯片的IO接口形态,如IntelGaudi及众多国产芯片商。同时,中国移动牵头的全调度以太网技术体系(GSE),以及由海内外头部厂商组成的超级以太网联盟,正在 突破基于以太网构建超大规模高性能AI集群的技术瓶颈。事实上

你可能感兴趣

hot

驱动未来:面向大模型的智算网络

信息技术
云栖大会2024-09-19
hot

智算产业发展白皮书

信息技术
中国电信2023-08-15
hot

意图网络技术与应用白皮书

信息技术
开放数据中心委员会2019-09-05