您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[曦智研究院]:大规模光电集成赋能智能算力网络白皮书 - 发现报告
当前位置:首页/其他报告/报告详情/

大规模光电集成赋能智能算力网络白皮书

2023-03-01-曦智研究院J***
大规模光电集成赋能智能算力网络白皮书

大规模光电集成 赋能智能算力网络白皮书 曦智研究院2023年3月 李儒新 院士 随着数字经济时代的到来,万物感知、万物互联和万物智能对计算的需求呈现爆发性增长和多样化态势。人工智能、大数据和元宇宙等新兴领域的快速崛起,加速推动了全球数据总量和算力规模的高速增长。算力已成为推动数字经济高速发展的核心动力,对促进行业数字化转型以及支撑经济社会发展发挥着极其重要的作用。 当前算力发展面临应用多元化、供需不平衡的挑战。未来的算力系统需要更系统化的设计思维以及更多样化的计算架构。同时,颠覆性计算技术也将不断从理论走向实践,取得突破与进展。 光电集成技术有望突破现有计算系统在数据处理、搬运和存储上的瓶颈,为未来算力网络的发展提供一种更加高效的解决方案。这份白皮书围绕提升数据中心算力和算效的目标,聚焦所面临的关键问题与挑战,阐述了业界当前基于大规模光电集成技术的算力网络新趋势。同时,对于科研人员和业内人士具有很好的技术启示和产业洞察的意义。 大规模光电集成技术的发展和进步,需要政府、高校、科研机构、企业等“政产学研用”多方力量发挥各自优势,融合创新,协同共进。让我们紧密携手,一起努力,期待光电集成技术为智能算力网络的发展做出更多贡献。 2.1单节点算力纵向提升03 2.1.1异构计算架构创新04 2.1.2芯粒系统06 2.2多节点算力横向扩展07 2.2.1目前大规模分布式技术的挑战07 2.2.2可重构算力池化技术08 2.3算力网络发展关键挑战09 3.1单节点算力提升方案11 3.1.1颠覆性计算新原理:光子矩阵计算(oMAC)11 3.1.2助力高效芯粒系统:片上光网络(oNOC)14 3.2多节点算力扩展方案:片间光网络(oNET)15 3.2.1物理层创新15 3.2.2互连协议创新17 3.3算力网络新范式18 AI模型容量的指数增长 AI模型算力消耗的指数增长 1000 100 10 1 0.1 (175B) GPT-3 Meg(a8t.r3oBn)-LM BERT-Large(340M)ELMo(94M) T5(11B) GPT-2(1.5B) NLG(530B) Turing-NLG(17.2B) Megatron-Turing 1e+4 1e+2 1e+0 1e-2 1e-4 1e-6 1e-8 1e-10 1e-12 每两年翻一番AlphaGoZ1每0年倍 eroTesla NeuralMachAutopilot TranslationineBERT xNet DeBeliefNetsand AleVGGResNets TD-Gammorv2.1LeNeBiLSTMforSpeech Layer-wisepretrainingDON NETtalkALVINRNNNfort-S5peech 0.01 2018201920202021 2022 时间(年) 1e-14 19501960197019801990200020102020 Perceptron 时间(年) 图1AI模型容量和算力消耗的指数增长趋势[1] AI训练的算力消耗(千万亿次运算/秒×天) 随着智慧交通、工业大脑、自动驾驶、物联网等人工智能(AI)应用的逐步推广和普及,人类社会每天都会产生包括语音、图像、视频等海量的数据。从这些数据中分析和提取有价值的信息,需要匹配强大的数据存储、传输和处理能力,这对当前的数据中心和边缘设备的计算能力提出了前所未有的挑战。与此同时,AI应用为了提高信息捕捉的质量和精度,其模型本身也在不断演进,参数规模与日俱增。模型参数的增加也意味着对模型的每单位数据输入形成了更大强度的计算需求。据OpenAI网站公布的数据,如图1所示,近年来,最先进的AI模型的大小按每年10倍的指数型增长,同时因数据量爆炸,AI模型训练的计算能力需求以每年10倍的速度提升[1]。 模型大小(以十亿为单位) 然而,计算芯片的传统算力增长路径已经遇到了瓶颈。半导体产业发展60多年以来,算力提升长期遵循两个定律⸺摩尔定律和登纳德缩放比例定律。摩尔定律提出晶体管的密度每18个月会翻一倍;而根据登纳德缩放比例定律[2],晶体管在密度提升的同 时,功耗密度保持不变。结合摩尔定律和登纳德缩放定律,CMOS芯片可以在能耗和面积不变的情况下,随着晶体管数量的增加而不断提高算力。然而当芯片制造工艺发展到5nm、3nm,晶体管微缩已经接近物理极限,摩尔定律呈现出放缓趋势,并预计将在21世纪20年代结束[3]。而登纳德缩放比例定律早在2004年左右已经失效[4],此后实现芯片集成度的提升,所需的功耗和散热要求越来越大,产生了“功耗墙”问题。另外,更先进工艺制程的流片和设计费用也越来越高,进而又产生了“成本墙”问题。传统的单芯片算力提升路径难以为继。 同时,指数级的算力增长是单个计算硬件系统无法满足的,因此需要大规模地部署数据中心和计算设备来实现体系化的支撑。随着算力需求的快速增长,满足需求所消耗的资源与日俱增。据估算[5],2020年国内数据中心年耗电量在760亿千瓦时左右,约占全国总用电量的1%,且呈逐年上升趋势。 随着《全国一体化大数据中心协同创新体系算力枢纽实施方案》、《新型数据中心发展三年行动计划(2021-2023)》等政策的出台以及国家“东数西算”工程的实施,算力基础设施建设将进入大规模发展阶段,并对大型数据中心的能效提出具体要求。根据联合国和国家发展计划,中国力争在2060年前实现碳中和。在“双碳”战略指引下,设计高效计算体系、减少能耗和碳排放,已经成为提升数据中心计算效率和实现国家碳中和目标的重要手段。 本报告将围绕提升数据中心算力和算效,阐述业界当前探索的主流有效路径,并重点讨论这些路径分别面临的关键挑战,同时将提出一种基于大规模光电集成技术的算力网络新范式。本报告中的算力网络将专注于数据中心内部,以期为下一代数据中心的发展提供更高效的解决方案,为实现算力网络的愿景目标提供新的思路。 目前,业界针对数据中心算力和算效的提升已做出大量的努力。其中,算力网络 (ComputingPowerNetwork)的理念在全球范围内得到了广泛认可[6]。算力网络是一种根据业务需求,按需分配和灵活调度计算、存储以及网络等资源的新型信息基础设施。其终极目标是将硬件资源抽象化为算力,用户可根据实际的计算需求向数据中心购买算力,而无需购买或租赁硬件设备,从而实现像使用水、电、气一样便捷地使用算力。因此,国外也有文献把这个算力网络概念称为UtilityComputing[7]。 为实现这一愿景,算力网络需要具备众多高效的计算节点和节点间高效的数据互连。单节点内的纵向算力提升,为算力网络提供高效的计算资源。在此基础上,通过高效的数据互连,横向拓展算力,从而总体上形成庞大的算力容量。算力网络不仅能够帮助解决算力的利用率和扩展性问题,而且可以解决算力迁移和易用性问题,通过硬件资源的灵活调度,实现算力网络内更细粒度的资源共享。本章将简要介绍目前业界在纵向算力提升和横向算力拓展两方面的主要工作及面临的挑战。 2.1单节点算力纵向提升 数据中心内,以一到两个CPU为核心的单个服务器通常被看作一个计算节点。在晶体管密度提升放缓的背景下,制程工艺迭代所能带来的性能提升愈发有限,单个节点的算力提升出现了多种思路。首先是通过芯片架构创新降低相对于CPU的通用性来换取超越CPU的计算效率。在此基础上,一些研究者寻求跳出传统的冯·诺依曼范式和CMOS晶体管技术,用颠覆性的新原理来获得超越摩尔定律的算力提升。另一种思路是通过在单个封装内容纳多个芯粒(Chiplet)来超越倍缩光罩(Reticle)导致的单芯片尺寸上限,从而获得更高的算力。 2.1.1异构计算架构创新 早期的计算架构创新以通用计算架构为主,主要以提升指令级别并行(Instruction-LevelParallelism,ILP)为驱动力,尽最大努力挖掘摩尔定律带来的片上晶体管资源红利。例如,超标量CPU架构利用晶体管资源优势来使能从指令单发到多发(乱序发射乱序执行)再到更深的流水管线,针对单元数据实现了更多计算操作。同时,流水线管线加深有利于减少每一个阶段的计算操作,从而实现CPU频率的大幅提升。 随着半导体工艺的演进,芯片面积的增大也使得芯片上可以集成更多的逻辑功能,包括更大和更多层的数据缓冲、数据预取等功能块,从而改善由于计算和内存速度的不均衡发展所产生的“内存墙”问题。近期,大规模、高效的数据迁移已成为突破单节点算力瓶颈的新动力。例如高带宽内存架构(HighBandwidthMemory,HBM)等创新技术,通过提高数据传输过程中的效率,为计算架构带来新一轮的性能提升。这一趋势在谷歌对其几代张量加速器(TensorProcessingUnit,TPU)架构演进的总结里有很好的反映[8]。 最后,资源红利也赋能了计算架构朝着超线程、多核,再到以背景执行环境为支撑的成千上万个众线程架构方向发展。同时,加上数据向量化和单指令多数据流(SingleInstructionMultipleData,SIMD)等技术,这种线程级别并行(Thread-LevelParallelism,TLP)为计算架构性能带来多个数量级的飞跃。 在上述通用计算架构的基础上,领域专用架构(DomainSpecificArchitecture,DSA)获得了长足的发展。随着人工智能、5G、自动驾驶、VR/AR等创新技术的涌现,不同应用场景对芯片算力、功能、功耗、成本、安全性等方面的需求日渐分化,算力需求多元化趋势下,领域专用架构应运而生。领域专用架构是针对某个应用领域的特殊性而定制设计的专用架构,包括特殊的计算单元、并行机制、数据类型和领域专用语言等。领域专用架构通过牺牲架构的通用性来加速应用性能,从而把硬件的原生计算能力更高效地发挥出来,同时实现比通用计算架构更好的节能效果。 以英伟达最新发布的Hopper图形加速器(GraphicsProcessingUnit,GPU)架构[9]为例,其在典型的TLP架构的基础上,使用了更多、更强大的张量加速核(TensorCore),并在张量加速核内部增加了更多有助于算力纵向提升的领域专用技术,包括细粒度的结构化稀疏计算和动态编程算法优化等。相对于上一代A100GPU,基于Hopper架构的H100GPU在AI训练任务集上约有2~4倍的性能提升。另一个比较典型的领域专用加速器是谷歌的张量处理器(TPU)。该加速器的脉动阵列模块是针对矩阵乘法优化的设计,通过增加对单位数据的多重计算,在缓解“内存墙”效应的同时,显著提升计算密度。 然而,领域专用架构的定制化特征,通常使得其本身缺乏计算完备性。异构计算架构则是把CPU和多类DSA有机地结合在一起,通过让每一个DSA在自己擅长的领域内发挥出最大性能,从整体上实现最高性能和最佳能效。 领域专用架构在取得大幅度算力提升的同时,依然受限于传统底层元器件以及冯·诺伊曼架构。传统计算芯片的底层元器件是基于硅晶圆的CMOS晶体管,核心的工作原理是由电压信号来控制晶体管内的电流。随着CMOS制程的提升,晶体管的尺寸越来越小,量子隧穿效应使得控制电流的效率降低。突破这一瓶颈需要新的底层计算原理。 同时,传统的计算硬件设计通常基于冯·诺伊曼架构,即计算和数据分离架构,通过顺序控制逻辑把数据搬运到计算单元再执行计算。这种架构的主要问题是数据迁移导致了计算延迟以及处理单位数据时的功耗变大,暴露出“内存墙”问题。尽管现代架构通过向量化、超线程技术、流水线并行和多核架构的不断创新来提升性能,但冯·诺伊曼架构的潜力空间越来越小。 随着计算架构不断创新,非冯·诺伊曼架构也开始出现百花齐放的趋势。这一类非基于顺序控制流执行的颠覆性计算架构(例如生物计算和量子计算),或为了克服冯·诺伊曼架构的核心瓶颈而衍生出的架构(例如基于忆阻器的存内计算),通过崭新的计算模式创造了巨大的性能和能效提升空间。例如,基于3D