中国移动研究院 ChinaMobileCMRI 存算一体白皮书 (2022年) MRAM SRA NORFLASH 中国移动通信有限公司研究院 1前言 前数字经济已成为驱农业经济、工业经济之后的主经济形态 算力作为数字经济的核心生产力,将直接影响数字经济发虑的 速度,决定社会智能的发展高度。中国移动充分发挥运营商网络 领先优势,积被承接国家“新基建和“东数西”战略,提出“力网络” 全新发展理念,合在构建一个算力和网络深度融合的新型信息基品没施, 助力数字经济、智意社会高质主发展。 墙”、“功样墙”问题,是中国移动吸为关注的算力学科的突玻生歧术,已被确定为算力网络十大关键支术之一。存算一体将存与计算有机融合以共巨大的能效比提升潜力,有望成为数字经济时代的先进生产力 先讲计算领域实现高水平白立日强、 本白皮书全面释了存算一体的该心技术,发展路线、应用场景和产业链生态:希产学研各界能凝器共识,加强合作、协同发展,推动存算一体技求成裁机生态整亲,快存算一保产业化进柱,助力载围在 |编写说明 率头编写单位: 中国移动道信有限公司研究院 联合编写单位: 中兴通讯股份有限公司华为技术有限公司清华大学北京大学北京知存科技有限公司踏光信息产业股份有限公司深圳亘存科技有限责任公司 目录 前言编写说明 1.存算一低是先进笋力化表性按六 2.存会一亿技术路线建议 2 2.1存算一体技术分类建议 2.1.1近存(PNM) r 2.1.2存内理(PIM) 3 2.1.3存内计算(CIM) 4 2.2存内计莫分标 2.2.1存内计算原理 4 2.2.2存内计笋存所件分析与追议 6 3,存内计笋在云边端具有广泛的应用场景 11 3.1端侧应用场量 11 3.2必则应用场景 12 3.3云则应用场景 12 4.存内计算五大支术挑战 .13 4.1新器件成熟度们,制造工之难升级 13 4.2电路设计影吲心片算效提 14 4.3芯片架构场品通用性及规模展能力较差 14 4.4EDA工具链尚木键全 14 4.5软件及耳法生态不完声 5.存内计算五人发展建设 16 5.1建议一,协同先过封装反交,实现不同方案结合 16 5.2建议二、优化电略与心片架均,保障能效优势和演进能力 16 5.3建议三、加速EDA工具浮化,缩短心片研发同期 17 5.4建议四、构建开发生态与编程框架,加速应用观模发展 :17 5.5建议五、产学牙紧密办同,准动端侧到云侧演进 17 6.产业发展旧议 .18 缩略语列衣 19 专文献 20 1.存算一体是先进算力的代表性技术 顾0多年计竞行业的没展史,心片的算力提升一直按照摩尔设计。进入二十一世纪,信息爆邓式增长,大规漠数拆处理 算力提升的方法: 成为挑战,笋力的需求呈现指数级提升,业界需要从各和维度深索芯片 1965年,竞等-库尔归纳了晶本管的发展规律-摩尔定律,成为了丈年 半号体行业技术进步、产品选代和企业发,的标尺。然而,殖若半导体工乏过近物理极限,摩尔定律的书暴即显放缓,崇或电路的发展进入后摩尔时代,业界主变从三大方尚探索算力提引的技术路径:“MoreMoore 深度忘尔)"、“MorethanMoore(超摩尔)、“BeyondcMos (新沿件),其中深度摩尔沿座尔定律的道路继续推进:通过新车 技术持续微缩昂沐管提升计草密度:超越摩尔则是发展降尔定律演进 延续高逗发心的奏提供了可能 过程中未开发的部分,如先讲封装技术广展计算件能;新器件则是探索除传统硅基路线之少的芯忆料在计算产业的应用.三大方向为半导体行业 除了工达件度,业界也在通过变本当"计笋架两来实现算力的突破。 自前,羊流芯片如cPu、GPU(GraphicsProcessingUnit)、DPu 为中心(如图1-1),计算和存储分离,二者配合完成数据的存取与运算。 然而,出于处担器的设计以提升计算速度为主,存储则更注容平升 和成本优化,“存”“尊”之间性能头配(1-2),从而导教了存带宽低,时延长、功托高等问融,即 追常所说的“疗佬墙”和“功耗墙”。 访存愈密集,“墙的问题总严重, 算力提升尽困难。随若以人工智能计排单元 为代表的访存密集型应用快速崛起 渠构的变革显得尤为逆切。 访存时征利助耗开销无法忽视,计算存然单元 图1-1冯·说依宽计算兴构 1 3000000 硬件计算速度:90000倍/20年(3.1倍/2年) ORAMIFT001.201140/21 100000互违带宽:30份/20年(1.4侍/2年) 1000 190 100 10 0.1 1999200220052008201420172020 图1-7存计等牛半:“刀”[1] 存片一体作为一种新的计负架构,被认为显具有潜力的英命性 技术,受到国内外的高度关注。核心是将存储与计算完全融合,有效克服冯·诺依冕架构瓶颈,并结合后厚尔时代先进封装,新型存储器件等技术,实现计算能效的数量级提升。 2.存算一体技术路线建议 由于“尚”的问题存在已久,业界已形成多种解决思路,包括对计笋或存储部件本身的性能提升,以及存与算的协同优化,即存算一沐技术, 目前学术界和工业界均在开展存算一技术研究:学术界主要关注获义的 广义存草一体概念,但分类方法尚未完全统一。本章书将双广义存算一位 支术进行分类,望达求广泛共识 2.1存算一体技术分类建议 恨据存储与计算的距离远近,我们广义存算一体的六方案分为 三大类,分别是近存计算(ProcessingNearMemory,PNM),存内处理 (ProcessingInMemory,PIVv)知存为计笋(CoimpLitinginMemory,CIM) 存内计单即狭义的存免一体。 [2 2.1.1近存计算(PNM) 近存计算通过芯片封装和反卡组装等方式,将存储单元和计算单元崇成,增加访在带宽。满少数据排移,提升整体计算效率。近存计算乃是存算分离架构,本压上计算探作由位于存诺外部、独立的计算单元完成,左技术成熟度较高,士要包括存微上移、计节下移两种方式: (一)存站1移: 采用封装术将存站毕向处乱带如CPL、GPU)xPU 靠,计克和疗储间的差路效,左失显高访行节。 ORA 典-的产品态以高带内(HighRandwictMemory:计第单元 H3M):客存拉+(ThronhSilicanVia内学 ISV!多层实存惜容提升,司时基于注中介按的图2-1带宽内存 高速竞口与计些单元业关提并高市宽存储务,如医21 (二)号下移: 深片按卡东技术等数据处种能刀卸划惜器:由近 处理器进行数活处埋,有效减少存情器与证饰交理器的数据移铛,央型率为兰存储(rnpalional 硬盘 计算芯片 SloregDrives.sD),过设引入计率存储啦 图22计烂存储方系 承担如教展压缩,搜密,视频文件转冯等本处理,减少远理器(如CP)的负载,如图2-2. 近存管已用于人工智能,大版拓,迈计算等场, 内且示本保原有产架构,产品化方专可较快投入决用。 2.1.2存内处理PIM 存内处理是在芯片制造的过程中,将存和算崇成么同一个晶啦(Die中,促存储器本身备了一定算的能力。存内处理云质上仍是存算分离,比于近存计笋,“存”与“节”跑离近。当存内处理方案大家在 内存(RAM)芯片中实现部分数据处理,较为典型的产品形态为 HBMIPIM[2]和PIM口IMM[3],在PRAMDie中内置处坦单元,提供 大丢吐低延迟片上处理能力,可应用于语音识别、数据库案引要案、录因 匹配等场景,如图2-3。 3 xPU 计算 计算单元内存 内存(主) 内存bank 内存品粒 图2-3至于DRAM的PIM方示列 (DRAMDie) 2.1.3存内计算(CIM) 存内计算即换义的存算一体,在存储原位上实现计算 在芯片设计过程中,不再区分存储是真正的存算一体 存&算 存&算 存&算 存&算 存&算 存&算 存&算 存&其 存&算 单元和计算单元,百正实现存算融合,如图2-4。存闪计算是计算新范式 的研究热点,其本质是利用不同 图2-1IM在存计学 存储介质的物理特性,对存储电路进行重新设计使其同时具备计算和存储能力,直接消烩‘存”“笋” 界限,使计片能效达到数显级提升的目标。 存内计算最典型的场景是为A算法提供向量钉阵求的算了如速,目前 已经在冲经双络领域于展大年研究,如签积神经网络(Convalutional NeuralNetwork,CNN),循环神经网络【RecurrentNeLiralNetwork RNN)节,存内计笋有望激发人工智能领域的下一波浪剂,是广义存算 一体技术的攻关三点,本白皮书后续章节将巨绕存内计笋展开分析。 2.2存内计算分析 2.2.1存内计算原理 存内计算丰要包户数疗和模拟两种实规方式,二者适用于不同应用场景。拟存内计算能效高,但误左较大,运月于低精度、低功耗计算 4 场系,如端侧可穿或设音等。扫此之下,效子存内计免误差低:作单位面积功较大,适用于高特度、功不敏感的计算场景,未来可应用于云边AI场品。一直以来,主流的存内算大多采用拟算实切,近两年 数字存内计算的研齐热度也在飞速提升。 ■模拟存内计算 V.V, Analogue weightsGf I,=E,G,M 4=2,GM =E,GgV, G1 G21 Gn1 G12 G22 Gn2 [EGujujEG2j'jEG3jui] G13 G23 Gn3 [ViV2V3] 2-5年于RRAM的技内.1算列 境拟存内计笋丰要基于物埋定(欧姆定沣和其尔霍夫定律), 在存单阵列上实现乘加运笋[4]。我们以存内计算介质材料之一F变随机 存储器(ResistiveRandomAccessMemory,RRAM,又名忆明器) 为:录描述存内计算如何实现在数据写入的同时完成计草。 忆阻器电路可以做成阵结构:与钜阵形状类必,利用矩阵运算 能,可以广泛应川A推理场景中。在A推班过程中,避过输入大三与模型的参效矩阵完成乘运兑,便可以得到推理果。 以阵乘加运并为例(如图2-5所示】,存偿的输入数据设为款短阵[, 模型的参数设为新阵[G1,运算后的骗出数君设为新阵[]。运算前,先将模型参数矩阵-安行列位晋存入忆阻器(即[G]】,在入端给定不同已压俏 来表示输入久率[们),根据欧姆定律(流-压/电阻),使可在输出 瑞得乳对应的电流天盘,再根据基尔在夫定律将电流相划,即得到输山结果 (即[)。多个存笋阵列并行,便可完成客个知烂励计节。 5 由丁些个运负过程无需再从存使召中反复读取大且模至参数,绕开了 也可通过不同的物埋机制满足同详的并行计并需求。 冯依曼契构的瓶颈,能效比得到显者提升。除忆阻器外,其他存储介质 数字存内计算 数字存内计算通过在存阵划内阿入造计算电路,如与门和法器 等,使致字存为计算阵具备存储及计算能力[5]。我们以静念随机存诺器 计算志本原理: (StaticRandom-AccessMemory,SRAM)为.,来描述数字存内 DigitalAddTree 存储单元中依次存入模率等数WW.W.1 ✯划图26,输入数据为向至ININ,INJ RWLIN, RWLIN, 通过控划存储器的读字线(ReadWord Line,RWL),实现输入数据与存储单元内 模型参数的来去持作,然后通过数字法例 (DigitalAddTree)实现累,即可完成 向三动笋。对多个可重复以上过程, 便可实现矩阵乘加计单。 RWLIII 至2-6三SRAM的字疗风:加树 数字存内训学的存诸单元只存储单比特数据,且需增门部分传统逻辑申路 工艺的SRAM来实现数字存内计算. 一定程虑上