中国移动研究院/ChinaMobileResearchInstitute 李小涛/XiaotaoLi 0 算力是数字经济的核心生产力 数字经济已成为继农业经济、工业经济之后的主要经济形态和引领增长的重要引擎。数据是数字经济的核心生产要素,算力是核心生产力,直接影响数字经济发展的质量与速度,决定社会智能的发展高度。 水 网 电 算 ①事关核心生产要素升级 计算机等设备制造 其他制造业批发零售业 互联网、软件和信息服务 金融业能源供应 科研和技术服务住宿餐饮业 文教卫生与社会服务 环境和公共设施管理 直接带动产出 间接带动产出 资料来源:国家统计局 中国信息通信研究院 00.511.5 2 ②事关数字经济增速 我国算力规模平均每增长一个百分点,带动数字经济和GDP将分别增长1.6‰和0.8‰ 2.71% 80000 3.00% 70000 2.42% 2.50% 60000 2.16% 50000 1.76% 1.86% 1.96% 2.00% 40000 1.47% 1.50% 30000 1.00% 20000 10000 0.50% 0 0.00% 2014201520162017201820192020 数据中心耗电量 全社会用电量 数据中心耗电量占比 过去十年,数据中心用电量占比以每年超10%速度递增,2020年约占全社会用电量的2.71% ③事关双碳目标实现 1 •中国移动积极推进“算力网络”创新发展,推动算力成为与水电一样,可“一点接入、即取即用”的社会级服务。 •存算一体是算力网络关键使能技术,是算力基础设施持续增强算力能力、释放算力价值的革命性技术。 存算一体是算力网络关键使能技术 服务运营层 算力交易 多量纲 算力并网 算力封装 意图感知 一体编排 算力解构 算网大脑 泛在调度算网自智 数字孪生 意图网络 构建灵活敏捷的算力底座 云原生 算力原生无服务器计算 异构计算/多样性算力 算力卸载 绿色安全 隐 私 液冷 芯片节能 数据中心节能 计算数据标记全程可信审计溯源内生安 全 编排管理层 算网一体算力度量算力标识算力感知算力路由在网计算 网络基础设施 构筑光电联动的全光网络底座 全光高速互联全光灵活调度 打造云边端全连接的智能IP网络 SRv6/G-SRv6确定性网络 新新一一代代SSDD--WWAANN应应用用感感知知 无损网络 算力基础设施 打造立体泛在的算力分布 边缘计算超边缘计算端计算 存算一体 算网基础设施层 2 冯·诺依曼架构是目前计算系统的主流架构,其主要特点为存储与计算分离,存在“存储墙”和“功耗墙”问题,访存越密集,“墙”的问题越严重。CPU、GPU和AI等专用芯片均为遵循冯·诺依曼架构设计的产品。 传统计算架构瓶颈:“存储墙”和“功耗墙” 冯·诺伊曼架构图现代计算机系统实例图 存储单元 •冯·诺依曼架构是现在计算机系统的主流架构 •分为控制单元、计算单元、存储单元、输入和输出设备5大组成部分 输出设备 输入 设备 计算单元 控制单元 存储墙功耗墙 输出设备 硬盘 •以CPU为中心,计算和存储分离 •CPU根据指令从内存取数据并将结果写回,存在频繁的数据交换 内存 输入设备 CPU Cache 计算单元 控制单元 时延高:CPUCache访问远大于内存访问速度 带宽低:CPU与内存间总线带宽紧张 功耗大:CPU与内存间数据搬运功耗大 多核共用内存总线和内存,CPU单核带宽较低 一次L1随机访问一次内存访问 167 个时钟周期 4 个时钟周期 整形运算:0.03pJ~3pJ浮点运算:0.4pJ~4pJ内存访问:1.3nJ~2.6nJ 注:单次运算功耗,nJ=1000*pJ 内存访问功耗是运算的上千倍 3 存算一体技术颠覆冯·诺依曼架构,提供更强劲算力 存算一体可在存储单元中直接完成计算功能,实现存算零距离,大幅降低计算时延与能耗,突破冯·诺依曼算力瓶颈,解决“存储墙”与“功耗墙”问题。 冯诺依曼架构的存算分离模式 算 存 •计算和存储分离,频繁的数据搬运导致“存储墙”与“功耗 墙”,严重制约了系统算力和能效的提升 计算架构演进 6-2 0-5 -37 24T -25 6 0 -3 -2 -5 7 1 -2 3T 算力提升 用模拟域计算替代传统数字电路的乘累加计算,极大提升效率 存算一体计算架构 存&算 存&算 存&算 存&算 存&算 存&算 存&算 存&算 存&算 存算一体技术利用存储单元实现计算功能,在算力、能耗、面积等方面优势显著,有望成为数字经济时代以数据为生产要素的先进生产力 能效(GOPs/W) 100000 10000 1000 100 10 1 CPUGPUFPGAASIC存算一体 能耗优化 相比传统GPU能效比大幅提升 4 发展历程:存算一体近年来受到全球产业广泛关注 存算一体最早由学术界于20世纪70年代提出。随着摩尔定律放缓,AI等大数据应用兴起,智能数据处理挑战和冯氏架构瓶颈成为电子信息领域的关键矛盾之一,存算一体受到业界广泛关注。 概念期 1969-2000:概念提出,受限于成本且缺少应用驱动,一直不温不火 学术界提出直接利用内存实现简单 放缓期 2000-2014:存算一体学术届持续探索,但需求不旺盛,仅停留在科研阶段 2010年,学术界验证忆阻器实现 积累期 2015-2020:AI等应用兴起,存算一体进入产业界视野 2017年,微处理器年会,英伟达、英特尔、 关键期 2030 的计算功能,减少数据在处理器与 存储器之间的搬移 简单布尔逻辑 2007年,登纳德缩放定律放缓,存算一体架构优势显现 2010 微软等均推出存算一体系统原型 2016年,UCSB发布第一个基于NorFlash的存算一体芯片 2015 2020 2021-2030:一个新的存储计算时代将要来临 国家“十四五”规划纲要,“先进存储技术升级”被列为”科技前沿技术攻关”重点领域 中国移动提出《如何实现存算一体芯片工程化与产业化》问题,入选中国 1969 2000 存算差距加大:摩尔定律依然有效,但存算分道扬镳,存算速度失配逐年递增50% 科协“信息科技领域2022重大产业技术问题” 国内涌现大批存算一体技术公司,获 得大量融资 5 技术路线:存算一体存在多条技术路线及方向 存算一体目前有多种技术路线,传统器件相对成熟,已有少量应用,但存在密度受限、功耗等局限;新型材料在时延、密度、功耗等多个维度上性能较均衡,应用场景更加广泛,更具潜力,但成熟度较低。 存储介质 主要特性 新 型 存质新 ( 储)型 器 介 存体半 MRAM 储)导 器 ( 传统 PCM RRAM 存储器 NOR FLASH SRAM 产业关注度高 优点:工艺成熟、无擦写次数限制(寿命久)、计算速度快、兼容先进工艺 缺点:计算密度低、功耗高、微缩减缓 (已5nm) 优点:工艺成熟、功耗低 缺点:近工艺极限(40nm)、先进工艺兼容性差、耐久性较差、 产业关注度高 优点:制备简单、功耗低、兼容先进工艺 缺点:耐久性较差、一致性需优化 当前产业关注度低 优点:擦写次数近无限、计算速度快缺点:工艺兼容性较差、计算密度较低 当前产业关注度低 优点:工艺较成熟、兼容先进工艺;缺点:写入功耗高、写入速度慢、耐久性较差 企业 •台积电 •阿里、中兴、华为 •苹芯、后摩智能、 九天睿芯 •Mythic •知存科技 •合肥恒烁 •台积电 •苹芯、后摩智能、新忆科技 •华为 •三星 •台积电 •亘存 •IBM •华为 高校 •清华 •中科院 •复旦 •北大 •华科 •中科大 •加州大学、斯坦福 •北大、清华 •中科院、浙大、复旦、国立清华 •北航 •中科院 •上海微系统所 •华科 •中科院 •北大 •中兴 •知存科技 •清华 •中科院 •华为 应用领域 合作情况 •适用于面积、功耗、成本等不敏感的场景,如推理、训练 •适用于端侧推理场景 •适用于成本、功耗敏感的推理场景 •适用于功耗、成本等不敏感的场景,如推理、训练 •适用于功耗敏感 的推理场景 随着实时数据的爆发,计算也将无所不在。存算一体芯片实现了算力瓶颈的突破,有望覆盖端、边、云,构建低成本、高能效、自主可控的的立体泛在算力。 应用场景:存算一体未来可广泛应用于端-边-云侧的AI等计算密集型场景 端边云 基于存算一体技术,有望实现数据中心AI运算能效提高1~2个数量级,大幅降低电力成本。 在相同功耗下可以为端侧设备提供更高算力,支持AI模型的本地化部署,满足轻薄化需求,有效保护终端隐私。 解决复杂边缘计算场景散热需求,提升 边缘系统的智能化程度。 可穿戴 智能摄像机 移动终端 AR/VR 边缘网关/5G云小站 自动驾驶 数据中心 <1Tops~5Tops 10~50Tops 10-64Tops <100Tops500~1000Tops>1024Tops 低算力高算力 7 联合清华大学完成业界首次忆阻器存算一体芯片的端到端技术验证,实现图像分类模型和语义分割模型在芯片的部署及推理,成功打通芯片、软件、算法、应用全流程。 中国移动研发进展:完成RRAM中算力SoC芯片的端到端技术验证 芯片测试 忆阻器集成规模突破300万算力15TOPS,能效2Tops/W 软件工具链 完成软件工具链架构设计完成软件工具链1.0开发 AI适配算法 适配阵列规模的模型压缩算法适配器件特性的误差补偿算法 应用原型 面向存算一体芯片的计算板卡存算芯片与5G工业网关集成 支持图像分类模型部署推理,算力能效符合设计要求 研发软件编译器和运行环境,适配存算一体计算架构 研究存算一体AI适配算法,补偿存算一体硬件缺陷 搭建存算一体应用原型,打通芯片、软件、算法、应用 8 提出《如何实现存算一体芯片工程化和产业化》问题,入选中国科协“信息科技领域2022重大产业技术问题”,形成2篇央办专报和5篇部委级专报,有力提升中国移动在先进计算领域的影响力,加速中国移动在存算一体领域的战略布局。 中国科协“信息科技领域2022重大产业技术问题“及相关媒体报道 提交中办 提交中办 提交国资委 提交国资委 中科协报告 中科协报告 报告 中科协 研究实践(1/5):存算一体高端智库 9 研究实践(2/5):基于忆阻器的存算一体SoC芯片 联合清华大学研发基于忆阻器的存算一体SoC芯片,突破冯诺依曼架构“存储墙”与“功耗墙”,忆阻器集成规模突破300万,支持 多核并行计算。 基于忆阻器的存算一体SoC芯片 矩阵乘测试 支持并行计算;多XB联合计算 矩阵乘结果具有较好的线性度 基于忆阻器的存算一体SoC芯片 ,忆阻器集成规模300万,全球领先。 A111芯片测试 图像识别演示 打通关键数据通路,实现片上部署两层全连接网络FC1,FC2,准确 率为98.6%±0.9 1.完成多XB与Tile的联合计算 2.完成双层全连接10分类任 务,识别精度~99% 10 研究实践(3/5):面向异构存算一体芯片的通用软件工具链 联合产业合作伙伴研发面向异构存算一体芯片的通用软件工具链,向上兼容不同AI框架模型,向下配存算一体芯片的硬件特性,软硬协同发挥芯片性能,有效降低用户开发和部署门槛。 兼容多种AI框架屏蔽芯片硬件差异 降低开发门槛发挥芯片性能 主机端运行环境功能从设备端运行环境 模型信息管理 (名称、加载时间等) 模型生命周期管理(部署、卸载) 模型推理 软件管理 芯片基础信息(数 量、型号、ID) 芯片存算阵列状态管理 存算一体主从设备协议封装与解析 权重加载读取 推理计算 芯片信息查询 PCIe/UART/...驱动 驱动 操作系统与驱动 主从设备协议封装与解析 编译工具界面模拟器界面 11 研究实践(4/5):面向存算一体的AI适配