1 面向6G物联网的端侧计算白皮书 2023年8月 前言 6G技术将提供更高的速率、更多的连接,以及更广的网络覆盖,以满足在高度动态环境中的各类应用需求。6G“万物智联,数字孪生”的愿景对终端处理时延、功耗、数据隐私保护等提出更高要求。面向6G物联网的端侧计算在云、边、端构成的立体计算范式中的作用日益凸显,但端侧计算的概念、技术架构、发展趋势还不明确。中国移动希望联合产业合作伙伴共同推动面向6G的端侧计算整体架构和关键技术的成熟,推动面向6G“万物智联,数字孪生”的立体计算架构的发展和落地应用。 本白皮书由中移智库、中国移动研究院、清华大学、北京邮电大学、北京知存科技有限公司联合撰写,版权归中国移动及合作伙伴所有,未经授权,任何单位或个人不得复制或拷贝本建议之部分或全部内容。 目录 1概述1 1.1背景与意义2 1.2内容与目的3 2典型应用场景4 2.1大流量场景5 2.2实时计算场景5 2.3隐私保护场景6 2.4离线自治场景7 3关键技术及挑战8 3.1算力受限9 3.2功耗敏感10 3.3信息孤岛12 4新兴技术13 4.1存算一体:打破后摩尔时代的算力危机14 4.2类脑智能:低功耗的下一代人工智能15 4.3端边云协同:泛在算力18 4.3.1纵向端边云协同18 4.3.2横向端端协同20 5总结展望23 缩略语列表25 参考文献26 1 1概述 6G物联网终端实时数据爆炸式增长,芯片先进工艺的发展带来单位算力成本下降,AI模型及软硬件协同创新带来算法性能提升,新型人工智能场景对低时延计算需求强劲,端侧实时计算迎来新机遇。 1.1背景与意义 实时数据爆炸式增长。物联网应用实现了更大连接、更广覆盖和更优体验,连接规模已经实现了“物超人”。随着联网设备的进一步增多和高带宽业务的进一步普及,全网数据吞吐量将呈现爆发式增长。据预测,到2030年,网络吞吐量将达到5000EB/月,随着实时数据的井喷,云计算架构面临网络压力大、响应速度慢、数据安全及隐私保护不足等问题。 新型场景不断涌现。人工智能技术与智能终端的结合对终端实时计算提出了新的需求,以智能终端XR场景为例,包含追踪定位、沉浸声场、手势追踪、眼球追踪、三维重建、机器视觉、肌电传感、语音识别、气味模拟、虚拟移动、触觉反馈、脑机接口等多个环节,需要低时延计算能力提升用户实时体验。IDC预计,2023年中国搭载3D空间性和运动性传感技术的终端设备将超过40%。 算力成本逐步下降。芯片先进工艺制程逐步提升,据IDC预计,2022年7nm制程芯片将成为主流,搭载7nm芯片的智能终端设备占比将超过32%。芯片制程的提升将使单位算力的成本逐步下降,如图1所示,7nm制程的芯片单位算力成本仅为16nm制程的19.4%。 图1每TOPS算力成本随着工艺逐步下降(数据来源:IBS) 算法性能持续提升。人工智能算法性能随着算法创新、软件优化、硬件加速等持续提升。算法方面,深度学习网络模型不断演进,AI模型轻量化等技术不断发展,模型的尺寸和计算量大幅缩减。据OpenAI统计,自2012年以来,人工智能模型在ImageNet分类中训练神经网络达到相同性能所需的计算量,每16 个月减少了2倍。软件方面,面向移动端的AI计算框架发展迅猛,对终端兼容性越来越好且对AI模型的推理性能持续提升。硬件方面,通过增加深度学习专用硬件电路等方式,可大幅提升AI计算性能。 综上,随着6G物联网实时数据的爆炸式增长、新型场景不断涌现、算力成本的逐步下降、算法性能的持续提升,端侧计算将迎来前所未有的发展新机遇。 1.2内容与目的 端侧计算,指在具备一定的计算能力和存储能力的物联网终端设备中进行计算。端侧计算主要满足低功耗、高隐私保护、低时延的计算需求,应用场景包括大流量智能视频监控、低时延的自动驾驶、高隐私性保护的人脸识别和离线自治的智能家居等。6G物联网,即6G使能的物联网,是以6G网络为通信基础设施的物联网。基于6G技术的深度赋能,物联网端到端系统将能够实现更强大的智能和自主性,能够实时精准感知环境、做出智能决策并提供个性化的服务。端侧计算在云、边、端构成的立体计算范式中的作用日益凸显。本文希望系统梳理端侧计算的场景需求、关键技术挑战以及新兴端侧计算技术。目前端侧计算技术整体发展仍处于初级阶段,未来还有很多技术和商业层面的挑战,中国移动希望联合产业合作伙伴共同推动端侧计算整体架构和关键技术的成熟,推动面向6G物联网的立体计算架构的发展和落地应用。 4 2典型应用 场景 2.1大流量场景 视频物联网近年来呈逐年增长趋势。据IDCGlobalDataSphere,2020全球视频监控产生的数据约18.1PB(1PB=1024TB),占同期物联网总数据量83.1%。智慧城市、智慧交通、智能家居等物联网领域中存在大量的视频终端。使用MPEG-4压缩,30fps/1280×1024分辨率的单一连续视频每天产生约128G数据;搭配了摄像头和雷达的L2辅助驾驶系统的车载系统每30秒就会生成超过6GB的数据。此类视频分析场景特别是高清视频分析类场景需要占用大量的带宽资源,并且大流量的视频数据传输易引发网络拥塞、服务质量下降等问题。 端侧计算应用于此类大流量场景,可第一时间对收集的视频数据进行处理分析,将处理和分析后的结果再上传至云侧数据中心,大幅减少网络数据传输、降低网络带宽负荷、缓解云数据中心存储与计算的压力,并能够提升系统的实时响应能力。随着端侧AI芯片的性能不断提升,AI安防等视频监控应用向端侧前移趋势愈加明显。 AI安防端侧算力需求如表1所示。 表1AI安防端侧算力 支持像素 2M 4M 8M 16M 算力功耗 0.5TOPS<1w 1TOPS1w 2TOPS2-2.5w 4TOPS3w 2.2实时计算场景 在自动驾驶、工业控制、虚拟现实等时延敏感类应用场景中,终端采集数据上传到云端,云端计算后再将结果返回终端,将会引入网络和平台处理时延,考虑网络不稳定等因素,时延可能会更大。随着6G人工智能技术的进一步发展,车联网将在深度学习、多传感器融合等方法的使能下形成车辆、路侧、云端的全场景一体化感知决策架构,实现协同决策,更好地助力自动驾驶。IDC报告显示,2022年第一季度L2级自动驾驶在乘用车市场的新车渗透率达23.2%,整个市场处于L2向L3发展的阶段。辅助驾驶对于端到端时延的要求在100毫秒,自 动驾驶对于端到端时延的要求进一步提高到20~100毫秒。在工业控制中,诊断信息的时延要求为10毫秒,运动控制的时延要求提高至25-100微秒。虚拟现实的需要保证所有捕捉动作到头显中动作小于20ms,以避免用户产生眩晕感。 端侧计算应用于此类实时计算场景中的全部或者部分计算,可有效降低端到端时延,满足业务低时延实时计算需要。目前芯片厂商纷纷布局端侧大算力,助力自动驾驶等实时计算场景。 自动驾驶算力需求如表2所示。 表2自动驾驶算力需求 自动驾驶级别 L2 L3 L4 L5 算力 10TOPS 30~60TOPS 100TOPS 1000TOPS 功耗 5w 15~30w 50w 500w 2.3隐私保护场景 在人脸验证、可穿戴设备等隐私保护场景下,用户对个人数据的隐私性较为敏感,对于在设备端读取的用户人脸、语音、视频等数据上传云端进行分析,存在数据安全与隐私泄露风险。据中国互联网协会《中国网民权益保护调查报告 (2021)》显示,82.3%的网民亲身感受到了由于个人信息泄露对日常生活造成的影响,49.7%的网民认为个人信息泄露情况严重或非常严重。 端侧计算应用于此类隐私保护场景,可在端侧对数据完成预处理,对数据进行去标识化、匿名化处理等,将脱敏数据与平台进行交互,提升用户隐私数据保护能力。 端侧人脸识别算力需求如表3所示。 表3端侧人脸识别算力需求 场景 手机人脸验证 闸机 视频监控 算力 1TOPS 1TOPS <4TOPS 功耗 1w 1w <3w 2.4离线自治场景 在智能家居等场景下,由于终端设备网络不稳定,断网时需要能够持续稳定的运行。IDC预计未来五年中国智能家居设备市场出货量将以21.4%的复合增长率持续增长,2025年市场出货量将接近5.4亿台。当前智能家居正在向着构建单用户画像,理解用户生活行为,提供“千人千面”的个性化服务的方向发展。如果上述服务完全部署在云端,断网时终端设备无法正常响应,将严重影响用户体验。 端侧计算在端侧部署服务,在云端保存一个映射。这样既保证内网设备稳定有效的运行,也保障用户在外网状态时可以远程操作家里的智能设备。 智能家居算力需求如表4所示。 表4智能家居算力需求 场景 入户监控 全屋安全 全屋智能 算力 1~3TOPS 3~10TOPS >10TOPS 功耗 ~1w 1~5w >5w 8 3关键技术 及挑战 3.1算力受限 为了降低人工智能模型对计算空间及时间的消耗,模型压缩作为以深度学习为代表的人工智能领域研究的一个重要的分支,旨在对原有的人工智能模型进行参数压缩、维度缩减等操作或者重新设计轻量化的网络结构,以提高网络的训练和推理速度。虽然模型压缩在一部分场景下取得了比较好的效果,但在一些场景下压缩后的模型可能引起推理精度的严重下降,另外压缩后的模型存在难以应用于通用计算平台等问题。在对精度要求较高的场景下,依然优先用硬件满足需求。 图2不同精度计算的消耗能量和硅片面积 然而端侧单点算力的提升面临瓶颈。一方面随着工艺的制程升级,摩尔定律已经开始放缓。到了2018年,根据摩尔定律得出的预测与当下实际能力差了15倍。另一方面,登纳德缩放比例定律似乎已经失效。尽管集成电路中的晶体管数量仍在增加,但由此带来的性能改善却更为缓慢。主要原因是在芯片尺寸不变,晶体管数量变多的情况下,电流泄漏会带来更大的挑战,也会导致芯片升温,从而造成热失控的威胁,从而进一步增加能源成本。如图3所示(数据来源:John L.Hennessy,DavidA.Patterson.2019)。 (a)摩尔定律在放缓(b)登纳德缩放定律失效图3单点算力面临瓶颈 当前的端侧计算芯片仍然基于冯诺依曼架构,其数据存储与处理分离,存储 器与处理器之间通过数据总线进行数据传输。随着半导体技术的发展,存储单元性能发展远落后于计算单元,如图4所示(引用自JohnL.Hennessyetal.)。在面向大数据处理等应用场景中,这种计算架构带来的存储墙和功耗墙已成为高算力与低功耗设备的主要瓶颈之一。相关研究报告指出,在22纳米工艺节点下, 一比特浮点运算所需要的数据传输功耗是数据处理功耗的约200倍。存储墙与功耗墙问题并称为冯诺依曼架构瓶颈。数据的爆发式增长进一步加剧了冯诺依曼架构瓶颈。 图4处理器和存储器的性能差 3.2功耗敏感 一方面根据摩尔定律,集成电路每隔18-24个月性能提升一倍,智能手机的AI计算、设备互联等功能不断增加;另一方面5G手机采用MassiveMIMO的技术以增强手机对信号的接收,耗能显著增加。然而,电池领域却没有摩尔定律,受能量密度和电池尺寸限制,电池容量仅能以较低幅度线性提升,电池性能增速远慢于需求,如图5所示。所以,用户时常感觉手机续航的“力不从心”,如何在保证终端性能的同时更好控制功耗成为关键。 图5终端电池能力增速远慢于需求 异构芯片以追求最高的性能功耗比为目标。对比云数据中心常用的CPU、GPU、TPU,端侧更多地使用FPGA及ASIC。FPGA的电路可直接实现算法,没有指令译码和解读的过程,减少反复冗余访问外部存储器的需求,存储器带宽需求及能耗较低,能效比是CPU的10倍以上、GPU的3倍,处理速度和效率要高于GPU。此外,ASIC性能上的优势也非常明显,具有最高的能效比。图6比较了不同硬件的速度和能耗(图片来源:Prof.LucaBenini.ACMHPC)。 图6不同硬件的速度和能耗 作为对比,如图7所示,AlphaGo作为拥有