Qualcom2024年3月 通过NPU和异构计算 开启终端侧生成式AI 高产高术公表子产 目录 1摘要 2处理器集成干SoC中的谐多优势... 3生成式AI需要多样化的处理器 4NPU入➀ 5高通NPU:以低功托实现持久稳定的高性能AI 6异构计算:利用全部处理器支持生成式AI. 7高通AI引:面向牛成式AI的业界领先异构计覃10 高道AI引降中的处理器, 7.1 7.2高通AI异构计竞的系统级解决方案..12 案例究:使用异构计的击拟化身A个人助于12 7.3 8骁龙平台领先的AI性能..14 8.1第三代龙.8的领先智能手机上AI'牛能,..14 8.2骁龙XEiLe的领先PC上AI烂能.15 6通过高通软件栈访问AI处理器 10总结 1摘要 生成式AI变芊已经到來。随若生成式AI用例盅求在有若多样化要求和计竞盅求的垂直 领域不断增加,我们显然需要专为AI定制设计的全新计算架构。这首先需要一个面向 生成式AI全新设计的神经网络处理器[NPU],同时要利用异构处理器组合,比如中央处 应用性能、能效和电池续航,赋能全舒培强的土成式AI休验: NPV专为实现任功耗加速AI推理而空新打逆:升随若新AI用例、模型知需求的发展不断演进 理器[CPU和图形处理器(GPU],通过结。合NPU使用合适约处理器:异构节能够实现最佳 优秀的NPU设训能够提供正流的设认选择,与AI行业方向保持高烹一。 高通I-仕助力让背能计算无处不仕,业界领.的高道Hex口gDn"NPU而向以低功托实现持续总定 的高性能AI推理而设计,高通NPU的差异化优劳在于系统级解决方案、定制设计和快速创新。 消过定制设计NPU以及控制指令集渠均ISA),自通能够快速违行设计混进和扩反,以解决恒额 问题并优化性能:HexaganNPU是高迫业界领先的异构计算架构一一油AI5些=的关使处理 器,高通AI引擎还包括高通Adreno'GPU、高通Kryo或高通Oryon'CPU、高通传感否中枢和 内存子系统,这些处器为实规协同工作而设计,能够在终端则快速且高效地运行」AI应用,我们 在AI基准烈试和实际生或式AI应用方而的行业领先性能就例证。 我们还专洋于在伞球搭裁高道和蜕龙平台的数十亿终端设资上实现使捷开发和部害,施能开发 若:利用高道Al软件【QualcommAl5tok,开发若可在高消读件上创理、优化和部案A 应用,一次综写即可实现在不同产品和细分领域采用高迫总片组射决方案进行部老:高迫技术公 可正在贴能终端训生成式AI的规模化扩展。 2处埋器集成于SoC中的诸多优势 在不断增长的用广需求、全新应用和终端品类以及技术进步的驱动下,计算架构正在不断演进, 最初,中央处理器(CPU)就能够完成人分处罩,恒确若计算需求增长,对全新处器和加速 器的需求出现:例如,早期智能手机系统由CPV和环绕CPU分右的分立心片组成:用丁2D图 形、音频、图像信号处理、锋窝吨制解吨器和GPS等处型。随若时间移:这些芯片的功能已经 集成到为系统级芯片SoC的羊个芯片体(DIE)中。 列如,现代智能手引l、PC和汽车SoC已集成多种处理器:如中央处理器(CPU)、图形处理器 CPU)和神经网络处理器(NPU)。芯片设计上的这种集成具有诸多优势,包括改善峰 值性能、能效、单位面积性能、芯片尺寸和成本, 列如,在智能于机或笔记本电内安装分立的CPU或NPU会占用史多电路板空间,需要使用史 多能源,从而影响工业设计和电池尺寸,此外,缝入/输出弓间的数据传输也将增多:将导致性 能降低、能证增加:以及采用更大电路板带来的额外成本和更低的共享内存效率,对于智能于 机、策记本电脑和共他需要轻巧工业设计:具有严格功率和胶款限制的便控式终端,集成更为必 要: CPU GPU NPU WFF 3生成式AI需要多样化的处理器 谈到Al,成专用处理器井不新鲜,智能手引SoC白多竹前就开始利用NPU改菩日常用户体 验:赋能出色影像和音频以及增强的迁接和安全。不同之处在于:牛或式A用例需求在有并多 样化要求和计算需求的垂直领域不所增加,这些用可分为三类: 成、录音转录/摘要和文本(电子邮件、文档等:创作/滴安这包括用户用手机输入文 1.按需型用例由用户触发:需要立即响应:包括照片/规频拍提、图像生成/编辑、代码生 字创作自定义图像、在PC上生成会设捐要:或在川车时用语音查询最近的加油站。 视频处理以及实时群译,这包括用户在海外出差时使用于以作为实时对话既译器,以及 2.持续型用例运行时间交长,包括语音认别、游戏和视频的超级分率、视频通语的音频/ 在PC上玩游戏时逐顿运行盈级分浮率。 化机高级文本日动充,例如手可以根推用户✁对计内容上动设与同手✁会设、 3.泛在型用例在后台持续运行」:包括始终儿片✁预测巨AI助于、基于境感知✁AI个性 端✁学习就导助于则能够根据用户✁答题后况实时调整学习资料, 这些AI用例面临两大共同✁关群挑战:第一,在坊群和致志受限✁终端上使用迪用CPV和GPU 服穷平台✁不可需求,难以满定这些AI用例严苛旦多择化✁计异需求:第二,这些AI用例在不 所演进,在功能完全固定✁链件上部老这些用划不切实际,因比,支持处理客样性✁弃构计节架 能够发挥每个处理器✁优势,例如以AI为中心定制设计✁NPU,以及CPU和GPU。每个处 理器趋长不同✁件务:CPU趋长顺序护制动即时件:GPU适合井行数据流处理:NPU拉长标 至、向量和张量数学运算,可用于核心A工作负我, CPV和GPU✁准日处理器:它们为灵活性而设计,非常易干编程,“水职工作”✁负责运行操 作系统、浮戏和其他应用等。而这些“本职下作”同时也公随时限制他们运行AI下作负载✁可用 容工,NPU专为AI打造,AI献✁它✁“本职工作”NPU降低部分易编理性以实现☎高值 性能、能效和而积效率,从而运行机器动所需✁大量乘法、加法和其他运兑。 通过使用合适✁处理器,异构计算能够实现最佳应用性能、能效和电池续航,赋能全新 增强✁生成式AI体验。 4NPU入➀ NPU专为实现以低功耗加速AI推理而全新打造,并随若新AI用例、模型和盅求✁发 展不断演进,对整体SoC系统设计、内存访问快式和其他处理器架构运行AI工作负载时✁瓶颈 进行✁分析会深刻影响NPU设计。这些AI工作载主要包括白标量、亢量和张量数学组成✁弹 经网络计兑,以及随片✁非线性激法函数。 在2015年,早期✁NPU面音频书语音AI用例而设计,这些氏例基于简旦卷积种经网络(CNNI 并且主恶书恶标率和向率数学运算,从2016年于始,拍照和视频AI月例人受欢迎,出现了且于 Transformer、宿环冲经网终(RNNj、K短期记忆网络L5TM)和更高维度✁卷积神经网络iCNN等 更克杂✁全新模型:这些工作负载活要大量张量数学运克,因L比NPU增加了张量引逗器和卷积 加速,让处理效率大幅提升。有了百向张正乘法✁大共享内存配和专用硅仁,不仅能够显芒提 要读取2N个值并进行2N3次运算(单个乘法礼加法)。在张量加速器中,母次内存访间✁计算 候作比率为N:1,而对于标率和向率加速器,这一比率要小得多, 在2023年,大语言模型(LLM)比如Llama2-7B,和大视觉模型(LVM)比如Stable Difusion赋能✁生成式Al使得典型校型✁大小流升超过了一个效量级。除算需求之外,还需 要年点考虑内存和系统设计,消过减少内存数据传输以提高性能和能效,未来预计将会出现对更 人规恒模型和多态模型✁书求, 2016-2022 202 豆 一豆日 网2::WPU距不细变AI用两品模型装演选,实爱高性低, 随若AI持续快速演进,必须在性能、功耗、效率、可编程性和面积之间进行权衡取 舍,一个专用✁定化设计NPU能够做出正确✁选择,与AI行业方向保持高度一致。 5.高通NPU以低功耗实现持久稳定✁高性能A! 经过多年开发,高通HexgnNPU不斯注进,脂够满足大述变化✁AI需求。2007年,首款 HexgonDSP有验龙平台上正式亮相一一DSP控制和标量朵朽✁高通未来多代NPU✁品础, 2015年,嘉龙820处理器正式推出:集成首个高通AI引率:支持成像、音频和传感器运算: 2018三,高迫在晓龙855中为HexaganNPU培加了Hexagon张量灿速器:2019年,高迫在览 龙865上扩展了终端AI用划!,包括AI成像、AI规频、AI语音和始终在线✁感知功能 dragon MSM8916 BT8B105 图3:2015年发布✁能龙820总次集或高适A15率。 2020午,高涵凭告Hexa90nNPU变年性✁架构币新,实现了要里径,我们融合标量、向量 和张至加速器,带来了更佳性能和能效,同时还为加速器打造了专用大共亨内存,让共亨和迁移 数据更加高效,融合AI加速器架构为高通未来✁NPU架构英定了坚实基础。 2022年,第二代晚龙8中✁HexgonNPU引入了众多重要技术提升。专用电际传输轨道能够 根据工作负载动态适配电源供应,微切片推理利用Hex口gonNPU标量加速能力,将神经网络 分制或多个能够独立执行✁微切片:汀除了高达10余层✁内存山用,能够最大化利用Hexgon NPU丰✁标、向和张加速器并降仅功托:六地4位登数(INT4)运算支+持能够-✁升能效 和内行带宽效率,同时INT4层和神经网络✁张量加速吞-高一倍,Transformcr网络速 大提加快了应用于生式AI✁多头注点力机i.✁理速度,在使用MobileBERT模型✁特定用 列中能带来高达4.35倍✁惊人AI性能捉于。其他特弥硬件包括改进分组卷积、激活函数如述 和张型加透器性能, 第三代骁龙.8中约HexagonNPU✁高通面向生成式AI最新、t✁目前最好✁设、计,为持续Al 推理带米98%性能-✁升和40%能效提于:它包托了跨整个NPV✁微架构升级:微切片准理违一 步Ⅱ级,以支持更高效✁生成式AI处理,并降低内存带宽占用:此外,Hexgan张量加速器均 加了独立✁电源传给转道,让活裘不可标量、向量和张量处理划模✁AI模型能够实现最高性能和 效率:大共亨内r✁带宽也增加了一倍:基于以上提升和INT4硬件加速,HexogonNPU 成为面向终端侧生成式AI大模型推理✁领先处理器。 与前f平台栏LL 47118 高通 Hexagon"NPU 。 高通NPU✁差异化优势在于系统级解决方案、定制设计和快逆创新,高通✁系统级解 决方案考呈每个处理器✁架构、SC系统架拘和软件基础设施,以打造最住AI解决方 案。要不培加或修改证件方面微出恰当✁权微和浸常,告要发现当前和消瓶颈。通过跨应 用,神经网络模型、算法,件和硬件✁全栈A究与优化,高通能够做到这一点,由于能够定 这一运代改进和反馈侣环,使我们能够基于品新神经网络架构持续快速培强高迫NPV和高迪AI 题 制设计NPU并控制指令集架构ISA,高通架构师能够快速计行设计注进和扩展以解决颈问 软件栈。基于高道✁自主AI究以及与广大A社区✁作,我们与AI模型✁发展保持可步。高 道具有川晟基出性AI计究以支持全栈终训A川发✁独持能力,可能产品快速上市,并围统绕 终端侧生成式AI等关硅应用优化NPU部署。 相应地,高通NPU历经多代滴进,和月大单技术成果消除瓶颈。例如,第三代晓龙8✁诺多 NPU渠构升级能够背切加速生成式AI大模型。内存带宽✁大语言模型tokcn生成✁柜颈,这意 味若其性能表现更受眼于内带宽而非处理能力:凶此,我们专注于提高内仁带宽效率:第三代 驼龙8