AI芯:端侧需求升级推动算力平台革命20240611全文摘要 本次会议集中讨论了AI在端侧测试的需求升级及其引发的算力平台变革。会议分为三个部分:首先解释了将AI部署于端侧的重要性,包括成本效益、可用性、隐私安全和性能等方面的优势;其次分析了几家主要半导体公司的进展和产品变化,尤其关注了集成NPU的芯片的发展;最后讨论了MPU和芯片架构的确定性趋势,以及CPU、GPU和NPU各自的特点和应用场景。会议认为,随着AI技术的发展,端侧AI将成为主流,未来将与云端大规模算力结合,形成重要趋势。同时,各大公 司推出的集成NPU的芯片表明,NPU在AI处理能力上具有显著优势,预计将促进更高效的AI 处理体验。Arm架构在高性能计算和低功耗表现上的优势也使其在PC市场上受到更多关注,预示着将迎来设计和技术创新的高潮。 章节速览 ●00:00推动算力平台革命:AI算力在端侧与云侧的部署策略□本次电话会议由华福证券 电子大科技首席主持,探讨了AI在端侧测试需求升级的重要性及其带来的算力平台变革。会议分为三部分:首先解释了为何需要将AI部署于端侧,而不仅仅是云端;其次梳理了几家主要半导体公司 (SOC)的发展进度及产品变化;最后分析了行业内对于MPU和芯片架构的确定性趋势及其原因 。讨论重点在于当前AI算力的两种主要部署方式:一种是在设备端仅提供感知和输入,将算力部署于云端;另一种是完全部署在端侧,无需上传数据至云端。 ●02:39端测AI:未来主流形态与云端互补□预计在未来,端侧AI将成为主流,凭借本 地执行的成本效益、可用性、隐私安全、性能和个性化定制等方面的优势。尽管云端处理在算力利用上更为高效,但端测AI凭借其算力也能承担高频处理的任务,并展现出巨大发展潜力。历史上,AI任务已从云端逐渐转向端侧,如计算摄影的发展便体现了端侧运行的可行性及其带来的好处。总体而言,端测AI与云端的大规模算力相结合,将是未来的重要趋势。 ●05:21AI算力驱动:端测SOC芯片日新月异□随着AI技术的发展,端测SOC芯片 正在经历快速的演进。各大公司如英特尔、高通、苹果等纷纷推出集成NPU的芯片,显著提升了AI处理能力。这些新品不仅在CPU和GPU上实现了性能提升,而且特别强调了NPU的算力增强 ,预计将使NPU成为一个独立的市场竞争焦点。未来,随着这些技术的不断成熟和应用的拓展,我们可以期待更加高效能的AI处理体验。 ●11:09AI时代MPU的作用与CPU、GPU的分工□在AI时代,MPU,特别是专 为AI负载设计的NPU,因高能耗表现和优化的性能功耗及面积效率而成为必需。相较于CPU和GPU,NPU更适合执行连续的AI负荷,如视频会议分析,从而提升设备续航能力。尽管CPU和GPU也能执行AI任务,它们各自擅长不同的方面:CPU强调顺序控制和及时性,适合轻量 级AI推理;GPU则擅长并行数据流处理,适合高吞吐量应用。在实际任务中,不同处理器之间需协同工作,以高效完成整个AI流程。例如,在从语音输入到虚拟化身的生成过程中,CPU负责文本 到语音的转化,GPU负责图像渲染,而NPU则贯穿始终,处理主要的AI计算任务。 ●15:57Arm架构在PC市场的崛起及其影响□Arm架构在PC市场上的呼声日益高涨 ,微软、苹果和高通都在积极推动其应用。苹果的成功使用M系列芯片大幅提升了其在PC市场的占有率,并证明了arm架构与x86架构间的兼容性问题可以通过适当的方法解决。高通则在芯片端做出了重大改变,引入了自研的架构,进一步促进了Arm在高性能计算方面的应用。此外,AI时代的到来使得低功耗的Arm架构在性能和功耗表现上更具吸引力,预示着PC市场将迎来一场设计和技术创新的高潮。 要点回顾 端侧AI为何需进行需求升级并部署在云端与端侧相结合的方式? 在现代AI技术中,端侧AI因其能提供低成本、高可用性和隐私安全保障的优势,预计将成为未来主流形态。混合AI模式将云端用于弥补端侧处理不足,同时发挥端侧处理在成本控制、实时响应和个性化定制等方面的长处。基于统计,即使按照现有算力资源估算,端侧AI也能承担一部分高频处理的重任,显示出其潜在的巨大发展潜力。 当前各大半导体厂商在端侧SOC产品中的AI算力进展如何? 各大半导体厂商如英特尔、高通、苹果等都在积极投入端侧AI领域,不断优化架构设计和提升算力。例如,英特尔和高通都引入了NPU以增强AI性能,而苹果则推出了全新的M4系列芯片。尽管当 前各款端侧SOC产品的算力普遍集中在30至70个TOPS之间,但英特尔计划在2024年下半年发布的Luna□Lake芯□TOPS。此片预计将拥有高达120□TOPS的整体 效能,其中NPU算力达到48□TOPS,GPU超过60□外,AMD的AI300处理器NPU算力显著提升,远超现有竞品,预示着端侧AI算力正在经历快速增长阶段。NPU为何成为一个独立的竞争赛道,并且会被更加重视?NPU因其具有极高的能耗表现水平,专为AI负载设计并实行神经网络算法性能功耗和面积效率最高 ,使得同样的AI算力,在同等面积占比下NPU的效率最高。尤其在电脑资源管理器中,未来将新增NPU占用率作为性能监控指标,类似于CPU占用率等。随着AI时代的到来,许多场景如视频会议、智能分析等持续性AI负载需求增多,使用NPU能显著降低对CPU和GPU的调用频率, 从而提高轻薄笔记本(如苹果用户)的续航表现。CPU、GPU和NPU在AI任务中的分工是什么?CPU擅长顺序控制和及时性,适合处理轻量级AI推理并实现快速响应;GPU适合高吞吐量的并行数据流处理;而NPU则擅长标量向量和张量数学运算,特别适用于持续性的AI负载,例如视频会 议理解和长期应用处理。在AI任务流中,不同处理核心根据各自的高效特点协同工作,例如语音输入转化为虚拟化身场景中,每个步骤都由特定的核心负责高效完成。Arm架构在PC领域的呼声为何再度提升? 主要原因是苹果的M系列芯片在PC市场的成功推广带动了整个arm架构的发展,尤其是在市场份额 和应 用生态兼容性方面的进步。高通发布自研架构并在WindowsPC领域做出重大改变,与微软的合作促 使Arm架构芯片在必要性和份额上有望进一步提升。苹果的产品线证明了arm架构在PC市场的可行性,并通过优化工具解决了应用生态兼容性问题,使得Arm架构性能和功耗优势更为明显,从而引发了PC整机厂商前所未有的重视。