高通、苹果、英特尔、Meta、微软、谷歌等龙头企业相继布局终端生成式AI: 随着大模型参数规模的迅速增大,参数规模迈入千亿级和万亿级时代,通用大模型性能优秀,但也带来更大的硬件投入和功耗 。近期Meta、微软、谷歌、苹果、英特尔等科技龙头公司均加快部署生成式AI,并探索在手机、PC等终端的应用。高通在《混合AI白皮书》中提出,混合AI是AI规模化发展的必然趋势,混合AI是指终端和云端协同工作,在适当的场景和时间下分配AI计算的工作负载,模型训练在云端实现;根据模型复杂度,推理工作部分放在终端侧。能够带来成本、能耗、性能、隐私、安全和个性化优势,助力实现随时随地的智能计算。混合AI市场潜力巨大,有望在未来十年内为高通打开约7000亿美元市场。 高通混合AI进展: 高通深耕AI研发15余年,拥有领先的边缘侧AI布局,终端侧AI处理器产品矩阵丰富,以8550为代表的高性能产品已广泛应用于多个终端,但传统SOC不适合生成式AI。高通的混合AI工作致力于推进全栈AI策略,助力AI生态系统大规模快速商业化,具体工作如下:一是算法和模型开发,在不牺牲准确度的前提下提高效率。例如:基于Q-SRNet模型的算法、采用INT4量化的软件,以及支持INT4加速的第二代骁龙8硬件,与INT8相比,INT4性能和能效提高1.5倍至2倍。二是提升软件和模型效率。高通AI软件栈全面支持主流AI框架,比如TensorFlow、PyTorch、ONNX等,旨在为开发者实现一次开发,即可跨高通所有硬件运行AI负载。三是硬件加速。高通AI引擎采用异构计算架构,包括Hexagon处理器、高通Adreno GPU和高通Kryo CPU,通过异构计算,开发者和OEM厂商可以优化智能手机和其他边缘侧终端上的AI用户体验。高通SoC有望持续推陈出新,NPU性能提高,AI算力持续升维。据高通官网数据,骁龙8Gen1的AI算力为9INT8TOPs,骁龙8Gen2的AI算力相比上一代约提升了4.35倍,新一代骁龙8Gen3算力有望持续提升。终端有望运行100亿及以上参数的模型。 终端生成式AI带来的硬件变化及投资机遇: 混合AI或带来硬件终端的变化:1)在功耗允许情况下,终端SoC算力持续提升,端侧软硬件一体框架加速优化;2)模型参数的缓存量较大,DRAM配置需根据模型大小同步递增,有望带动存储产业加速从周期底部走出;3)未来的生成式AI软件安装包中有可能集成训练好的模型参数,NAND配置需相应提高;4)手机、PC等终端的推理计算能耗增加,对产品的散热要求提高;5)数据吞吐增加,总线通信模式或带宽改变。我们认为,近年来消费电子创新乏力,换机周期逐渐延长,智能手机、PC的出货量有所放缓,终端生成式AI应用有望为消费电子产业链注入新动能:搭载高端SoC的机型渗透率有望持续提升,DRAM和NAND等存储芯片单机用量增加,通信、散热等环节持续优化,智能手机和PC的换机周期有望缩短;生成式AI在自动驾驶/智能座舱、机器人、XR、AIoT等领域的应用也有望提速。建议重点关注手机、PC、自动驾驶/智能座舱、机器人、XR、AIoT等相关产业链投资机会。 风险提示:行业竞争加剧;相关技术进展不及预期;商业变现能力不及预期。 1.科技龙头加快布局AI市场,终端侧AI商业化应用落地加速 AI市场持续火热,科技龙头积极布局终端侧AI。年初以来,以ChatGPT为代表的生成式人工智能带动了AI大模型的持续落地和商业化,IOS版ChatGPT已于近期推出,不久的未来OpenAl或为安卓手机提供相应的服务。ChatGPT应用的推出,无疑让更多人感受到了人工智能带来的便利,随着AI走进千家万户,终端AI算力和应用的发展是必不可少的。Meta、微软、谷歌、苹果、英特尔、联发科等各大科技巨头正在加速布局面向消费级和企业级的终端侧AI。 表1:各大科技巨头正在加速终端侧AI布局 AI大模型参数规模增势迅猛,面对算力的巨大消耗,终端算力的发展或成为当务之急。从2012年的AlexNet的百万级参数开始,AI大模型参数规模每年都以指数级的增长速度在扩大,如今不同领域的AI大模型参数规模已经开始逐渐迈入千亿级和万亿级时代。以自然语言处理(NLP)为例,经过十余年的发展,模型参数已经达到了千亿级别,数据量增长了数百万倍。AI大模型可以从海量的数据中训练出通用的知识和能力,从而在不同的任务和领域中表现出强大的泛化性能,而AI大模型参数规模和训练、推理时所需要的算力呈正比关系,因此可以推测未来随着大模型参数规模的增长,对算力的消耗加大,终端算力的发展或成为当务之急。 图1.不同领域的AI大模型参数规模演进 图2.AI大模型参数规模已经开始逐渐迈入千亿级和万亿级时代 2.高通有望引领混合AI发展,助力实现随时随地的智能计算 大模型有望走向端侧,混合AI前景广阔。2023年5月,高通发布了混合AI白皮书,指出混合AI是AI的未来。混合AI是指终端和云端协同工作,在适当的场景和时间下分配AI计算的工作负载。在一些场景下,计算将主要以终端为中心,在必要时向云端分流任务。而在以云为中心的场景下,终端将根据自身能力,在可能的情况下从云端分担一些AI工作负载。在以终端为中心的混合AI架构中,许多生成式AI模型可以在终端上充分运行,云端仅用于分流处理终端无法充分执行的任务。在基于终端感知的混合AI场景中,在边缘侧运行的模型将充当云端大语言模型的传感器输入端,以进一步分流计算任务并减少连接带宽,从而节省成本。终端和云端的AI计算也可以协同工作来处理AI负载,在性能和能耗上实现双赢。 图3.生成式AI大模型走向边缘终端是必然趋势 混合AI能够带来成本、能耗、性能、隐私、安全和个性化优势。混合式AI能够解决大型生成式AI模型推理成本高的问题。仅在云端进行推理,数据中心基础设施成本会持续增加,而将一些处理从云端转移到边缘终端,云基础设施的压力能够减轻并且减少开支。边缘终端能够以很低的能耗运行生成式AI,实现环境和可持续发展目标。在混合AI架构中,终端侧AI处理稳定可靠,可以防止云服务器和网络连接拥堵时出现大量排队等待、高时延和拒绝服务的情况。此外,用户无论身处何地都可以正常运行生成式AI应用。终端侧AI从本质上有助于保护用户隐私,因为查询和个人信息完全保留在终端上,同时让更加个性化的体验成为可能,能够在不牺牲隐私的情况下,根据用户的个性进行定制。 图4.为实现规模化扩展,AI正向边缘转移 混合AI将赋能生成式AI,高通有望引领混合AI发展。当前具备AI功能的智能手机、笔记本电脑和PC、汽车、XR以及物联网等终端产品已达到数十亿台,混合AI架构将赋能生成式AI在上述这些终端领域提供全新的增强用户体验。目前可以在终端侧运行的生成式AI模型参数规模在10亿至100亿之间,随着生成式AI模型不断缩小,以及终端侧处理能力的持续提升,拥有100亿或更高参数的混合AI模型将能够在终端上运行。高通在终端侧AI优势的核心是其AI引擎,通过开发低能耗、高性能AI,已经形成了一个跨智能手机、汽车、XR、PC、笔记本电脑以及企业级AI等领域的庞大终端AI生态系统。目前高通部署的边缘侧终端规模已经十分庞大,截至2023年5月,搭载骁龙和高通平台的已上市用户终端数量已达到数十亿台,而且每年有数亿台的新终端仍在进入市场。 图5.未来100亿或更高参数的混合AI模型有望在终端上运行 图6.高通终端侧AI赋能智能网联边缘 混合AI市场潜力巨大,有望在未来十年内为高通打开约7000亿美元市场。根据IDC预计,到2025年,64%的数据将在传统数据中心之外创建,这意味着更多的数据将采用混合AI的架构运行。高通是有能力打造云边缘融合的公司,根据高通公司官网的预测,混合AI有望在未来十年内扩大公司的潜在市场,达到约7000亿美元的市场规模。 图7.2016-2025年间数字化转型有望带来超过100万亿美元的价值 图8.混合AI有望在未来十年内为高通打开约7000亿美元市场 3.高通持续提升终端硬件AI性能,终端侧全栈AI不断优化 3.1.高通深耕AI研发15余年,不断突破AI可能性 高通重视前沿AI研发,拥有领先的边缘侧AI布局。高通由无线通信领域起家,自2007年启动首个AI研究项目,深耕AI领域已超过15年。高通拥有行业领先的AI硬件和软件解决方案,开发的低功耗、高性能AI,已经形成了一个跨智能手机、汽车、XR、PC、笔记本电脑以及企业级AI等现有市场和新兴领域的庞大终端AI生态系统。 图9.高通深耕AI研发超过15年,不断突破AI可能性 混合AI在各终端陆续落地,应用场景或将不断涌现。根据高通CEO在彭博技术峰会上的发言,预计到2024年,高通公司将推出最新版AI处理器,在手机端可支持10B参数的大模型,在笔记本端可支持20B参数的大模型,在汽车端可支持40-60B参数的大模型。手机端将会出现越来越丰富的AI内容生成场景,笔记本端微软Copilot也将在高通SoC上运行。 图10.高通SoC支持手机运行数十亿参数的AI大模型 图11.高通SoC支持手机AI大模型在12秒内生成图片 高通终端侧AI处理器产品矩阵丰富,高性能产品已广泛应用于多个机型。高通处理器通常利用芯片的数字命名来划分产品档次,骁龙系列产品为例,大致可划分为四个等级:入门级、中级、高级和顶级。其中,骁龙400和200系列属于入门级,骁龙600系列属于中级,骁龙700系列属于高级,骁龙800系列属于顶级。在高通旗舰处理器骁龙800系列中,最新的骁龙8 Gen2具备突破性的AI性能,采用了台积电 4nm 工艺制程,CPU为八核心设计,分别为一个X3大核、两个A720中核、两个A710中核以及三个A510小核,GPU的规格为Adreno740,首批产品将搭载于小米、红米、荣耀、iQOO、一加、OV等厂商。 图12.高通拥有强大且丰富的智能手机SoC产品组合 图14.骁龙8 Gen2首批搭载于小米、红米、荣耀、iQOO、一加、OV等厂商 图13.骁龙8Gen2CPU为八核心设计 表2:骁龙800系列高性能产品已广泛应用于多个机型 3.2.高通全栈AI策略指引下,终端AI性能和能效卓越 高通持续推进全栈AI策略,助力AI生态系统大规模快速商业化。高通专注于研究跨应用程序、神经网络模型、算法、软件和硬件的优化技术,以及跨公司内部的跨学科工作,持续推进全栈AI研究和技术优化。该策略帮助高通在AI全领域创新,助力AI生态系统大规模快速商业化。 图15.高通全栈AI研究和技术持续改进 图16.高通AI全领域引领研发 高通终端侧全栈AI具备行业领先的性能和能效优势。近期高通在其官网发布了相关视频,演示了全球首个在Android智能手机上运行的Stable Diffusion技术。突显了全栈策略的优势。Stable Diffusion是一种全栈研究和优化技术,使终端侧运行的操作能在仅15秒内完成。这项技术已经成功集成进入高通的AI软件栈,预计将在未来的硬件设计中发挥重要作用。此外,Stable Diffusion能够在手机上高效运行的优化方式也可以用于笔记本电脑、XR、汽车、智能耳机等其他终端。通过在高通SoC中已有的计算引擎(如CPU、GPU和DSP)上运行各种机器学习任务,为边缘AI提供了最高效的解决方案。以高通的Hexagon DSP为例,它最初是为多媒体工作而设计的,但它的性能已经进一步优化,以有效地运行人工智能的工作负载。与在CPU上运行相同的工作负载相比,Snapdragon 865上带有的Hexagon DSP已被证明在能效和性能方面有显著改善。 图17.高通AI软件栈将AI软件统一到一个软件包中 图18.Snapdragon 865在能效和性能方面有显著改善 4.混合AI有望率先给手机和PC端带来AI体验变革 4.1.手机硬件结构复杂,APP的运行涉及诸多硬件交互 智能手机相当于袖珍的计算机。智能手机包含处理器、存储器、输