1 2023年5月 混合AI是 AI的未来 第二部分: 高通在推动混合AI规模化扩展方面独具优势 目录 1摘要3 2高通技术公司是终端侧AI的领导者3 2.1持续创新4 2.1.1我们AI技术的发展历程4 3我们在终端侧生成式AI领域的领导力4 3.1突破终端侧和混合AI边界5 3.2负责任的AI5 4卓越的终端侧AI技术和全栈优化6 4.1算法和模型开发7 4.2软件和模型效率7 4.2.1量化9 4.2.2编译9 4.3硬件加速10 5无与伦比的全球边缘侧布局和规模11 5.1手机12 5.2汽车12 5.3PC和平板电脑12 5.4物联网13 5.5XR13 2 6总结13 1摘要 正如白皮书第一部分所言,在云端和终端进行分布式处理的混合AI才是AI的未来。混合AI架构,或仅在终端侧运行AI,能够在全球范围带来成本、能耗、性能、隐私、安全和个性化优势。 高通正在助力实现随时随地的智能计算。高通技术公司作为终端侧AI领导者,面向数十亿手机、汽车、XR头显与眼镜、PC和物联网等边缘终端提供行业领先的硬件和软件解决方案,对推动混合AI规模化扩展独具优势。高通的硬件解决方案具有行业领先的能效,智能手机解决方案的能效与竞品对比,大约有两倍的优势。凭借一系列基础研究,以及跨AI应用、模型、硬件与软件的全栈终端侧AI优化,我们的持续创新让公司始终处于终端侧AI解决方案的最前沿。 高通技术公司还专注于为全球数十亿、由高通和骁龙®平台支持的终端提供开发和部署的简便性,从而赋能开发者。利用高通AI软件栈,开发者可以在我们的硬件上创建、优化和部署AI应用,一次编写即能实现跨我们芯片组解决方案的不同产品和细分领域进行部署。凭借技术领导力、全球化规模和生态系统赋能,高通技术公司正在让混合AI成为现实。 2高通技术公司是终端侧AI的领导者 凭借赋能数十亿边缘终端的终端侧AI领导力,高通技术公司正在助力打造混合AI新时代。可扩展的技术架构让我们能够采用一个高度优化的AI软件栈即可在不同终端和模型上进行工作。我们的AI解决方案旨在提供最佳能效,让AI无处不在。 高通AI引擎是我们终端侧AI优势的核心,它在骁龙平台和我们其他众多产品中发挥了重要作用。高通AI引擎作为我们多年全栈AI优化的结晶,能够以极低功耗提供业界领先的终端侧AI性能,赋能当前和未来的用例。搭载高通AI引擎的产品出货量已超过20亿,赋能极为广泛的终端品类,包括智能手机、XR、平板电脑、PC、安防摄像头、机器人和汽车等。1 高通AI软件栈将我们所有相关的AI软件产品集成在统一的解决方案中。OEM厂商和开发者可在我们的产品上创建、优化和部署AI应用,充分利用高通AI引擎性能,让AI开发者创建一次AI模型,即可跨不同产品部署。 1https://www.qualcomm.com/products/mobile/snapdragon/smartphones/mobile-ai 骁龙和高通品牌产品是高通技术公司和/或其子公司的产品。 2.1持续创新 我们开发的低功耗、高性能AI,已经形成了一个跨智能手机、汽车、XR、PC、笔记本电脑以及企业级AI等现有市场和新兴领域的庞大终端AI生态系统。多年来,我们在照片与视频拍摄、先进连接、语音指令、安全和隐私等关键用例领域,持续利用AI赋能芯片组产品、打造差异化优势,以获得市场领先地位。 2.1.1我们AI技术的发展历程 高通深耕AI研发已超过15年。在高通AI研究2,我们的使命是实现AI基础研究突破,并实现跨行业和用例的规模化扩展。高通正在推动AI进步,让感知、推理和行为等核心能力在终端上无处不在。我们的重要AI研究论文正在影响整个行业,推动高能效AI发展。通过汇聚领域内的杰出人才,高通正在不断突破AI可能性,塑造AI的未来。 图1:高通持续的AI研发投入是产品领导力的基础。 3我们在终端侧生成式AI领域的领导力 多年来,高通AI研究团队一直在探索生成式AI。生成式AI可追溯到生成式对抗网络(GAN)和变分自编码器(VAE)。最初,我们探索了生成式模型是否能够很好地压缩,并进一步提升生成痕迹(Artifact)的感知效果。我们利用VAE技术创建更好的视频和语音编解码器,将模型规模 2高通AI研究是高通技术公司的机构。 控制在1亿参数以下。我们还将生成式AI理念延伸到无线领域来替代信道模型,让通信系统更加高效。 近期,我们已在终端侧实现支持超过10亿参数的生成式AI模型,比如StableDiffusion,并计划未来在终端侧支持参数高达数百亿的模型。我们不仅在研究如何将生成式AI模型用作通用代理来构建计算架构并使用语言来描述相关任务和行为,同时也正在研究如何能够通过增加感知输入 (比如视觉和音频),进一步开拓这一能力以及环境交互能力,比如对机器人生成指令或运行软件。 3.1突破终端侧和混合AI边界 高通技术公司具有独特专长,我们能够提供在边缘侧终端上低功耗运行生成式AI所需的处理性能,例如大语言模型(LLM)等。若要让生成式AI得到广泛采用,就不能像目前这样仅在云端进行推理,还必须在终端侧进行大量AI处理。为了让生成式AI融入日常生活,AI处理需要同时使用云端和终端。最终,AI能力将成为用户选购下一款手机、PC或汽车的主要影响因素。 通过AI硬件加速和简化开发的软件解决方案(比如高通AI软件栈),高通已经在引领终端侧AI 推理。目前,我们能够支持在终端侧运行参数超过10亿的模型,预计在未来几个月,终端侧将可 以支持超过100亿参数的模型。 我们的AI加速架构具备灵活性和稳健性的特点,能够应对生成式AI模型架构的潜在变化。随着大语言模型和其他生成式AI模型持续演进,高通AI软件栈和技术将随之不断发展。能够轻松开发混合AI应用是关键所在,而我们跨产品组合的通用AI架构以及AI工具正是面向这一未来而设计。 3.2负责任的AI 高通力求创造能为社会带来积极影响的AI技术。高通的终端侧AI愿景基于透明、负责、公平、管理环境影响和以人为本等原则,我们的工作将产生广泛深远的影响,因此我们致力于负责任地管理AI,并采取措施以规避潜在危害。高通终端侧AI解决方案旨在赋能增强的隐私性和安全性,这对打造稳健可信的AI生态系统至关重要。 高通密切关注并配合参与全球各地政府的监管框架、指导方针和最佳实践,包括政府间政策指导 (比如,世界经济合作与发展组织推出的《人工智能发展建议》)和区域与国家框架(比如欧盟制定的《人工智能法》和美国国家标准与技术研究所发布的《人工智能风险管理框架》)。这些 法规和政策指导方针为负责任地开发和部署AI技术提供了重要的法律和道德考量标准。遵守AI法规和最佳实践是高通致力打造道德、负责的AI创新的基础,我们的工作实践将持续看齐不断演进的AI治理格局。 最后,作为我们参与和领导行业协作、标准机构组织和联盟的一部分,高通支持并倡导AI标准、数据与隐私保护和稳健的网络安全。一直以来,高通深知拥有稳健的综合性标准,对于指导负责任的新技术开发部署具有重要意义。 携手合作开发稳健有效的AI标准,是迈向打造可持续且可信赖的AI生态系统的关键一步。 4卓越的终端侧AI技术和全栈优化 高通为应用、神经网络模型、算法、软件和硬件进行全栈AI研究和优化。异构计算方法利用硬件 (比如CPU、GPU和AI加速器)和软件(比如高通AI软件栈)来加速终端侧AI。我们的团队跨上述全部领域联合工作,共同开发最为优化的解决方案。 图2:高通全栈AI研究和优化赋能技术持续改进并引领高能效解决方案发展。 上图展示的循环创新方式让我们能够基于最新神经网络架构,针对硬件、软件和算法持续改进高通AI软件栈。高通在AI基础研究方面具备独特能力,能够支持全栈终端侧AI研发,赋能产品快速上市并围绕终端侧生成式AI等关键应用实现优化部署。 高通演示的全球首个在Android智能手机上运行的StableDiffusion,突显了我们全栈策略的优势。所有让StableDiffusion实现15秒内完成终端侧运行的全栈研究和优化,现已集成进高通AI软件栈,并将助力提升未来硬件设计。此外,让StableDiffusion能够在手机上高效运行的优化方式也可以用于其他平台,比如高通技术赋能的笔记本电脑、XR终端和几乎任何其他终端。 4.1算法和模型开发 高通研究团队从事神经网络架构开发和调整工作,以在不牺牲准确度的前提下提高效率,例如动作识别和超级分辨率。 面向动作识别设计的传统深度学习模型会逐帧、逐层地处理视频序列,虽然这会带来准确的处理结果,但它是计算密集型的、时延高,并且能效低。高通现已推出的FrameExit模型能够自主学习,针对较简单视频处理更少帧,针对较复杂视频处理更多帧,以减少能耗并提高性能。除模型结构创新之外,高通全栈AI优化还包括最先进的量化技术和创新的编译器(compiler)栈。我们在移动终端上演示了这一技术,在常用动作识别基准测试平台上相较于其他方法计算量和时延 (平均)可减少五倍。 面向高清屏幕上的游戏和视频播放等应用,超级分辨率能够让图像更清晰、锐利,实现分辨率升格。尽管基于AI的超级分辨率相比传统解决方案能够实现出色的视觉质量,但在移动终端上实时运行颇具挑战性。高通对AI全栈进行了优化,包括基于我们Q-SRNet模型的算法、采用INT4量化的软件,以及支持INT4加速的第二代骁龙8硬件。我们利用INT4模型实现全球首个实时超级分辨率终端侧演示,大幅改善了时延和功耗。实际上,与INT8相比,INT4性能和能效提高了 1.5倍至2倍。 4.2软件和模型效率 高通AI软件栈旨在帮助开发者实现一次开发,即可跨高通所有硬件运行AI负载。高通AI软件栈全面支持主流AI框架,比如TensorFlow、PyTorch、ONNX和Keras,以及包括TensorFlowLite、TensorFlowLiteMicro和ONNXRuntime等在内的runtime。此外,它还集成了推理软件开发包(SDK),比如我们广受欢迎的高通神经网络处理SDK,包括面向Android、Linux和Windows的不同版本。高通开发者库和服务支持最新编程语言、虚拟平台和编译器。在更底层,我们的系统软件集成了基础的实时操作系统(RTOS)、系统接口和驱动程序。我们还支持广泛的操作系统(包括Android、Windows、Linux和QNX),以及用于部署和监控的基础设施(比如Prometheus、Kubernetes和Docker)。 高通AI软件栈还集成了Qualcomm®AIStudio,支持从模型设计到优化、部署和分析的完整工作流。它将高通提供的全部工具集成到一个图形用户界面,并利用可视化工具以简化开发者体验,支持开发者实时查看模型开发进度,这其中包括高通AI模型增效工具包(AIMET)、AI模型增效工具包模型库、模型分析器和神经网络架构搜索(NAS)。3 图3:高通AI软件栈旨在帮助开发者一次编写、随处运行,实现规模化部署。 高通专注于AI模型效率研究以提高能效和性能。快速的小型AI模型如果只能提供低质量或不准确的结果,那么将失去实际用处。因此,我们采用全面而有针对性的策略,包括量化、压缩、条件计算、神经网络架构搜索(NAS)和编译,在不牺牲太多精度的前提下缩减AI模型,使其高效运行。即使是那些已经面向移动终端优化过的模型我们也会进行这一工作。 3高通AI模型增效工具包(AIMET)和AI模型增效工具包模型库是高通创新中心公司的产品。 4.2.1量化 图4:高通AI研究采用整体AI模型效率研究方法。 面向高效整数推理的量化是我们的重点关注领域之一。过去几年,我们通过论文和演示分享了高通领先的AI量化研究,包括训练后量化(PTQ)技术,比如无数据量化和自适应舍入(AdaRound),以及联合量化和剪枝技术,比如贝叶斯比特。量化不仅能够提高性能,降低内存要求,还能通过让模型在高通