AI专题•从模型视角看端侧AI 模型技术持续演进,交互体验有望升级 西南证券研究发展中心海外研究团队2024年7月 核心观点 基础的构建:模型实现高效压缩是端侧AI的第一步。模型尺寸变小、同时具备较好性能,是端侧AI的前提。目前,在10B参数规模以下的模型中,7B尺寸占据主流,3B及以下小模型仍在探索,部分小模型性能正逐步接近更大参数模型,如谷歌Gemini-Nano模型在部分测试基准上接近Gemini-Pro、MetaLlama-3-8B模型表现可与Llama-2-70B匹敌。模型厂商为兼顾模型尺寸与性能,在算法优化上进行积极探索,在模型压缩技术、稀疏注意力机制、多头注意力变体等领域取得持续进展,帮助模型减少参数、降低存算需求,同时保持较好的性能,为端侧AI奠定小模型的基础。 落地的关键:模型适配终端硬件是端侧AI的第二步。小语言模型(SLM)不完全等于端侧模型,在模型实现高效压缩后,需要进一步与手机硬件进行适配,帮助小模型装进终端。从众多小模型论文中可以发现,当前主要存在内存、功耗、算力三大硬件瓶颈。其中,苹果在其论文《LLMinaflash》中指出,70亿半精度参数的语言模型,完全加载进终端需要超过14GB的DRAM空间;Meta在其MobileLLM模型论文中指出,一个约有5000焦耳满电能量的iPhone,仅支持7B模型在10tokens/秒的AI生成速率下对话不足2小时。为解决以上问题,手机芯片厂商正加速推进AI芯片研发,在先进制程、内存容量及带宽、CPU和GPU性能、以及AI服务器上发力,手机品牌商也将配备更高性能的电池、散热元器件,提升整体终端硬件能力,更好地支持AI模型。 体验的突破:模型助力人机交互是端侧AI的第三步。端侧模型通常能够支持用户完成AI初级任务,然而更丰富、更深度的交互体验需要UI模型、云端模型、以及系统级AI进行有力支撑。其中,UI模型可以提供手机UI界面理解的基础,云端模型能够帮助处理较为复杂的交互任务,系统级AI可以实现多种模型间的调用与协同。在AI时代下,模型的端侧意义不止于类似ChatGPT的聊天机器人软件,而在于赋能手机系统和应用交互的系统级AI,其带来的交互体验将成为影响用户换机的核心。从当前的海外合作阵营来看,可分为“苹果+OpenAI”和“谷歌+高通+三星”两大阵营。未来,随着端侧模型、配套硬件、AI系统的持续发展,终端市场有望呈现更多可能。 相关标的:苹果(AAPL.O)、三星电子(005930.KS)、高通(QCOM.O)、谷歌(GOOGL.O)等。 风险提示:端侧AI技术进展不及预期风险;行业竞争加剧风险;应用开发不及预期风险等。 1 目录 1基础的构建:模型实现高效压缩是端侧AI的第一步 1.1十亿级参数模型加速迭代,性能表现向百亿参数模型靠拢 1.2模型压缩技术助力端侧部署,注意力优化机制降低存算需求 2落地的关键:模型适配终端硬件是端侧AI的第二步 2.1从小模型论文看端侧硬件瓶颈:内存/功耗/算力 2.2从芯片厂商布局看硬件升级趋势:制程/内存/NPU/电池/散热 3体验的突破:模型助力人机交互是端侧AI第三步 3.1UI模型:手机界面理解能力提升,任务设计为人机交互奠定基础 3.2系统级AI:云端模型补充交互体验,系统升级支持更多AI场景 2 1模型实现高效压缩是端侧AI的第一步 模型优化技术 模型压缩:知识蒸馏、量化、剪枝等 稀疏注意力机制: 滑动窗口注意力机制、全局 注意力机制等 多头注意力变体: 分组查询注意力机制、多头 隐式注意力机制等 Flashattention等 … 海外小模型发展概况 模型Gemma-2Gemini-NanoLlama-3.1MobileLLMPhi-3OpenELMMistral 公司 训练 GPU 类型 Google Meta MicrosoftAppleMistral 特点 编码;Phi-2 开始学习推 理;Phi-3擅 长编码和推 理;强调数 据的小而精 技术支持 技术支持 追求方向 追求方向 性能将模型大小压缩至10B参数以下,性能向10B~100B级别参数的模型靠拢 欧洲LLM领先独角兽 核心目标在于服务终端设备及应用 Phi-1专注于 Llama追求数据上的scalinglaw,Llama-3.1加入多模态/多语言/长文本/实用工具 等能力;MobileLLM强调小模型的深度比宽度更重要 Gemma-2基于Gemma-1优化模型具体细节;Gemini-Nano致力于在终端设备上运 行;GQA由谷歌创新提出 算力租赁等 A100,H100 A100,H100 A100,H00 TPUv4,TPUv5e 资料来源:谷歌,Meta,微软,苹果,Mistral,西南证券整理 3 1.1小模型24H1加速迭代,模型性能持续提升 发展节奏:24H1小模型加速推出,MetaLlama领先发布,微软、谷歌相继迭代,苹果厚积薄发。 模型参数:7B模型占据主流;3B及以下小模型进一步探索,其中苹果小模型梯队分布明显。 训练数据:Meta在有限参数下追求数据量上的scalinglaw;微软专注小而精的数据集;苹果旗下小模型的训练数据量与参数量的比值不低。 23H2及24H1海外小模型版本迭代情况 算力消耗:23年GPU大多采用A100,24年主要采用H100;谷歌使用自研TPU;创企选择上云等。 公司模型名称发布日期模型参数量(B)预训练数据量预训练数据量与模型GPU型号预训练耗时 (BTokens)参数量的比值 Google Gemma-2-9B 2024年6月27日 9 8000 889 4096张TPUv4 / Gemma-2-2.6B 训练中 2.6 2000 769 512张TPUv5e / Gemma-1-7B 2024年2月21日2024年2月21日 7 6000 857 4096张TPUv5e / Gemma-1-2B 2 3000 1500 512张TPUv5e / Gemini-Nano-3.25B 2023年12月6日2023年12月6日 3.25/ / TPUv5eorTPUv4 / Gemini-Nano-1.8B 1.8 / / TPUv5eorTPUv5 / Meta Llama-3-8B 2024年4月18日 8 15000 1875 H100 1300000小时 Llama-2-7B 2023年7月18日 77 2000 286 A100 184320小时 Llama-1-7B 2023年2月24日 1000 143 A100 82432小时 MobileLLM-125M 2024年2月22日2024年2月22日 0.125 250250 2000 32张A100 / MobileLLM-350M 0.35 714 32张A100 / 微软 Phi-3-small-7B 2024年4月23日2024年4月23日 7 4800 686 Phi-3系列模型中的Phi-3-medium(14B)模型在512块H100上训练耗时42天 Phi-3-mini-3.8B 3.8 3300 868 Phi-2 2023年12月12日 2.7 1400 519 96块A100 14天 Phi-1.5 2023年9月11日 1.31.3 30 7 23 A100 1500小时 Phi-1 2023年6月20日 5 4块A100 4天 苹果 OpenELM-0.27B 2024年4月25日2024年4月25日2024年4月25日2024年4月25日 0.27 1500150015001500 5556 128块A100 3天 OpenELM-0.45B 0.45 3333 128块H100 3天 OpenELM-1.08B 1.08 1389 128块A100 11天 OpenELM-3.04B 3.04 493 128块H100 13天 资料来源:各公司官网,西南证券整理 4 1.1.1谷歌Gemma系列模型:基于第一代模型架构对技术细节进行优化 谷歌Gemma系列模型性能情况 基于千张TPU集群训练,模型性能在同类中较为领先。1)Gemma-2-9B:在4096张TPUv4上进行训练,在多数基准中得分超过Llama-3-8B和Mistral-7B等同类模型,MMLU5-shot、GSM8K5-shot的测试得分相较于前一代模型Gemma-1-7B分别有11%和32%的增长。2)Gemma-2-2.6B:在512张TPUv5e上进行训练,沿用第一代模型架构,对技术细节进一步优化,Gemma-2-2.6B模型较上一代Gemma-1-2.5B模型在参数量基本不变和数据集更小的情况下实现更优性能,MMLU5-shot、GSM8K5-shot的测试得分相较于上一代模型分别有21%和58%的增长。 模型测试基准 Gemma-1-2.5B Gemma-2-2.6B Mistral-7B LLaMA-3-8B Gemma-1-7B Gemma-2-9B MMLU 5-shot 42.3 51.3 62.5 66.6 64.4 71.3 ARC-C 25-shot 48.5 55.4 60.5 59.2 61.1 68.468.6 GSM8K 5-shot 15.1 23.9 39.6 45.745.9 51.8 AGIEval 3-5-shot 24.2 30.6 44.0 44.952.8 DROP 3-shot,F1 48.5 52.0 63.8 58.4 56.3 69.4 BBH 3-shot,CoT 35.2 41.9 56.0 61.1 59.0 68.2 Winogrande 5-shot 66.8 70.9 78.5 76.1 79.0 80.6 HellaSwag 10-shot 71.7 73.0 83.0 82.0 82.3 81.9 MATH 4-shot 11.8 15.0 12.7 24.3 36.6 ARC-e 0-shot 73.2 80.1 80.5 81.581.2 88.0 PIQA 0-shot 77.3 77.8 82.2 81.7 SIQA 0-shot 49.7 51.9 47.0 51.8 53.4 Boolq 0-shot 69.4 72.5 83.2 83.2 84.2 TriviaQA 5-shot 53.2 59.4 62.5 63.4 76.6 NQ 5-shot 12.5 16.717.7 23.2 23.0 29.2 HumanEval pass@1 22.0 26.2 32.3 40.2 MBPP 3-shot 29.2 29.6 40.2 44.4 52.4 资料来源:谷歌,Meta,微软,苹果,西南证券整理 5 1.1.2谷歌Gemini-Nano系列模型:部分任务性能距GeminiPro较小 专为设备部署而设计,擅长总结和阅读理解。2023年12月6日,谷歌发布Gemini系列自研大模型,参数规模从大至小分别为Gemini-Ultra、Gemini-Pro、Gemini-Nano,其中Gemini-Nano模型包括两种版本,Nano-1参数规模为1.8B,Nano-2为3.25B,旨在分别针对低内存和高内存的设备。 Gemini-Nano-1和Nano-2模型与参数规模更大的Gemini-Pro模型对比来看:1)根据BoolQ基准(主要用于衡量模型理解问题和回答问题的逻辑能力)得分,Gemini-Nano-1的准确率为71.6%,性能是Gemini-Pro的81%,Gemini-Nano-2的准确率为79.3%,是Gemini-Pro的90%,更接近Gemini-Pro的性能;2)TydiQA(GoldP)基准涉及回答复杂问题的能力,Gemini-Nano-1和Gemini-Nano-2的准确率为68.9%和74.2%,分别是G