热门搜索：

AI专题：从模型视角看端侧AI：模型技术持续演进，交互体验有望升级

信息技术2024-07-30王湘杰西南证券x***

AI智能总结

总结：

本报告从模型技术的角度探讨了端侧人工智能（AI）的发展路径，主要围绕三大部分展开：模型的构建、模型的适配与硬件升级、以及模型如何推动人机交互体验的突破。

模型的构建与高效压缩

基础构建：报告指出，高效的模型压缩是端侧AI的关键第一步。在保持良好性能的前提下，模型尺寸的缩小对于端侧部署至关重要。当前，7B参数规模的模型占据主导地位，而3B及以下的小模型正在探索中。部分小模型（如谷歌的Gemini-Nano和Meta的Llama-3系列）在特定基准测试中性能接近甚至超过更大参数的模型，表明在算法优化方面的持续努力有助于平衡模型大小与性能。
技术进展：在模型压缩技术上，研究强调了算法优化的多个方向，包括知识蒸馏、量化、剪枝等方法，以及滑动窗口注意力机制、全局注意力机制等稀疏注意力机制的运用。此外，多头注意力变体，如分组查询注意力机制和多头隐式注意力机制，也被提出以降低模型的存算需求，保持较好的性能。

模型的适配与硬件升级

小模型与终端硬件：小模型的落地依赖于与终端硬件的有效适配。目前，手机硬件面临内存、功耗、算力三大瓶颈。例如，Meta指出，一个70亿参数的语言模型需要超过14GB的DRAM空间，而一个5000焦耳能量的iPhone只能支持7B模型在较低速率下的对话2小时。因此，手机芯片厂商和品牌商正在通过研发先进的AI芯片、增加内存容量和带宽、提升CPU和GPU性能、以及优化电池和散热系统来支持AI模型的部署。

体验的突破与人机交互

系统级AI：端侧模型不仅限于简单的聊天机器人应用，而是通过集成UI模型、云端模型以及系统级AI，实现更丰富、深度的交互体验。这将改变手机系统和应用交互的方式，成为影响用户选择的关键因素。当前，苹果与OpenAI、谷歌与高通、三星的合作模式展示了这一趋势。

相关标的与风险提示

报告推荐了苹果(AAPL.O)、三星电子(005930.KS)、高通(QCOM.O)、谷歌(GOOGL.O)等公司作为关注对象，并提示了端侧AI技术进展不及预期、行业竞争加剧、应用开发进度低于预期等潜在风险。

报告整体展示了端侧AI技术的持续进步及其对终端市场的深远影响，特别是通过优化模型大小、适配硬件升级和增强人机交互体验，推动了AI技术的普及和应用。

AI专题•从模型视角看端侧AI 模型技术持续演进，交互体验有望升级西南证券研究发展中心海外研究团队2024年7月核心观点 基础的构建：模型实现高效压缩是端侧AI的第一步。模型尺寸变小、同时具备较好性能，是端侧AI的前提。目前，在10B参数规模以下的模型中，7B尺寸占据主流，3B及以下小模型仍在探索，部分小模型性能正逐步接近更大参数模型，如谷歌Gemini-Nano模型在部分测试基准上接近Gemini-Pro、MetaLlama-3-8B模型表现可与Llama-2-70B匹敌。模型厂商为兼顾模型尺寸与性能，在算法优化上进行积极探索，在模型压缩技术、稀疏注意力机制、多头注意力变体等领域取得持续进展，帮助模型减少参数、降低存算需求，同时保持较好的性能，为端侧AI奠定小模型的基础。 落地的关键：模型适配终端硬件是端侧AI的第二步。小语言模型（SLM）不完全等于端侧模型，在模型实现高效压缩后，需要进一步与手机硬件进行适配，帮助小模型装进终端。从众多小模型论文中可以发现，当前主要存在内存、功耗、算力三大硬件瓶颈。其中，苹果在其论文《LLMinaflash》中指出，70亿半精度参数的语言模型，完全加载进终端需要超过14GB的DRAM空间；Meta在其MobileLLM模型论文中指出，一个约有5000焦耳满电能量的iPhone，仅支持7B模型在10tokens/秒的AI生成速率下对话不足2小时。为解决以上问题，手机芯片厂商正加速推进AI芯片研发，在先进制程、内存容量及带宽、CPU和GPU性能、以及AI服务器上发力，手机品牌商也将配备更高性能的电池、散热元器件，提升整体终端硬件能力，更好地支持AI模型。 体验的突破：模型助力人机交互是端侧AI的第三步。端侧模型通常能够支持用户完成AI初级任务，然而更丰富、更深度的交互体验需要UI模型、云端模型、以及系统级AI进行有力支撑。其中，UI模型可以提供手机UI界面理解的基础，云端模型能够帮助处理较为复杂的交互任务，系统级AI可以实现多种模型间的调用与协同。在AI时代下，模型的端侧意义不止于类似ChatGPT的聊天机器人软件，而在于赋能手机系统和应用交互的系统级AI，其带来的交互体验将成为影响用户换机的核心。从当前的海外合作阵营来看，可分为“苹果+OpenAI”和“谷歌+高通+三星”两大阵营。未来，随着端侧模型、配套硬件、AI系统的持续发展，终端市场有望呈现更多可能。 相关标的：苹果(AAPL.O)、三星电子(005930.KS)、高通(QCOM.O)、谷歌(GOOGL.O)等。 风险提示：端侧AI技术进展不及预期风险；行业竞争加剧风险；应用开发不及预期风险等。 1 目录 1基础的构建：模型实现高效压缩是端侧AI的第一步 1.1十亿级参数模型加速迭代，性能表现向百亿参数模型靠拢 1.2模型压缩技术助力端侧部署，注意力优化机制降低存算需求 2落地的关键：模型适配终端硬件是端侧AI的第二步 2.1从小模型论文看端侧硬件瓶颈：内存/功耗/算力 2.2从芯片厂商布局看硬件升级趋势：制程/内存/NPU/电池/散热 3体验的突破：模型助力人机交互是端侧AI第三步 3.1UI模型：手机界面理解能力提升，任务设计为人机交互奠定基础 3.2系统级AI：云端模型补充交互体验，系统升级支持更多AI场景 2 1模型实现高效压缩是端侧AI的第一步模型优化技术模型压缩：知识蒸馏、量化、剪枝等稀疏注意力机制：滑动窗口注意力机制、全局注意力机制等多头注意力变体：分组查询注意力机制、多头隐式注意力机制等 Flashattention等 … 海外小模型发展概况模型Gemma-2Gemini-NanoLlama-3.1MobileLLMPhi-3OpenELMMistral 公司训练 GPU 类型 Google Meta MicrosoftAppleMistral 特点编码；Phi-2 开始学习推理；Phi-3擅长编码和推理；强调数据的小而精技术支持技术支持追求方向追求方向性能将模型大小压缩至10B参数以下，性能向10B~100B级别参数的模型靠拢欧洲LLM领先独角兽核心目标在于服务终端设备及应用 Phi-1专注于 Llama追求数据上的scalinglaw，Llama-3.1加入多模态/多语言/长文本/实用工具等能力；MobileLLM强调小模型的深度比宽度更重要 Gemma-2基于Gemma-1优化模型具体细节；Gemini-Nano致力于在终端设备上运行；GQA由谷歌创新提出算力租赁等 A100,H100 A100,H100 A100,H00 TPUv4,TPUv5e 资料来源：谷歌，Meta，微软，苹果，Mistral，西南证券整理 3 1.1小模型24H1加速迭代，模型性能持续提升 发展节奏：24H1小模型加速推出，MetaLlama领先发布，微软、谷歌相继迭代，苹果厚积薄发。 模型参数：7B模型占据主流；3B及以下小模型进一步探索，其中苹果小模型梯队分布明显。 训练数据：Meta在有限参数下追求数据量上的scalinglaw；微软专注小而精的数据集；苹果旗下小模型的训练数据量与参数量的比值不低。 23H2及24H1海外小模型版本迭代情况 算力消耗：23年GPU大多采用A100，24年主要采用H100；谷歌使用自研TPU；创企选择上云等。公司模型名称发布日期模型参数量（B）预训练数据量预训练数据量与模型GPU型号预训练耗时（BTokens）参数量的比值 Google Gemma-2-9B 2024年6月27日 9 8000 889 4096张TPUv4 / Gemma-2-2.6B 训练中 2.6 2000 769 512张TPUv5e / Gemma-1-7B 2024年2月21日2024年2月21日 7 6000 857 4096张TPUv5e / Gemma-1-2B 2 3000 1500 512张TPUv5e / Gemini-Nano-3.25B 2023年12月6日2023年12月6日 3.25/ / TPUv5eorTPUv4 / Gemini-Nano-1.8B 1.8 / / TPUv5eorTPUv5 / Meta Llama-3-8B 2024年4月18日 8 15000 1875 H100 1300000小时 Llama-2-7B 2023年7月18日 77 2000 286 A100 184320小时 Llama-1-7B 2023年2月24日 1000 143 A100 82432小时 MobileLLM-125M 2024年2月22日2024年2月22日 0.125 250250 2000 32张A100 / MobileLLM-350M 0.35 714 32张A100 / 微软 Phi-3-small-7B 2024年4月23日2024年4月23日 7 4800 686 Phi-3系列模型中的Phi-3-medium（14B）模型在512块H100上训练耗时42天 Phi-3-mini-3.8B 3.8 3300 868 Phi-2 2023年12月12日 2.7 1400 519 96块A100 14天 Phi-1.5 2023年9月11日 1.31.3 30 7 23 A100 1500小时 Phi-1 2023年6月20日 5 4块A100 4天苹果 OpenELM-0.27B 2024年4月25日2024年4月25日2024年4月25日2024年4月25日 0.27 1500150015001500 5556 128块A100 3天 OpenELM-0.45B 0.45 3333 128块H100 3天 OpenELM-1.08B 1.08 1389 128块A100 11天 OpenELM-3.04B 3.04 493 128块H100 13天资料来源：各公司官网，西南证券整理 4 1.1.1谷歌Gemma系列模型：基于第一代模型架构对技术细节进行优化谷歌Gemma系列模型性能情况 基于千张TPU集群训练，模型性能在同类中较为领先。1）Gemma-2-9B：在4096张TPUv4上进行训练，在多数基准中得分超过Llama-3-8B和Mistral-7B等同类模型，MMLU5-shot、GSM8K5-shot的测试得分相较于前一代模型Gemma-1-7B分别有11%和32%的增长。2）Gemma-2-2.6B：在512张TPUv5e上进行训练，沿用第一代模型架构，对技术细节进一步优化，Gemma-2-2.6B模型较上一代Gemma-1-2.5B模型在参数量基本不变和数据集更小的情况下实现更优性能，MMLU5-shot、GSM8K5-shot的测试得分相较于上一代模型分别有21%和58%的增长。模型测试基准 Gemma-1-2.5B Gemma-2-2.6B Mistral-7B LLaMA-3-8B Gemma-1-7B Gemma-2-9B MMLU 5-shot 42.3 51.3 62.5 66.6 64.4 71.3 ARC-C 25-shot 48.5 55.4 60.5 59.2 61.1 68.468.6 GSM8K 5-shot 15.1 23.9 39.6 45.745.9 51.8 AGIEval 3-5-shot 24.2 30.6 44.0 44.952.8 DROP 3-shot,F1 48.5 52.0 63.8 58.4 56.3 69.4 BBH 3-shot,CoT 35.2 41.9 56.0 61.1 59.0 68.2 Winogrande 5-shot 66.8 70.9 78.5 76.1 79.0 80.6 HellaSwag 10-shot 71.7 73.0 83.0 82.0 82.3 81.9 MATH 4-shot 11.8 15.0 12.7 24.3 36.6 ARC-e 0-shot 73.2 80.1 80.5 81.581.2 88.0 PIQA 0-shot 77.3 77.8 82.2 81.7 SIQA 0-shot 49.7 51.9 47.0 51.8 53.4 Boolq 0-shot 69.4 72.5 83.2 83.2 84.2 TriviaQA 5-shot 53.2 59.4 62.5 63.4 76.6 NQ 5-shot 12.5 16.717.7 23.2 23.0 29.2 HumanEval pass@1 22.0 26.2 32.3 40.2 MBPP 3-shot 29.2 29.6 40.2 44.4 52.4 资料来源：谷歌，Meta，微软，苹果，西南证券整理 5 1.1.2谷歌Gemini-Nano系列模型：部分任务性能距GeminiPro较小 专为设备部署而设计，擅长总结和阅读理解。2023年12月6日，谷歌发布Gemini系列自研大模型，参数规模从大至小分别为Gemini-Ultra、Gemini-Pro、Gemini-Nano，其中Gemini-Nano模型包括两种版本，Nano-1参数规模为1.8B，Nano-2为3.25B，旨在分别针对低内存和高内存的设备。 Gemini-Nano-1和Nano-2模型与参数规模更大的Gemini-Pro模型对比来看：1）根据BoolQ基准（主要用于衡量模型理解问题和回答问题的逻辑能力）得分，Gemini-Nano-1的准确率为71.6%，性能是Gemini-Pro的81%，Gemini-Nano-2的准确率为79.3%，是Gemini-Pro的90%，更接近Gemini-Pro的性能；2）TydiQA(GoldP)基准涉及回答复杂问题的能力，Gemini-Nano-1和Gemini-Nano-2的准确率为68.9%和74.2%，分别是G

点击免费查看完整报告

你可能感兴趣

AI专题：从模型视角看端侧AI：模型技术持续演进，交互体验有望升级

模型的构建与高效压缩

模型的适配与硬件升级

体验的突破与人机交互

相关标的与风险提示

你可能感兴趣

AI PC行业深度研究报告：AI PC革新端侧AI交互体验，PC行业有望量价齐升

中泰电子AI全视角：科技大厂财报专题：Skyworks、QorvoCY24Q2点评：端侧AI有望拉动射频需求增长

AIGC系列专题：AI技术演进看AIGC：奇点临近，未来已来

计算机行业前瞻行业专题报告：从GPT看AI技术演进路径&产业投资逻辑

AI终端行业专题：从大模型到智能体，端侧算力助力AI规模化应用