您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国盛证券]:从关键论文看边缘AI - 发现报告
当前位置:首页/行业研究/报告详情/

从关键论文看边缘AI

信息技术2024-07-01刘高畅国盛证券B***
AI智能总结
查看更多
从关键论文看边缘AI

苹果发布Apple Intelligence,自研端+云模型能力优秀。2024年全球开发者大会上,苹果推出了个人智能系统Apple Intelligence,其中用到两个模型:一个30亿参数的设备端模型,以及一个更大的在服务器上运行的模型。Apple Intelligence在基础模型上增加了许多适配器针对总结、校对、邮件回复、音调调整、查询处理、友好性、紧急情况等不同具体任务进行了优化。在多项能力评测中,苹果自研的设备端模型和服务器模型相对可比的开源或商用模型均取得了优秀的成绩。 解决边缘侧性能问题,苹果技术储备充分。大语言模型对计算和内存的大量要求带来了挑战,2023年12月苹果发布论文《LLM in a flash:Efficient Large Language Model Inference with LimitedMemory》提出将模型参数存储在闪存中,按需将其引入内存,解决高效运行超过可用内存容量的大模型的挑战,论文中使用窗口化技术通过重用以前激活的神经元来减少数据传输,行列捆绑增加了从闪存读取的数据块的大小。Apple Intelligence还使用了一系列创新技术以提高模型运行速度和效率,如采用分组注意力查询机制等。在iPhone 15 Pro上,Apple Intelligence能达到每个token约0.6毫秒的首次延迟,以及每秒30个token的生成速率。 科技巨头纷纷布局,加速边缘侧智能助理产业变革。1)2024年5月OpenAI推出最新的旗舰模型GPT-4o,可以实时推理音频、视觉和文本,发布会上OpenAI直播演示了GTP-4o强大的交互能力,是人机交互领域的重大进步。2)2024年5月谷歌IO大会上展示了基于Gemini大模型对AI助手的探索项目Astra,演示了在手机以及眼镜设备上实时推理环境并与用户交互的能力。我们认为科技巨头从边缘侧模型到硬件均在不断做出创新探索,加速智能助理的产业变革,有望打开各类终端软硬件的新增长空间。 建议关注: 1)算力侧:寒武纪、中际旭创、新易盛、工业富联、浪潮信息、海光信息、中科曙光、软通动力、协创数据、云赛智联、神州数码、高新发展、利通电子、烽火通信等。 2)投资修复 信创:达梦数据、纳思达、金山办公、中科曙光、顶点软件。 数字化龙头:海康威视、大华股份。 医疗IT:创业慧康、卫宁健康。 车路云:金溢科技、万集科技、千方科技。 3)AI相关:海康威视、中科创达、立讯精密、鹏鼎控股、金山办公、大华股份、拓尔思、润达医疗、漫步者、云天励飞、虹软科技、昆仑万维、中广天择、同花顺、科大讯飞、万兴科技、用友网络、赛意信息等。 4)自动驾驶:赛力斯、江淮汽车、万马科技、长安汽车、德赛西威、中科创达、海天瑞声、北汽蓝谷、菱电电控、华依科技、经纬恒润、东风汽车、光庭信息等。 5)机器人:三花智控、北特科技、鸣志电器、拓普集团、绿的谐波等。 6)卫星互联网:海格通信、普天科技、创意信息、上海瀚讯等。 风险提示:AI技术迭代不及预期风险;经济下行超预期风险;行业竞争加剧风 苹果发布Apple Intelligence,自研端+云模型能力优秀 2024年6月10日,苹果在全球开发者大会上推出了Apple Intelligence,这是一款深度集成到iOS 18、iPadOS 18和macOS Sequoia中的个人智能系统。Apple Intelligence由多个功能强大的生成模型组成,这些模型专门用于用户的日常任务,并可即时适应用户当前的活动。Apple Intelligence内置的基础模型针对用户体验进行了微调,例如编写和优化文本、确定通知的优先级和摘要、为与家人和朋友的对话创建有趣的图像,以及执行App内操作以简化跨App的交互。 苹果官方介绍了Apple Intelligence中用到的两个模型:一个30亿参数的设备端语言模型,以及一个更大的在服务器上运行的语言模型。 为了保证模型的能力,苹果在基础模型上增加了许多Adapters(适配器)对具体任务进行了优化。适配器是叠加在公共基础模型上的模型权重的小型集合,它们可以动态加载和交换,使基础模型能够即时专注于手头的任务。Apple Intelligence包含一组广泛的适配器,每个适配器都针对特定功能进行了微调,这是扩展基础模型功能的有效方法。 Apple Intelligence的适配器,针对总结、校对、邮件回复、音调调整、查询处理、友好性、紧急情况等不同具体任务都进行了优化。 图表1:针对总结、校对、邮件回复等不同任务的适配器 在多项评测中,苹果的设备端模型和服务器模型都取得了优秀的成绩: 苹果利用一套全面的真实世界提示评估来测试通用模型的功能。这些提示在不同的难度级别上各不相同,涵盖主要类别,如头脑风暴、分类、封闭式问答、编码、提取、数学推理、开放式问答、重写、安全、总结和写作。将苹果的模型与开源模型(Phi-3、Gemma、Mistral、DBRX)和类似规模的商业模型(GPT-3.5-Turbo、GPT-4-Turbo)进行比较,与大多数可比的竞争对手模型相比,苹果的模型更受人工评分师的青睐。在此基准测试中,苹果的3B设备端模型的性能优于Phi-3-mini、Mistral-7B和Gemma-7B等大型模型。服务器模型与DBRX-Instruct、Mixtral-8x22B和GPT-3.5-Turbo相比具有优势,同时效率很高。 图表2:苹果端侧模型和云端模型与其他模型的人类评估结果 苹果使用一组不同的对抗性提示来测试模型在有害内容、敏感主题和事实性方面的性能。 由人工评分员在此评估集上评估。在面对对抗性提示时苹果的设备端和服务器模型都非常强大,其违规率低于开源和商业模型。 图表3:苹果端侧模型和云端模型与其他模型对比针对有害内容、敏感话题和事实的违规回复比例 为了进一步评估模型,苹果使用指令跟踪评估(IFEval)基准测试来比较类似大小的模型的指令跟踪能力,结果表明苹果的设备端和服务器模型都比同等规模的开源和商业模型更好地遵循指令。 图表4:苹果端侧模型和云端模型与其他模型对比针对有害内容、敏感话题和事实的违规回复比例 解决边缘侧性能问题,苹果技术储备充分 大语言模型对计算和内存的大量要求带来了挑战,特别是对于DRAM容量有限的设备而言。2023年12月苹果发布论文《LLM in a flash:Efficient Large Language Model Inference with Limited Memory》,论文提出将模型参数存储在闪存中,按需将其引入DRAM(动态随机存取存储器,也即内存),解决了高效运行超过可用DRAM容量的LLM的挑战。论文涉及了两种主要技术:窗口化(Windowing)技术通过重用以前激活的神经元来减少数据传输,行列捆绑(Row-Column Bundling)针对闪存的顺序数据访问强度进行定制,增加了从闪存读取的数据块的大小。这些方法一起作用,允许运行模型的大小是可用DRAM的两倍,与CPU和GPU中的直接加载方法相比,推理速度分别增加4-5倍和20-25倍。 论文提到当前运行LLM的标准方法是将整个模型加载到DRAM中进行推理。然而这严重限制了可以运行的最大模型大小。一个70亿参数的模型仅以半精度浮点格式加载参数就需要超过14GB的内存,超过了大多数边缘设备的能力。为了解决这一限制,论文建议将模型参数存储在闪存中,闪存至少比DRAM大一个数量级。然后,在推理过程中,直接从闪存加载所需的参数子集,避免了在DRAM中加载整个模型的需求。 图表5:与DRAM和CPU/GPU缓存和寄存器相比,闪存提供了显著更高的容量,但带宽低很多。 评估闪存加载策略的主要指标是延迟,它分为三个不同的组成部分:从闪存加载的I/0成本、用新加载的数据管理内存的开销以及推理操作的计算成本,苹果提出三方面的接近方案在内存限制下减少延迟: 1)减少数据负载:旨在通过加载更少的数据来减少与闪存I/0操作相关的延迟。 论文选择仅将transformer的attention部分权重(约占模型大小的三分之一)以及Embedding层的参数存储在内存中,可以实现更高效的计算和更快的访问,从而提高推里性能,而不需要完整的模型加载。对于前馈网络(FFN)部分,只有非稀疏段会根据需要动态加载到内存中。同时,ReLU激活函数自然会在FFN的中间输出中引入超过90%的稀疏性,这减少了使用这些稀疏输出的后续层的内存占用。为了避免加载整个向上投影矩阵,论文建立了一个low rankpredictor预测输出是0的神经元。 图表6:一个小的lowrankpredictor可以找出哪些中间神经元将被激活 基于滑动窗口技术的神经元数据管理。在每一次LLM进行前向推理时,都需要使用模型预测MLP层中激活神经元的编号,并将所需的神经元所对应的权重由闪存加载到内存中,滑动窗口核心思想是:保留处理过去k个token时的激活神经元所对应的参数在内存中,并在处理当前token时只对部分多余的参数进行删除,缺少的参数进行加载。 图表7:滑动窗口示意图:不删除引入DRAM的神经元,而是保留过去5个令牌的活动神经元:当新token被处 2)优化数据块大小:通过增加加载的数据块的大小来提高闪存吞吐量,从而减少延迟。 对于较小的块,总读取时间的很大一部分用于等待数据传输开始。这通常被称为第一个字节的延迟。这种延迟大大降低了每个读取操作的总体吞吐量,因为总体测量吞吐量不仅要考虑传输开始后的传输速度,还要考虑传输开始前的延迟,这会对小读取造成不利影响。这意味着如果合并对FFN矩阵的行和列的读取,可以为两个矩阵中的任何给定行/列对只支付一次延迟成本,并且可以实现更高的吞吐量。在某些情况下,阅读超过需要的内容然后丢弃是值得的,而不仅仅是严格阅读必要的部分,而是以较小的篇幅。 图表8:闪存中随机读取的吞吐量随着序列块的大小和线程数的增加而增加。 行列绑定的加载方式:对于一个全连层的参数矩阵,当某个神经元被预测为激活时,需要同时读取对应两层的相应行和列为了提高读取速度,可以将两层对应的行和列拼接起来存储,如下图所示: 图表9:行列绑定示意图 3)高效管理加载的数据:数据加载到内存中后还简化数据管理,当为新神经元引入数据时,由于需要重写DRAM中的现有神经元数据,重新分配矩阵和附加新矩阵可能会导致显著的开销。为了解决这个问题,苹果采用了一种内存管理策略减少开销。 图表10:内存管理示意图,首先将最后的元素复制到删除的神经元中,以保持连续的内存块,然后将所需的元 在Apple Intelligence的技术文档中,苹果还提到了使用一系列创新技术在设备上和私有云上对模型进行优化,以提高速度和效率。 (1)设备端模型和服务器模型都使用了分组注意力查询(grouped-query-attention)。 使用共享的输入和输出词汇表来降低内存需求和推理成本。这些共享嵌入张量的映射没有重复。设备端模型使用49K的词汇大小,而服务器模型使用100K的词汇大小。 (2)对于设备端推理,苹果使用low-bit palletization,这是一种关键的优化技术,可实现必要的内存、功耗和性能要求。为了保持模型质量,使用LoRA适配器开发了一个新框架,该框架结合了混合的2位和4位配置策略(平均每权重3.5位),以实现与未压缩模型相同的精度。 (3)苹果还使用了交互式模型延迟和功耗分析工具Talaria。2024年4月,苹果发布《Talaria:Interactively Optimizing Machine Learning Models for Efficient Inference》,为了帮助从业者创建高效的机器学习模型,苹果设计并开发了Talaria:一个模型可视化和优化系统,使开发者能够将模型编译到硬件上,以交互方式可视化模型统计数据,并模拟优化以测试对推理指标的影