您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[财通证券]:大模型推理成本降低,AI应用落地可期 - 发现报告

大模型推理成本降低,AI应用落地可期

2024-06-10杨烨财通证券何***
AI智能总结
查看更多
大模型推理成本降低,AI应用落地可期

「API降价」为应用落地带来肥沃土壤。大模型的智能水平随着参数量和训练数据量的显著增加而提升,但高昂的推理成本限制了其应用落地。自5月以来,幻方DeepSeek-V2引入创新性的MLA架构,将模型输入和输出价格分别降至1元和2元每百万token,受到广泛关注。随后,字节豆包在国内大模型市场率先降价,阿里、百度等云厂商以及智谱AI等初创公司也推出具有竞争力的低价模型。事实上,API价格下降是行业发展的必然趋势。得益于(i)模型架构的创新、(ii)推理引擎的推出、(iii)芯片性价比的提升以及(iv)参数量化的普及,大模型的推理成本已经取得了显著的优化,API价格的下降将促进应用生态的繁荣,吸引更多开发者,推动AI原生应用的落地。 「Attention机制」优化计算复杂度的源头。注意力机制(Attention)是大语言模型成功的关键技术,Transformer模型利用自注意力机制在序列间建立长距离依赖,提高了seq2seq任务性能。然而,标准自注意力机制的时间空间复杂度随序列长度N呈二次方增长,为此业界探索简化MHA(如MQA、GQA、MLA)或替代Attention机制(如Mamba、RWKV、RetNet)的方案来降低计算和内存需求。近期,以幻方DeepSeek提出的MLA和Mamba-2为代表的SSD架构让业界看到了对Attention机制进一步优化提效的巨大潜力。 「MoE架构」高效扩展模型参数量的秘诀。混合专家模型(MoE)架构通过集成多个专家模型和门控网络,实现模型参数的高效扩展和计算量的降低。当前研究聚焦于构建更异构的MoE,以自适应地调整计算成本,提高模型效率。 幻方DeepSeek-V2和Snowflake的Arctic模型分别采用细粒度切割+共享专家独立机制和Dense-MoE混合架构,显著提升了参数效率。随着业界对MoE研究的深入,更加异构的MoE架构将逐渐被主流模型厂商采用,并融入其旗舰模型中。这将带来模型的推理成本更加动态分配,与之对应的单位成本模型能力也将变得更加强大。 投资建议:见正文 风险提示:AI技术迭代不及预期的风险,商业化落地不及预期的风险,政策支持不及预期风险,全球宏观经济风险。 1「API降价」为应用落地带来肥沃土壤 API价格下降带来大模型使用成本大幅降低。尽管在Scaling Law的推动下,大模型的智能水平随着参数量和训练数据量的显著增加而得到了提升,但其庞大的模型参数规模和与生俱来的高计算复杂度使得大模型的推理成本高昂,成为了现阶段制约其应用落地的主要因素之一。自5月以来,幻方DeepSeek-V2以其创新性的MLA架构惊艳亮相,将模型输入价格和输出价格分别降低至1元/百万token和2元/百万token,引起了业内的广泛关注。紧接着以字节豆包为首的国内模型厂商率先降低了旗舰模型的API价格至10元/百万token以内,轻量款模型的价格更是降至1元/百万token以内。随后,阿里、百度等云厂商也跟随降价,初创模型公司如智谱AI也推出了具有竞争力的GLM-4-Air和GLM-4-Flash版本。我们认为,大模型API价格的下降将促进应用生态的繁荣。更多高性价比的模型选择和更低的应用运营成本将吸引更多开发者进入,为AI原生应用的落地提供肥沃的土壤。 图1.国内外主流模型API价格 API价格下降是行业发展的必然趋势。自ChatGPT发布以来,OpenAI作为行业的领导者,一直引领着模型API价格的下降趋势。我们看到,其旗舰模型GPT-4的输出价格从去年gpt-4-32k版本的每百万tokens高达120美元降至最新gpt-4o版本的每百万tokens仅15美元,降幅接近90%。这意味着随着(i)模型架构的创新、(ii)推理引擎的推出、(iii)芯片性价比的提升以及(iv)参数量化的普及,大模型的推理成本已经取得了显著的优化。展望未来,我们相信诸如 MLA、细粒度MoE或Mamba这样的高效扩展Transformer方法将会进一步带来推理侧降本的突破,这意味着我们将能够获得更高性能的基座模型,而单位token成本将会更低,大模型的“摩尔定律”也将持续。 图2.高效拓展Transformer架构的方法一览 2「Attention机制」优化计算复杂度的源头 注意力机制(Attention)是大语言模型成功背后的关键技术。心理学上认为,人类会基于非自主性提示和自主性提示有选择地引导注意力的焦点。类比到深度学习中,注意力机制是根据查询(Query,Q)选择对应的键(Key,K)和值(Value,V),其中给定的Q也就是自主性提示,Key和Value是环境,是非自主性。当Q与K(非自主性提示)进行匹配,这将引导得出最匹配的V(感觉输入)。在Transformer中,研究者通过(i)通过Q和K做内积计算注意力分数、(ii)通过对注意力分数做Softmax调整,再与V相乘实现注意力池化,最后输出的向量则包含了该Query与全局所有序列的信息。在此基础上,作者还引入了多头注意力(MHA)融合了来自于多个注意力汇聚的不同知识,就像是用不同的镜头看同一个场景,以此增加模型可学习参数量的同时增强了模型表达的多样性。 图3.注意力机制原理图 Transformer的提出使得seq2seq任务性能大幅提升。seq2seq任务通常涉及将一个序列转换为另一个序列,这在机器翻译、文本摘要、语音识别等领域中非常常见。传统的seq2seq模型(如循环神经网络RNN或长短期记忆网络LSTM)在处理长序列时难以解决长距离依赖和计算并行效率低的问题。在《Attention is all you need》这篇论文中,作者在seq2seq任务中引入了多头自注意力机制 (MHA),更好的捕捉了序列中长距离的依赖关系,并将其与一个前馈网络(FFN)相连,通过高维非线性变化提取复杂特征,组成了我们熟知的 Transformer架构。具体来说,在Transformer编码器中,它包括(i)表示层、(ii)自注意力层、(iii)前馈网络层、(iv)Add & Norm。在这些组成部分中,模型的参数量主要分布在自注意力层和前馈网络层。 图4.Transformer架构图及其中文翻译 通过对注意力头进行简化或压缩实现Attention计算复杂度的降低。尽管 Transformer在解决长距离依赖和并行计算能力上取得了巨大突破,但标准自注意力机制的时间空间复杂度随序列长度N呈二次方增长(看得越多,输出得越多,同时需要记忆的也越多),因此降低Transformer的计算和访存资源是行业一直在推动的重要命题,其中对注意力层进行改进是业界探索的主要方向之一,这包括(i)对多头注意力机制进行简化或压缩(MQA、GQA、MLA...)、(ii)用循环结构去替代注意力机制(Mamba、RWKV、RetNet...)。其中,对多头注意力机制的简化本质是减少注意力头的数量,以此减少参数量和KV Cache的显存占用。举例来说,MQA采用了激进的单个Key-Value head,推理速度很快,但是性能损失大;GQA选择了介于MHA和MQA之间的一种形式,多个Query共享一组KV,这一方法被Llama系列沿用至今;MLA则是将KV值压缩到一个低维空间,显著减少模型在推理时的内存占用和计算需求,这也是幻方Deepseek-V2这一工作的主要贡献。 图5.MHA、GQA、MQA、MLA原理比较示意图 去Attention化以提升模型效率是另一个学术界重点攻坚的领域。虽然 Transformer当前依然是语言模型的主流架构,但对Transformer替代品的寻找在学术界并没有停止,例如像Mamba这样的状态空间模型(SSMs)最近被证明在中小型尺寸的模型有着更优异的性能表现。近期,Mamba的作者在最新的论文《Transformers are SSMs》中进一步证明了SSMs和注意力机制之间存在着密切的联系,并通过结构化空间对偶框架(SSD)设计了全新架构Mamba-2,其核心是对Mamba选择性SSM的改进,与前代相比速度提高了2-8倍,继续保持着与Transformer竞争的潜力。 图6.Mamba-2架构示意图 3「MoE架构」高效扩展模型参数量 MoE已成为高效拓展模型参数的主流技术路线。混合专家模型(Mixture of Experts,简称MoE)的思想源于集成学习(Ensemble Learning),即通过训练多个模型(基学习器)来解决同一问题,并将它们的预测结果进行简单组合(例如投票或平均)。MoE模型主要由两个关键部分组成:专家(Experts)和门控网络(Gating Network)。GateNet的作用在于判定输入样本应该由哪个专家模型接管处理。而不同的Experts则构成了一组相对独立的专家模型,每个专家负责处理特定的输入子空间。在MoE架构中,我们用MoE层替代了传统Transformer模型中的每个前馈网络(FFN)层以实现模型的“稀疏化”。基于这一原理,在模型预训练和推理过程中,并不是所有的专家都会被激活。这种稀疏激活的方式使得MoE模型能够在保持高参数规模的同时,降低实际计算量,提高模型的效率和速度。因此,如果说长文本和多模态分别实现了LLMs的“内存”和“感知模态”的扩展,那么MoE则是实现“参数量”的高效扩展。 图7.MoE原理图(Switch Transformer,FNN被MoE替换) 更加异构的MoE是下一步模型迭代的方向。类比人脑,任务的复杂度和脑细胞的消耗量成正比,那么对于LLMs,是否可认为任务的复杂度也和模型需要激活的参数量成正比?对模型结构做稀疏化的初衷也源于此,但当前,业界对MoE的尝试还处于很早期的阶段,MoE的设计方案也非常生硬,远远没有到可以类比人脑的动态程度,例如对于专家数量、每个专家大小,每次激活个数,哪些层用专家的选择都很机械。因此,如何构建一个异构的MoE,根据问题的难度自适应地调整和分配预测时的计算成本,使模型更加高效,是目前MoE方向研究的重点方向(例如下图的MoDE)。在异构MoE的基础上,LLMs有潜力自主实现近似的自适应token计算。下一个token预测本质上是一个“循环”结构,LLMs可以自主决定何时结束“循环”(即输出终止token)。因此,对于复杂度高的问题,理论上大LLMs可以决定生成更多token,这就需要异构MoE与原生思维链能力的结合。 图8.MoDE能够实现更加动态的token计算量分配 幻方DeepSeek创新性地提出细粒度切割与共享专家独立机制。幻方在2024年1月发布论文《DeepSeekMoE: Towards Ultimate ExpertSpecialization in Mixture-of-Experts Language Models》,并创新性的提出了比传统MoE更加异构的架构DeepSeekMoE。在随后5月开源的DeepSeek-V2中,该模型也采用了 DeepSeekMoE架构,主要包括细粒度专家切割(finer granularity for higher expert)和共享专家独立(shared expertsisolation)这两个特点,这样的做法可以带来更多样的激活组合,帮助每个expert达到更高程度的专业化的水平。 DeepSeek-V2在推理阶段,2个共享专家每次推理时会固定激活,细粒度专家每次会从160个中选6个激活(共享专家和细粒度专家1:3的比例)。通过这种共享专家+细粒度专家分割的结构,DeepSeek-V2总参数量236B,推理只激活21B,大致达到了70B稠密模型的能力,证明该架构有很高的参数效率。 图9.DeepSeekMoE采用了细粒度切割与共享专家独立机制 Snowflake开源Dense-MoE混合Transformer架构。4月底,Snowflake开源了Arctic模型,Arctic使用了独特的Dense-MoE混合Transf