您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[财通证券]:大模型推理成本降低,AI应用落地可期 - 发现报告
当前位置:首页/宏观策略/报告详情/

大模型推理成本降低,AI应用落地可期

2024-06-10杨烨财通证券何***
AI智能总结
查看更多
大模型推理成本降低,AI应用落地可期

投资评级:看好(维持) 核心观点 证券研究报告 最近12月市场表现 计算机 沪深300 10% 0% -11% -21% -32% -43% 分析师杨烨 SAC证书编号:S0160522050001 yangye01@ctsec.com 联系人董佳男 dongjn@ctsec.com 相关报告 1.《AI算力需求旺盛,液冷产业加速发展》2024-06-02 2.《低空经济政策催化持续,空域管理有望不断细化》2024-05-26 3.《影院放映系统更新,LED显控系统显著受益》2024-05-25 「API降价」为应用落地带来肥沃土壤。大模型的智能水平随着参数量和训练数据量的显著增加而提升,但高昂的推理成本限制了其应用落地。自5月以来,幻方DeepSeek-V2引入创新性的MLA架构,将模型输入和输出价格分别降至1元和2元每百万token,受到广泛关注。随后,字节豆包在国内大模型市场率先降价,阿里、百度等云厂商以及智谱AI等初创公司也推出具有竞争力的低价模型。事实上,API价格下降是行业发展的必然趋势。得益于(i)模型架构的创新、(ii)推理引擎的推出、(iii)芯片性价比的提升以及(iv)参数量化的普及,大模型的推理成本已经取得了显著的优化,API价格的下降将促进应用生态的繁荣,吸引更多开发者,推动AI原生应用的落地。 「Attention机制」优化计算复杂度的源头。注意力机制(Attention)是大语言模型成功的关键技术,Transformer模型利用自注意力机制在序列间建立长距离依赖,提高了seq2seq任务性能。然而,标准自注意力机制的时间空间复杂度随序列长度N呈二次方增长,为此业界探索简化MHA(如MQA、GQA、MLA)或替代Attention机制(如Mamba、RWKV、RetNet)的方案来降低计算和内存需求。近期,以幻方DeepSeek提出的MLA和Mamba-2为代表的SSD架构让业界看到了对Attention机制进一步优化提效的巨大潜力。 「MoE架构」高效扩展模型参数量的秘诀。混合专家模型(MoE)架构通过集成多个专家模型和门控网络,实现模型参数的高效扩展和计算量的降低。当前研究聚焦于构建更异构的MoE,以自适应地调整计算成本,提高模型效率。幻方DeepSeek-V2和Snowflake的Arctic模型分别采用细粒度切割+共享专家独立机制和Dense-MoE混合架构,显著提升了参数效率。随着业界对MoE研究的深入,更加异构的MoE架构将逐渐被主流模型厂商采用,并融入其旗舰模型中。这将带来模型的推理成本更加动态分配,与之对应的单位成本模型能力也将变得更加强大。 投资建议:见正文 风险提示:AI技术迭代不及预期的风险,商业化落地不及预期的风险,政策支持不及预期风险,全球宏观经济风险。 请阅读最后一页的重要声明! 内容目录 1「API降价」为应用落地带来肥沃土壤3 2「Attention机制」优化计算复杂度的源头4 3「MoE架构」高效扩展模型参数量8 4投资建议12 5风险提示12 图表目录 图1.国内外主流模型API价格3 图2.高效拓展Transformer架构的方法一览4 图3.注意力机制原理图5 图4.Transformer架构图及其中文翻译6 图5.MHA、GQA、MQA、MLA原理比较示意图7 图6.Mamba-2架构示意图7 图7.MoE原理图(SwitchTransformer,FNN被MoE替换)8 图8.MoDE能够实现更加动态的token计算量分配9 图9.DeepSeekMoE采用了细粒度切割与共享专家独立机制10 图10.Snowflake开源Dense-MoE混合Transformer架构11 图11.PyramidResidualMoE架构与标准MoE架构对比图12 1「API降价」为应用落地带来肥沃土壤 API价格下降带来大模型使用成本大幅降低。尽管在ScalingLaw的推动下,大模型的智能水平随着参数量和训练数据量的显著增加而得到了提升,但其庞大的模型参数规模和与生俱来的高计算复杂度使得大模型的推理成本高昂,成为了现阶段制约其应用落地的主要因素之一。自5月以来,幻方DeepSeek-V2以其创新性的MLA架构惊艳亮相,将模型输入价格和输出价格分别降低至1元/百万token和2元/百万token,引起了业内的广泛关注。紧接着以字节豆包为首的国内模型厂商率先降低了旗舰模型的API价格至10元/百万token以内,轻量款模型的价格更是降至1元/百万token以内。随后,阿里、百度等云厂商也跟随降价,初创模型公司如智谱AI也推出了具有竞争力的GLM-4-Air和GLM-4-Flash版本。我们认为,大模型API价格的下降将促进应用生态的繁荣。更多高性价比的模型选择和更低的应用运营成本将吸引更多开发者进入,为AI原生应用的落地提供肥沃的土壤。 图1.国内外主流模型API价格 公司 模型 输入价格(/百万tokens) 输出价格(/百万tokens) OpenAI GPT-4o 5美元 15美元 GPT-4Turbo 10美元 30美元 Google Gemini1.5Pro 3.5美元 10.5美元 Gemini1.5Flash 0.35美元 1.05美元 智谱 GLM-4-0520 100元 100元 GLM-4-Air 1元 1元 GLM-4-Flash 0.1元 0.1元 字节 Doubao-pro-128k 5元 9元 Doubao-lite-128k 0.8元 1元 阿里 Qwen-max 40元 40元 Qwen-turbo 2元 6元 Qwen-long 0.5元 2元 百度 ERNIE4.0 120元 120元 ERNIE3.5 12元 12元 ERNIESpeed 免费 免费 MiniMax abab6.5 30元 30元 abab6.5s 10元 10元 月之暗面 moonshot-v1-128k 60元 60元 幻方 DeepSeek-V2 1元 2元 数据来源:Artificialanalysis官网,智谱AI开放平台,火山引擎,阿里云,百度智能云,MoonshotAI开放平台,Deepseek官网,财通证券研究所 API价格下降是行业发展的必然趋势。自ChatGPT发布以来,OpenAI作为行业的领导者,一直引领着模型API价格的下降趋势。我们看到,其旗舰模型GPT-4 的输出价格从去年gpt-4-32k版本的每百万tokens高达120美元降至最新gpt-4o版本的每百万tokens仅15美元,降幅接近90%。这意味着随着(i)模型架构的创新、(ii)推理引擎的推出、(iii)芯片性价比的提升以及(iv)参数量化的普及,大模型的推理成本已经取得了显著的优化。展望未来,我们相信诸如 MLA、细粒度MoE或Mamba这样的高效扩展Transformer方法将会进一步带来推理侧降本的突破,这意味着我们将能够获得更高性能的基座模型,而单位token成本将会更低,大模型的“摩尔定律”也将持续。 图2.高效拓展Transformer架构的方法一览 数据来源:《AdvancingTransformerArchitectureinLong-ContextLargeLanguageModels:AComprehensiveSurvey》(YunpengHuang,JingweiXu等),财通证券研究所 2「Attention机制」优化计算复杂度的源头 注意力机制(Attention)是大语言模型成功背后的关键技术。心理学上认为,人类会基于非自主性提示和自主性提示有选择地引导注意力的焦点。类比到深度学习中,注意力机制是根据查询(Query,Q)选择对应的键(Key,K)和值 (Value,V),其中给定的Q也就是自主性提示,Key和Value是环境,是非自主性。当Q与K(非自主性提示)进行匹配,这将引导得出最匹配的V(感觉输入)。在Transformer中,研究者通过(i)通过Q和K做内积计算注意力分数、(ii)通过对注意力分数做Softmax调整,再与V相乘实现注意力池化,最后输出的向量则包含了该Query与全局所有序列的信息。在此基础上,作者还引入了多头注意力(MHA)融合了来自于多个注意力汇聚的不同知识,就像是用 不同的镜头看同一个场景,以此增加模型可学习参数量的同时增强了模型表达的多样性。 图3.注意力机制原理图 数据来源:《动手学深度学习(第二版)》(阿斯顿·张,扎卡里C.立顿,李沐等),财通证券研究所 Transformer的提出使得seq2seq任务性能大幅提升。seq2seq任务通常涉及将一个序列转换为另一个序列,这在机器翻译、文本摘要、语音识别等领域中非常常见。传统的seq2seq模型(如循环神经网络RNN或长短期记忆网络LSTM)在处理长序列时难以解决长距离依赖和计算并行效率低的问题。在《Attentionisallyouneed》这篇论文中,作者在seq2seq任务中引入了多头自注意力机制 (MHA),更好的捕捉了序列中长距离的依赖关系,并将其与一个前馈网络 (FFN)相连,通过高维非线性变化提取复杂特征,组成了我们熟知的 Transformer架构。具体来说,在Transformer编码器中,它包括(i)表示层、 (ii)自注意力层、(iii)前馈网络层、(iv)Add&Norm。在这些组成部分中,模型的参数量主要分布在自注意力层和前馈网络层。 图4.Transformer架构图及其中文翻译 数据来源:《AttentionIsAllYouNeed》(AshishVaswani,NoamShazeer等),《动手学深度学习(第二版)》(阿斯顿·张,扎卡里C.立顿,李沐等),财通证券研究所 通过对注意力头进行简化或压缩实现Attention计算复杂度的降低。尽管 Transformer在解决长距离依赖和并行计算能力上取得了巨大突破,但标准自注意力机制的时间空间复杂度随序列长度N呈二次方增长(看得越多,输出得越多,同时需要记忆的也越多),因此降低Transformer的计算和访存资源是行业一直在推动的重要命题,其中对注意力层进行改进是业界探索的主要方向之一,这包括(i)对多头注意力机制进行简化或压缩(MQA、GQA、MLA...)、(ii)用循环结构去替代注意力机制(Mamba、RWKV、RetNet...)。其中,对多头注意力机制的简化本质是减少注意力头的数量,以此减少参数量和KVCache的显存占用。举例来说,MQA采用了激进的单个Key-Valuehead,推理速度很快,但是性能损失大;GQA选择了介于MHA和MQA之间的一种形式,多个Query共享一组KV,这一方法被Llama系列沿用至今;MLA则是将KV值压缩到一个低维空间,显著减少模型在推理时的内存占用和计算需求,这也是幻方 Deepseek-V2这一工作的主要贡献。 图5.MHA、GQA、MQA、MLA原理比较示意图 数据来源:《DeepSeek-V2:AStrong,Economical,andEfficientMixture-of-ExpertsLanguageModel》(DeepSeek-AI),财通证券研究所 去Attention化以提升模型效率是另一个学术界重点攻坚的领域。虽然 Transformer当前依然是语言模型的主流架构,但对Transformer替代品的寻找在学术界并没有停止,例如像Mamba这样的状态空间模型(SSMs)最近被证明在中小型尺寸的模型有着更优异的性能表现。近期,Mamba的作者在最新的论文 《TransformersareSSMs》中进一步证明了SSMs和注意力机制之间存在着密切的联系,并通过结构化空间对偶框架(SSD)设计了全新架构Mamba-2,其核心是对Mamba选择性SSM的改进,与前代相比速度提高了2-8倍,继续保持着与Transformer竞争的潜