您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[平安证券]:AI系列深度报告(四)大模型篇:大模型发展迈入爆发期,开启AI新纪元 - 发现报告
当前位置:首页/其他报告/报告详情/

AI系列深度报告(四)大模型篇:大模型发展迈入爆发期,开启AI新纪元

2024-08-15平安证券绿***
AI系列深度报告(四)大模型篇:大模型发展迈入爆发期,开启AI新纪元

证券研究报告 AI系列深度报告(四) 大模型篇:大模型发展迈入爆发期,开启AI新纪元 计算机行业强于大市(维持) 证券分析师 闫磊投资咨询资格编号:S1060517070006 黄韦涵投资咨询资格编号:S1060523070003 研究助理 王佳一一般从业资格编号:S1060123070023 2024年8月15日 请务必阅读正文后免责条款 核心摘要 技术:大模型发展呈现“规模定律”,Transformer为技术基座。大模型(LLM)发展普遍呈现“规模定律”特征,即:模型的性能与模型的规模、数据集大小和训练用的计算量之间存在幂律关系。当前主流大模型普遍是基于Transformer模型进行设计的,Transformer由Encoder(编码器)和Decoder(解码器)两类组件构成,而OpenAI的GPT是Transformer演化树中Decoder-only架构的代表。我们纵观GPT系列模型的发展历程,从GPT-1到GPT-3,参数量从1.1亿大幅提 升至1746亿,GPT-4非官方估计达到万亿参数(根据Semianalysis消息,GPT-4包含1.8万亿参数),实现性能的突破。GPT在众多大模型角逐中能够取得瞩目,技术角度上,主要源自其可拓展的训练架构与学习范式以及对于数据质量与数据规模的重视。然而,我们认为GPT的成功也并非全部源自技术性因素,OpenAI能够从早期众多的技术路线中识别到并坚定执行这条路线,这需要大模型团队足够的技术前瞻和定力。 市场:全球大模型竞争白热化,国产大模型能力对标GPT-3.5Turbo。全球大模型竞争中,OpenAI、Anthropic、谷歌三大厂商为第一梯队,2024年以来三家大模型能力呈现互相追赶态势。开源大模型厂商中,MetaAI(Llama)、欧洲MistralAI等厂商的大模型性能保持前列,图像生成大模型以Midjourney、StableDiffusion、OpenAI的DALL·E为代表,视频生成以Runway的Gen、Pika和OpenAI的Sora为代表。2023年底国产大模型迈入爆发期,从参与者来看,国内AI大模型厂商大致可以分为互联网/科技公司、AI公司、学术/科研机构、行业专家品牌四类。从模型能力来看,根据SuperCLUE上半年最新的评测结果,国内绝 大部分闭源模型已超过GPT-3.5Turbo,其基准上表现最好的国产大模型为阿里云的开源模型Qwen2-72B,超过众多国内外闭源模型,与GPT-4o仅差4分。 变现:API同质化、订阅实现难,Agent与MaaS探索破局之路。OpenAI绝大多数收入来自API调用和ChatGPT订阅,但它的成功并不易复制,值得注意的是,一方面,API是较为普遍的变现方式,但由于大模型性能趋向同质化,全球API价格呈现下降趋势,另一方面,相较API,实现订阅的难度更高,由于AI-first应用目前在用户留存度和粘性上稍显落后,当前在AI产品市场还未出现真正意义上的KillerApp。我们尝试总结了两条大模型变现的破局之路:1)C端:AI Agent是通往AGI与KillerApp的钥匙。国内以互联网/科技公司、大模型厂商、企业服务SaaS类厂商为代表的越来越多的企业参与进AIAgent市场,产品形态既包括面向企业和开发者的Agent构建平台/框架,也包括服务于各个垂直行业的专业Agent。2)B端:面对企业级需求的快速增长,目前,微软云Azure、阿里云、华为云、腾讯云、百度云、京东云等云服务提供商都已经推出了MaaS(ModelasaService),帮助企业降低模型使用门槛。 算力:大模型发展催生海量算力需求,预计带来千亿美元市场规模。大模型技术与应用发展催生海量算力需求,根据JaimeSevilla等人的研究,2010-2022年在深度学习兴起背景下,机器学习训练算力增长了100亿倍。持续增长的大模型与AI产品研发需求同时也推升了科技巨头的资本支出,2024年2季度微软、Meta、谷歌、亚马逊四家公司合计资本支出为571亿美元,同比增长66%,环比1季度增长22%。在此背景下,大模型的持续迭代升级将为AI芯片及服务器发展提供 强劲动力,我们对不同参数规模的大模型在训练与推理(问答场景)两个阶段的算力需求进行了测算,假设未来有100家大模型实现持续经营,最终测算得到AI服务器的市场规模为2301亿美元。如果再考虑问答场景之外的推理场景,AI服务器的市场规模将更加巨大。根据IDC数据,2023年的全球AI服务器市场规模是211亿美元,相比2023年全球AI服务器市场规模,大模型的持续迭代升级将为AI服务器市场带来广阔的市场空间。 投资建议:当前,全球范围内大模型领域的竞争依然白热化,我国大模型厂商持续迭代升级算法能力,2023年底国产大模型市场迈入爆发期,根据SuperCLUE上半年最新的评测结果,国内绝大部分闭源模型已超过GPT-3.5Turbo,将有望加速国产大模型在各场景的应用落地。同时,大模型的持续迭代升级将为AI芯片及服务器发展提供强劲动力,根据我们测算,假设未来有100家大模型实现持续经营,在训练与推理(问答场景)两个阶段,大模型将为AI服务器带来约2301亿美元的市场空间。我们继续看好AI主题的投资机会,标的方面:1)算力方面,推荐浪潮信息、中科曙光、紫光股份、神州数码、海光信息、龙芯中科,建议关注寒武纪、景嘉微、软通动力;2)算法方面,推荐科大讯飞;3)应用场景方面,强烈推荐中科创达、恒生电子、盛视科技,推荐金山办公,建议关注万兴科技、同花顺、彩讯股份;4)网络安全方面,强烈推荐启明星辰。 风险提示:1)AI算力供应链风险上升。2)大模型产品的应用落地低于预期。3)国产大模型算法发展可能不及预期。 目录CONTENTS 技术:大模型发展呈现“规模定律”,Transformer为技术基座 市场:全球大模型竞争白热化,国产大模型能力对标GPT-3.5Turbo 变现:API同质化、订阅实现难,Agent与MaaS探索破局之路 算力:大模型发展催生海量算力需求,预计带来千亿美元市场规模 投资建议及风险提示 大规模语言模型(LargeLanguageModels,LLM)泛指具有超大规模参数或者经过超大规模数据训练所得到的语言模型。与传统语言模型相比,大语言模型的构建过程涉及到更为复杂的训练方法,进而展现出了强大的自然语言理解能力和复杂任务求解能力。 LLM发展时间线 资料来源:各公司官网,中国人民大学《大语言模型》,平安证券研究所 大模型发展普遍呈现“规模定律”(ScalingLaw)特征,即:模型的性能与模型的规模、数据集大小和训练用的计算量之间存在幂律关系,性能会随着这三个因素的指数增加而线性提高。大模型的参数规模远大于传统深度学习模型,传统模型参数量通常在数万至数亿之间,大模型的参数量则至少在亿级,并已发展到过万亿级的规模。如OpenAI的GPT-1到GPT-3,参数量从1.1亿大幅提升至1746亿,GPT-4非官方估计达到万亿参数(根据Semianalysis消息,GPT-4包含1.8万亿参数),实现性能的突破。根据Google论文,这种大模型具有但小模型不具有的能力通常被称为“涌现能力”(EmergentAbilities)。 主流大模型参数量涌现能力:当模型扩展到一定规模时,模型的 特定任务性能突然出现显著跃升的趋势 资料来源:各公司官网,EpochAI,腾讯研究院,Semianalysis,IT之家,Google《EmergentAbilitiesofLargeLanguageModels》,平安证券研究所 2、分别计算q1与k1、k2的点积。点积结果表 示两个元素之间的相关性。 当前主流大模型普遍是基于Transformer模型进行设计的。Transformer模型在Google团队2017年论文《AttentionIsAllYouNeed》中被首次提出,Transformer的核心优势在于具有独特的自注意力(Self-attention)机制,能够直接建模任意距离的词元之间的交互关系,解决了循环神经网络(RNN)、卷积神经网络(CNN)等传统神经网络存在的长序列依赖问题。 相较于RNN,Transformer具有两个显著的优势。1)处理长序列数据:RNN受限于循环结构,难以处理长序列数据。Self-attention机制能够同时处理序列中的所有位置,捕捉全局依赖关系,从而更准确地理解、表示文本含义。2)实现并行化计算:RNN作为时序结构,需要依次处理序列中的每个元素,计算速度受到较大限制,而Transformer则可以一次性处理整个序列,大大提高了计算效率。 矩阵计算方法: 1、将输入序列x的每个元素(词或字)映射 到一个向量表示。这些向量表示称为查询 (Query)、键(Key)和值(Value) Transformer通过Self-attention将“it”与“animal”联系起来Attention的计算 当编码“it”时,部分attention集中于“theanimal”,并将其表示合并到“it”的编码中 Self-attention机制 •每个token是通过所 有词动态加权得到 •动态权重会随着输入的改变而变化 4、将归一化后的权重与对应的值v向量相乘,并对所有元素求和。 3、使用softmax函数对点积结果进行归一化。 资料来源:JayAlammar《TheIllustratedTransformer》,平安证券研究所 Transformer由两类组件构成:Encoder(编码器)和Decoder(解码器)。通常,Encoder结构擅长从文本中提取信息以执行分类、回归等任务,而Decoder结构则专用于生成文本。 实际上,两类组件可以独立使用,当前主流大模型中,诞生了以BERT为代表的Encoder-only架构、以T5为代表的Encoder-decoder架构、以GPT为代表的Decoder-only架构的大规模预训练语言模型。 Encoder Block DecoderBlock Decoder Encoder Transformer模型网络架构 主流大模型网络架构演化树 Encoder-only Encoder-decoder Decoder-only 资料来源:Google《AttentionIsAllYouNeed》,JayAlammar《TheIllustratedTransformer》,Google《BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding》,Amazon《HarnessingthePowerofLLMsinPractice:ASurveyonChatGPTandBeyond》,平安证券研究所 从技术角度来看,结合中国人民大学《大语言模型》的观点,GPT在众多大模型角逐中能够取得瞩目,有以下几点值得注意—— 1)可拓展的训练架构与学习范式:当谷歌2017年推出基于注意力机制的Transformer模型后,OpenAI团队能够迅速洞察到其作为大规模可扩展训练的理想架构的潜在优越性,最终将Transformer拓展到百亿、千亿甚至万亿参数规模,并且将预训练任务统一为通用学习范式。 2)对于数据质量与数据规模的重视:高质量数据、超大规模数据成为GPT成功的关键基础,比如,OpenAI将人类生成的对话数据和高质量的标注数据用于训练ChatGPT,使得ChatGPT在与人机对话测试中展现出了优秀能力。 然而,我们认为GPT的成功并不是全部源自技术性因素,Transformer、RLHF算法等等关键技术都并非OpenAI首创,并且也在被其他研究团队广泛使用,我们认为OpenAI能够从早期众多的技术路线中识别到并且坚定地去执行这条路线,这来自OpenAI团