投资评级:看好(维持) 心Ê点 证券研究报告 最à12o^场表Ā 计算机 沪深300 P证指数 41% 28% 16% 3% -10% -22% 分析师杨烨 SAC证书编øÿS0160522050001 yangye01@ctsec.com 相s报告 1.:电力信o化研究框架ÿÿ一Ā总章; 2025-01-14 2.:英_达GB300含苞à,s注液冷和电源ÿ节;2025-01-14 3.:智驾o报ÿ车^表Ā强劲,首个 Robotaxi法规出炉;2025-01-12 Transformer架构的过去和Ā在ÿ人类大脑在p限的资源条þQ,通过神经元回路的自Ā装和微调,实Ā了高效的信o处理2~了`化信o处理,大脑发展了高效的信o选择和投注机制——注意力,而非依赖超大容à的处理能力2着s们对大脑认知机制的深入了解ñ及计算机科学的ßm,研究人员尝试通过算法à化大脑的认知ß能,将人类的思维模式映射到人工智能P2Transformer是一种基于注意力机制的神经网络架构,由GoogleBrain团队于2017在论文:AttentionIsAllYouNeed;中ð出2通过摒``统循ÿ结构,Transformer利用自注意力机制并行处理序列元素,显著ð升了ƒÿ速度和长距离依赖建模能力2Transformer架构的灵活性,使wr~_多非自然语言处理领域Yß模型构建的基础框架,展Ā出广阔的Þ用前o,包括但O限于能够将O\模态的数据映射到统一的特à表示空间,促ß跨模态Þ用发展2目前,人工智能大模型的ß化要依赖于人工版本的更新2而着术的发展,研究人员k在探索自sß化的模型,使w能够自完善和学`由自身生r的经验,Ð而èú人工智能U更高级的智能发展2`前AI的局限性或在于w学`效率的PQ,而非数据O足2真k的智能O仅是数据à的堆ÿ而是在于对信o的压缩和ð炼,类似于通过总结第一性原理的方式获×更深层l的智能2 Transformer架构的未来ÿ]管Transformer凭借着Ā多`势r~如今的流架构,但w并非]善]美,Ïp无法免的局限性,例如计算复g度高和计算r本高2目前对Transformer架构的未来,要p两条道路,一是被更`ù的全新架构ÿï,Ð是在原p架构基础P通过`化注意力机制等方式ß行升级,à两条道路都是通ß计算复g度更P1计算r本更P1效率更高à个目标2目前研究人员k在ÿ极探索可能×ï或增强Transformer的全新架构并ð出了数个潜在的ÿï架构,例如RetNet1Mamba1RWKV1Hyena1线性注意力机制等2无论选择哪条路ß,最Ā的目标都是实Ā更高的性能1更强的泛化能力1更P的资源消耗,ñèúAI在更多实×场o中的Þ用,\时 ¬w更A可持续的n惠化的发展2 投资建°ÿ短期来看,Transformer架构依然是大模型的流,建°Þ点s注基础¿施领域的公ù,如英_达1海Z信o1寒n纪1`创数据1英维克1中科曙Z1浪潮信o1润泽科1欧Ø通1曙Z数创等,\时持续s注全球各大模型厂商1学界的创新ß展2 风险ð示ÿ术迭ïO及预期的风险Ā商业化落地O及预期的风险Ā策支持O及预期风险Ā全球宏Ê经济风险2 计算机/行业_题报告/2025.01.19 大模型系列报告ÿ一ĀÿTransformer架构的过 去1Ā在和未来 ÿ阅ü最^一页的Þ要声明! 内容目录 1Transformer架构的过去和Ā在4 1.1人脑带来的启示ÿ数据的无损压缩4 1.2TransformerÞß而生ÿAttentionisallyouneed6 1.3Transformer的`势ÿ规模扩展1多模态能力9 2Transformer架构的未来12 2.1Transformer架构的局限性12 2.2Transformer架构的挑战者13 2.2.1RetNet14 2.2.2Mamba16 2.2.3RWKVÿReceptanceWeightedKeyValueĀ18 2.2.4Hyena20 2.2.5线性注意力机制21 2.3架构展望ÿ更P计算复g度1更Pr本1更高效率24 3投资建°25 4风险ð示25 Ā表目录 Ā1.大语言模型ÿLLMsĀ自ß化概念框架Ā4 Ā2.大语言模型ÿLLMsĀP大脑相似性估计框架的示意Ā5 Ā3.大语言模型PO\ð示添A策略P大脑相似性5 Ā4.大语言模型在处理ÿ极和消极情感文本时P大脑的相似性5 Ā5.Transformer模型架构6 Ā6.注意力机制预测Q一个词汇7 Ā7.缩点ÿ注意力ÿScaledDot-ProductAttentionĀ原理和Softmax公式8 Ā8.多头注意力ÿMulti-HeadAttentionĀ原理和MHA公式9 Ā9.Transformer和LSTM在O\参数数à和PQ文长度Q的测试损失10 Ā10.流大模型参数àÙ化10 Ā11.RNN/LSTM1CNN和Transformer在跨模态任á中的`势1劣势11 Ā12.Transformer架构的计算复g度过高来源于w自注意力机制SoftmaxAttention12 Ā13.大模型参数àO断膨胀,已达1000B13 Ā14.谷歌COREML/AI副总裁BillJia在2024硅谷_源科会P接Ø采À14 Ā15.潜在的Transformer架构ÿï架构14 Ā16.RetNet的并行P循ÿ过程15 Ā17.RetNet\时实Āƒÿ并行性1良好性能和Pè理r本à一<O可能的O角=16 Ā18.状态空间模型ÿSSMĀ的架构示意Ā16 Ā19.RNNs1Transformers和SSMs在自回_序列建模任á中的`缺点17 Ā20.改ßMamba架构的Āp研究总结ÿ要集中于修改块¿计1扫ï模式和记à管理Ā17 Ā21.RWKV-6的tokenshift计算流程18 Ā22.RWKV-41RWKV-5Eagle和RWKV-6Finch模型的PQ文长度实验版本迭ï表ĀÙ好19 Ā23.在RWKV-6Finch1Mamba和FlashAttention中,RWKV-6的显存占用率最P19 Ā24.RWKV基础模型的_多Þ用场o20 Ā25.Hyena算子的结构和工作原理21 Ā26.Softmax注意力和线性注意力的计算流程22 Ā27.AgentAttention的计算流程23 Ā28.O\模型大小的Transformer和TransNormerLLM的最大PQ文长度23 Ā29.MiniMax-Text-01的结构24 1Transformer架构的过去和Ā在 1.1人脑带来的启示ÿ数据的无损压缩 人类大脑的ß化伴着神经系统的复g化,包括神经元数à1类型1ß接方式ñ及大脑|域的扩展2àßÙ化要由基因的复制和分化驱ú2大脑|域的模块化ß化A速了à一过程,因~O\的模块可ñ独立ß化2着s们对大脑认知机制的深入了解ñ及计算机科学的ßm,研究人员尝试通过算法à化大脑的认知ß能,将人类的思维模式映射到人工智能P2目前,人工智能大模型的ß化要依赖于人工版本的更新2而着术的发展,研究人员k在探索自sß化的模型,使w能够自完善和学`由自身生r的经验,Ð而èú人工智能U更高级的智能发展2 Ā1.大语言模型ÿLLMsĀ自ß化概念框架Ā 数据来源ÿZhengweiTao等论文:ASurveyonSelf-EvolutionofLargeLanguageModels;,¯通证券研究所 注ÿ概念框架Ā展示了大语言模型的ß化目标ÿEvolutionObjectiveĀ,包括能力ÿAbilityĀ和方UÿDirectionĀ,ñ及自ß化的4个¸段ÿ1Ā经验获×ÿExperienceAcquisitionĀ2Ā经验精炼ÿExperienceRefinementĀ3Ā更新ÿUpdatingĀ4Ā评估ÿEvaluationĀ2 人类大脑在p限的资源条þQ,通过神经元回路的自Ā装和微调,实Ā了高效的信o处理2~了`化信o处理,大脑发展了高效的信o选择和投注机制——注意力,而非依赖超大容à的处理能力2通过集中p限的计算资源于Þ要任áP,注意力机制使大脑能够迅速分析s键信o并做出ô策2在人工智能领域,Ø人类注意力机制的启发,研究者开发了<自注意力机制=ÿSelf-AttentionĀ,用于处理序列数据,如自然语言中的文本2自注意力机制通过计算输入序列各部分之间的相似度,并~每个部分分配O\的hÞ,Ð而更A精准地理解÷子含义2à种机制能够综合考虑输入的全面性和个别单词之间的相s性,ð升对信o的理解能力2因l,人工智能中的自注意力机制P人类大脑的注意力机制类似,都能在p限资源Q高效地处理信o,并`化ô策过程2 Ā2.大语言模型ÿLLMsĀP大脑相似性估计框架的示意Ā 数据来源ÿYuqiRen等论文:DoLargeLanguageModelsMirrorCognitiveLanguageProcessing?;,¯通证券研究所 注ÿ通过à化的方式,比较大语言模型和人类大脑在处理相\文本时的相似性,Ð而~研究LLMs的认知能力和语言处理机制ð供一种方法和视角2 <预测s压缩,压缩s智能=2Ð神经科学的角度来看,人脑依然àà超过`前的大型语言模型ÿLLMĀ2]管LLM的参数和ß接数达到数万亿,但Ï无法P人脑的复g性相ð并论2人类大脑的ß化依赖于选择和投注机制,ñ较P的容à实Ā更高效的信o处理2人工智能的注意力机制要是基于算法和模型来实Ā的,虽然在ß能PP人类的注意力机制p相似之处,但在实Ā原理和灵活性P存在显著差_,例如对定性ï述词的理解2`前AI的局限性或在于w学`效率的PQ,而非数据O足2真k的智能O仅是数据à的堆ÿ,而是在于对信o的压缩和ð炼,类似于通过总结第一性原理的方式获×更深层l的智能2 Ā3.大语言模型PO\ð示添A策略P大脑相似性 Ā4.大语言模型在处理ÿ极和消极情感文本时P大脑的相似性 数据来源ÿYuqiRen等论文:DoLargeLanguageModelsMirrorCognitiveLanguageProcessing?;,¯通证券研究所 注ÿ该Ā表明ð示添A策略会影响大语言模型P大脑的相似性,明确ð示添A策略在ð升相似性方面xp一定`势2 数据来源ÿYuqiRen等论文:DoLargeLanguageModelsMirrorCognitiveLanguageProcessing?;,¯通证券研究所 注ÿ该Ā表明大语言模型在处理ÿ极情感文本时P大脑的相似性更高,可能反映了ƒÿ数据或模型结构等因素对情感处理的影响2 1.2TransformerÞß而生ÿAttentionisallyouneed Transformer是一种基于注意力机制的神经网络架构,由GoogleBrain团队于2017在论文:AttentionIsAllYouNeed;中ð出2它在自然语言处理领域迅速占据ü地O,并广泛Þ用于Ā像处理和语音识别等w他领域2Transformer的出Āè在解ô循ÿ神经网络ÿRecurrentNeuralNetwork,简ĀRNNĀ在处理长序列数据时面临的并行化难题和长距离依赖捕捉困难2如QĀ5所示,Transformer架构由编码器ÿ含输入嵌入1O置编码1多头注意力1前馈网络1残差ß接P层_一化Ā和解码器ÿ含输出嵌入1O置编码1é码多头注意力1编码器-解码器注意力1前馈网络1残差ß接P层_一化,最^经线性层和Softmax层输出ĀĀr2通过摒``统循ÿ结构,Transformer利用自注意力机制并行处理序列元素,显著ð升了ƒÿ速度和长距离依赖建模能力2l外,Transformer模型通过多头注意力机制ÿMulti-HeadAttention,简ĀMHAĀ解ô了自注意力机制可能ü致的p效分辨率降P问题,增强了对输入数据þ节的捕捉能力2 Ā5.Transformer模型架构 数据来源ÿGoogleBrain,¯通证券研究所 注意力机制的心原理是依据输入序列中每个元素的Þ要性赋ÇO\的hÞ,使模型能够聚焦