投资逻辑: 目前大模型能力仍处于EmergingAGI水平,就模型成熟度而言,语言大模型>多模态大模型>具身智能大模型。根据DeepMind的定义,AGI应能够广泛学习、执行复杂多步骤的任务。模型的AGI水平可分为Level-0至Level-5共6个等级,现阶段大模型在处理任务的广泛性上还有很大提升空间,即使是国际顶尖的大模型也仍处于Level-1EmergingAGI阶段。不同类型大模型成熟度差异较大,目前大语言模型能力相对完善,落地应用场景丰富,底层技术路线较为成熟;多模态大模型已经能够面向B\C端推出商业化产品,但细节优化空间较大;具身智能类大模型还在探索阶段,技术路线尚不清晰。 现阶段讨论AGI能力提升仍需聚焦于多模态大模型的训练和应用。目前学界和业界重点关注ScalingLaw的有效性,以及模型算法的可能改进方向。 ScalingLaw仍有深入空间。根据OpenAI研究,随模型参数量、数据集规模、训练使用的计算量增加,模型性能能够稳步提高,即ScalingLaw。从训练样本效率、训练时长、各类资源对模型的贡献维度来看,目前ScalingLaw仍是提高模型性能的最优方法。OpenAI测算在模型参数量扩展到88万亿及之前,ScalingLaw依旧有效,则中短期仍可延续此路线进行训练。 模型骨干网络架构尚未演变至终局,微调及稀疏结构成为提升模型性能的重要方法。目前主流大模型均采用Transformer作为底层骨干网络,但针对编码器\解码器选择、多模态融合、自注意力机制等方面的探索仍在持续推进。微调使用更小的数据量、更短的训练时间,让模型能够适应下游任务,以降低边际落地成本。以MoE为代表的稀疏结构通过分割输入任务并匹配专家模型,能够提高模型的整体性能。 开源模型性能优化速度快于闭源模型。我们认为,目前第一梯队AI大模型纷纷进军万亿参数,且不远的将来大模型将逐步逼近十万亿参数收敛值,对于本轮AI浪潮而言,找场景或优于做模型。在场景选择方面,对“幻觉”容忍度高且能够替代人工的场景可实现应用率先落地,如聊天机器人、文本/图像/视频创作等领域;而对“幻觉”容忍度较低的行业需要等待大模型能力提升或使用更多场景数据训练。 投资建议 算法、数据、算力是影响模型性能的关键因素,相关企业能够直接受益于大模型训练的持续推进,推荐国内AI算法龙头科大讯飞等,建议关注数据工程供应商以及算力产业链相关公司。对于行业类公司而言,寻找通过AI赋能带来效率提升的场景更为重要,建议关注AI+办公领域的金山办公、万兴科技,AI+安防领域的海康威视,AI+金融领域的同花顺等公司。 风险提示 底层大模型迭代发展不及预期;国际关系风险;应用落地不及预期;行业竞争加剧风险。 内容目录 1.距离AGI还有多远:语言大模型较为成熟,处于EmergingAGI水平4 2.如何实现AGI:ScalingLaw仍有深入空间,底层算法框架有待升级7 2.1ScalingLaw:中短期内,持续扩大参数量仍能改善模型表现9 2.2算法改进:骨干网络架构仍有创新空间,微调及稀疏结构能够提升性价比10 3.如何商业落地:借力模型开源及B端合作,寻找高人工替代率的场景17 3.1开源模型vs闭源模型?——ScalingLaw不再work之后,找场景或优于做模型17 3.2如何定义一个好场景?——“幻觉”尚未消除的世界,高人工替代率或为重点18 3.3如何处理“幻觉”?——ScalingLaw信仰派vs引入知识图谱改良派19 4.投资建议20 5.风险提示23 图表目录 图表1:AGI可以根据性能和广泛性划分为6个等级4 图表2:大模型可根据功能进行分类4 图表3:海内外语言及多模态大模型进展概览5 图表4:海内视觉及其他大模型进展概览5 图表5:机器人涉及到的模型种类较多6 图表6:将Transformer架构应用于机器人决策、控制等成为现阶段重要趋势6 图表7:各类大模型能力现状7 图表8:以OpenAI布局为例,看AGI发展路径8 图表9:大模型训练主要环节8 图表10:多重因素决定模型性能9 图表11:模型性能随着模型大小、数据集大小和训练所用计算量的增加呈现幂律提升9 图表12:参数规模更大的语言模型在训练过程中的样本效率更高且性能提升更快10 图表13:模型参数规模对于性能提升的贡献度更高10 图表14:Transformer模型结构及自注意力机制原理11 图表15:根据底层骨干网络差异可以将大模型分为三类12 图表16:三种骨干网络特点对比12 图表17:智谱GLM-4在多项任务中能力比肩GPT-413 图表18:Meta-Transformer模型能够处理12种非成对的模态数据13 图表19:扩散模型示意图14 图表20:DiffusionTransformer模型结构14 图表21:针对Transformer的创新研究持续推进14 图表22:InstructGPT中的RLHF技术15 图表23:Llama-2对RHLF的奖励模型进行改进15 图表24:针对Transformer架构大模型的PEFT微调方法16 图表25:MoE结构中只激活部分网络16 图表26:2023年生成式AI融资额度与融资笔数快速提升17 图表27:开源模型性能改善速度快于闭源模型18 图表28:AGI演进过程中的应用场景分类19 图表29:连接主义VS符号主义20 图表30:知识图谱通过机器学习和自然语言处理来构建节点、边和标签的全面视图20 图表31:大模型向AGI演进,模型训练产业链有望持续收益21 图表32:算力产业图谱22 图表33:建议关注AI赋能细分场景的龙头企业22 2022年11月ChatGPT推出后,自然语言处理领域取得重大突破,正式进入大模型时代, 2023年被称为“大模型元年”;2023年3月,具备多模态能力的GPT-4惊艳发布,海内外科技巨头、研究机构等纷纷跟进;至2024年2月Sora面世,大模型在视频生成领域实现代际跃迁,虚拟现实成为可能。在此背景下,学界和业界对于大模型终局,即是否能够实现AGI(ArtificialgeneralIntelligence,通用人工智能)的讨论热度日益提升。 本文主要盘点目前各类主流大模型性能情况,试图讨论大模型性能提升并最终实现AGI 的可能路径,并分析在实现AGI过程中的相关产业链投资机会。 1.距离AGI还有多远:语言大模型较为成熟,处于EmergingAGI水平 根据DeedMind的创始人兼首席AGI科学家ShaneLegg的定义,AGI能够执行一般人类可完成的认知任务、甚至超越这个范围。具体而言,AGI应能够学习广泛任务,能够执行复杂、多步骤的任务。DeepMind根据AI模型性能和学习处理任务的广泛性对AGI水平进行分类,从Level-0无人工智能,到Level-5超越人类共6个等级。 图表1:AGI可以根据性能和广泛性划分为6个等级 等级 主要特征 Level-0 无人工智能(NarrowNon-AI) 只能完成明确定义的任务,比如计算器软件或编译器 Level-1 初现(EmergingAGI) 性能相当于或略优于一个不熟练的人类。比如一些前沿语言模型在 某些任务上已经达到了初现AGI的水平 Level-2 熟练(CompetentAGI) 至少能够在大多数任务上达到熟练人类的水平。目前的前沿语言模 型在某些任务上已经接近熟练AGI的水平 Level-3 专家(ExpertAGI) 在大多数任务上能够达到专家人类的水平 Level-4 大师(VirtuosoAGI) 在大多数任务上能够达到顶尖人类的水平 Level-5 超越人类(SuperhumanAGI) 在所有任务上都能超过100%的人类 来源:《LevelsofAGI:OperationalizingProgressonthePathtoAGI》,国金证券研究所 现阶段大模型在处理任务的广泛性上还有很大提升空间,虽然GPT-4、Gemini1.5、Claude3等模型已经能够处理文本、图像、视频等多模态输入,但尚未具备独立决策和执行行动的能力。此外,现阶段更多的模型仍聚焦在某单一领域进行性能提升,比如Kimi在处理长文本输入领域表现突出,但尚不能进行图片生成;Sora能够高质量完成文生视频任务,但不具备问答功能。因此,现阶段评价大模型性能情况、分析模型演进方向,仍需根据模型专长领域进行分类。 图表2:大模型可根据功能进行分类 模型分类 主要内容 代表模型 语言大模型 专注于处理自然语言,能够理解、生成和处理大规模文本数据用于机器翻译、文本生成、对话系统等任务 ChatGPT、Llama 视觉大模型 专注于计算机视觉任务,如图像分类、目标检测、图像生成等能够从图像中提取有关对象、场景和结构信息 ViT、SAM 多模态大模型 能够处理多种不同类型的数据,如文本、图像、音频等,并在这些数据之间建立关联 多模态大模型能够处理文图融合、图像描述、文生视频等任务 GPT-4、 Claude3 策略大模型 专注于进行决策和规划,能够在面对不确定性和复杂环境时做出智能决策,可用于机器人控制 AlphaGo、RT-1/2/H 来源:金科应用研院公众号,国金证券研究所 在语言大模型以及偏重问答能力的多模态模型领域,自2020年GPT-3发布后进入爆发期,各主流玩家加速模型迭代,包括OpenAI的GPT系列、Google的Gemini系列、Meta的开源LLaMA系列等。目前定量测评分数最高的为Anthropic旗下的Claude3Opus,在MMLU(UndergraduateLevelKnowledge)、GSM8K(GradeSchoolMath)、MGSM(MultilingualMath)等多个测试项目中准确率超过85%;模型参数量最高的为23年3月谷歌发布的PaLM-E,参数量达到5,620亿,是ChatGPT的3.2倍,模型能够理解自然语言及图像,还可以处理复杂的机器人指令;谷歌于 24年2月发布的Gemini1.5能够处理的上下文长度高达100万tokens(相当于70 万单词,或3万行代码,或11小时音频,或1小时视频),为目前长文本处理能力的上限。 图表3:海内外语言及多模态大模型进展概览 来源:《LargeLanguageModels:ASurvey》,《ASurveyofLargeLanguageModels》,洞见学堂公众号,机器之心公众号,级市平台公众号,新智元公众号,阿里云开发者社区,京东技术公众号,中国科学基金公众号,数据派THU公众号,浙江省软件行业协会公众号,深圳大学可视计算研究中心公众号,量子位公众号,钛媒体AGI公众号,彭博Bloomberg公众号,腾讯科技公众号,百度AI公众号,鹏城实验室公众号,CSDN公众号,文心大模型公众号,中国人工智能学会公众号,腾讯开发者公众号,阿里云公众号,商汤智能产业研究院公众号,36氪,科大讯飞公众号,科大讯飞开发者平台,GLM大模型公众号,阿里通义千问公众号,国金证券研究所 文生图、文生视频类模型可追溯至2014年的GAN框架,2021年OpenAI发布DALL-E后图像生成类模型开始爆发,包括谷歌的Imagen、OpenAI的DALL-E2、Stability旗下的StableDiffusion;至2023年文生图功能与大语言模型相结合,并出现文生视频技术,24年2月OpenAI发布文生视频模型Sora,在生成视频长度和质量上均为目前最优水平。 图表4:海内视觉及其他大模型进展概览 来源:《LargeLanguageModels:ASurvey》,《Improvedproteinstructurepredictionusingpotentialsfromdeeplearning》,《High-ResolutionImageSynthesiswithLatentDiffusionM