2023年深度行业分析研究报告 01 大模型的竞争格局演绎的关键因素 02 独立的模型团队—月之暗面、清华GLM、百川智能 03 互联网大厂的模型和应用进展—腾讯、字节、百度、阿里 04 风险提示 •海外大厂核心大模型的能力迁移是国内AI发展的重要考量。考察是否有海外大厂核心大模型研发的技术积累和知识迁移到国内,以及这些技术在本土的应用情况和调整,对理解国内外AI技术的差异和互动具有重要意义。 •国内企业大模型技术路线有两类:①自研效果复现类:参考GPT论文自研复现效果,前期耗时、后续Finetuning对于数据数量质量也有一定要求,能力天花板高;②基于开源迭代类:训练更顺畅但天花板低,依赖开源社区,且开源模型如Llama2比较GPT3.5还是有差距。 •国内企业大模型团队发展路径有两类:①从搜广推背景转向大模型研发,如百度和百川;②成立之初主要基于大模型研究路线和学术背景,如月之暗面的杨植麟团队和清华的智谱团队。 图1:不同公司/组织/院校近三年top-100AI发文数图2:海外SuperGlue模型榜单排名(截至2023年12月) 4 资料来源:SergiCastellaiSapé,《Mustread:the100mostcitedAIpapersin2022》,ZetaAlpha,2023年3月2日,国信证券经济研究所整理 资料来源:SuperGlue,参考文献:ZDu、YQian等,《GLM:GeneralLanguageModelPretrainingwithAutoregressiveBlankInfilling》,ComputationandLanguage(cs.CL),2022,arXiv:2103.10360,国信证券经济研究所整理 •OpenAI的核心能力主要体现在三个方面:1)数据收集和处理的能力,包括数据来源,清洗方式,数据结构等;2)模型结构,包括注意力、隐藏层等设计;3)训练方法,包括各类超参数,学习率等。海外大模型开源后,我国大模型企业可在其框架上进行优化调整,以百川智能为例: 基于开源模型提升性能:据GitHub,百川智能通过对LLaMA框架进行修改以提升训练时的吞吐。此外,在LLaMA较为薄弱的中文语料方面,百川智能采用2000万条以中英为主的多语言语料训练分词模型,显著提高中文的压缩率。 大模型+搜索增强解决方案服务B端场景:百川智能通过借助搜索增强,解决大模型在幻觉和时效性问题,提升了模型的可用性,并拓展了应用领域,如金融、政务、司法、教育等行业的智能客服、知识问答、合规风控、营销顾问等。 图3:Baichuan-7B对LLaMA框架进行优化后的性能提升图4:在LLaMA上进行的研究工作的演化图 资料来源:GitHubBaiChuan主页,国信证券经济研究所整理资料来源:WayneXinZhao、KunZhou等,《ASurveyofLargeLanguageModels》, •有效数据集有限,优质数据集仍旧稀缺。当前开源榜单公开训练数量级,现有常见的大模型训练数据集往往在几十到几百B的量级,优质的数据集可能就只有300-500Btoken,进化到多模态数据量有所增加,但总量也不多。有的模型会用万亿级别的数据token训练,但很多数据其实是无效的。 •大模型的未来发展依赖于训练数据集的质量,而非仅仅是数量。根据ScalingLaw,Transformer架构的语言模型性能在很大程度上取决于模型大小、数据集大小和训练计算量,性能与这三个因素之间存在幂律关系,且趋势跨越多个数量级,而对其他架构细节(如网络深度或宽度)的依赖相对较小。未来的大模型可能会经历增长飞轮效应,但关键在于训练数据集的质量。这强调了选择和使用高质量数据的重要性,而不仅仅是追求数量。单纯的用户数据上不一定会产生飞轮效应,比如某些用户数据目前只具备统计学的能力,能够发现逻辑、数学的问题还需要找逻辑、数学数据集去优化。 图5:各大模型训练数据集对比图6:ScalingLaw模型性能与模型参数、数据集和训练计算量成幂律关系 资料来源:WayneXinZhao、KunZhou等,《ASurveyofLargeLanguageModels》, 资料来源:OpenAI官网,国信证券经济研究所整理 •AI技术把原先难以利用的非结构数据(占比80%)带入分析领域。AI浪潮下数据资产的重要性凸显,Snowflake在财报会提到AI技术把原来客户无法利用的非结构化数据带入分析领域构成新的增量。一系列数据公司与产品受益,包括云数据仓库领域(Snowflake)、非结构化/向量数据库(MangoDB、Pinecone)、云数据监控(DataDog)和ML/AIOps领域(Databricks、AWSBedrock、Weights&Biases)。 •内容创作者所聚集的平台,如字节和腾讯视频号成为高质量数据的重要来源。随着内容创作者转向音视频平台,这些平台成为了聚集高质量数据的热点,如字节跳动和腾讯视频号等平台。部分观点类数据可能具有一定时效性,如百度问答和知乎等平台上的数据。 公司 模型 参数量 数据规模 阿里巴巴 M6 10T 1.9TB图像和292GB文本 智源研究院 悟道2.0 1.75T 4.9T 腾讯 混元 1T 2T 百度 文心 260B 45TB 中科院自动化所 紫东·太初 100B 1.42TB中文 智谱华章 ChatGLM3 1.5B、3B和6B 百川智能 百川 2B/7B/13B 2.6T 上海人工智能实验室 书生 7B/20B 2.3T(InternLM-20B) 科大讯飞 星火 170B 数十亿的语言数据集 商汤科技 InternLM 1,04B 1.6万亿token 春田知韵(抖音) 豆包 7B 1300亿 阿里云 通义千问 7B 3万亿tokens 华为 盘古 200B 40TB中文文本、3B图像 图7:各大模型训练数据集对比图8:AI技术下数据分析各领域的增量 •C端:通用的大模型技术底座不会太多,可能只会有一个大一统的入口,通过丰富的插件、定制化功能、AIAgent满足用户的高度定制化和长尾需求。从大模型的迭代发展,我们看到底层技术基于Transformer架构的统一化。随着模型能力的增强,与硬件终端协同可能加剧流量入口的集成和统一。 •B端:不同行业具有各自垂类模型,不同大小的模型适用于不同场景。由于企业场景、业务流程差异化,不同的领域模型功能、数据集、模型大小和性能都有较大差别,定制化模型厂商或小模型性价比更高。目前出现很多竞争厂商在B端发力,比如Cohere、或者在Huggingface上用开源模型改造。 图9:近年来现有(大于10B)大语言模型的时间轴图10:北美各大企业的AI应用行业分布 •通过先进的闭源实现商业化,通过开源前代模型构建生态:OpenAI的GPT技术路线是当前模型自研商家优先选择并跟随的技术方向,而OpenAI凭借大模型的领先优势,后续更新到GPT5后,有可能将前代GPT3.5开源,通过更新一代、开源一代来实现自身战略。领先模型闭源、服务B端客户实现商业化,落后模型开源繁荣GPT生态与应用建设。 •通过AIAgent的形态去构建流量入口:OpenAI在AIAgent与流量入口领域有许多尝试,比如插件生态、GPTs。GPTs出现打破过去的软件孤岛、复杂、不能满足长尾需求的缺点,创建过程工具化标准化而且创建成果产品化。但是AIAgent必须要对个人有全链路的信息处理能力,当前GPTs实际上对个人信息的创建和积累是分裂的,比如单人创建不同的GPTs,其实它们之间互不相连,导致可能会产生训练和数据的浪费。 图11:OpenAI模型演进图图12:OpenAIGPTs应用 DELL-E12021.01 DELL-E22022.07 DELL-E12023.09 资料来源:OpenAI官网,参考文献:WayneXinZhao、KunZhou等,《ASurveyofLarge 资料来源:Gptshunter官网,国信证券经济研究所整理 •AIAgent框架为大模型提供结构化思考方法,成为生产环节的重要辅助:大模型作为理解推理能力不断增强,软件生产进入低门槛、高定制化时代,面向用户的长尾、个性化需求,Agent框架可以打造每个知识工作者的AI助理。 •AIAgent需要标准定义和模型能力进化,同时GenerativeUI可能带来人机交互方式的革新:当前大模型对连续的复杂推理问题包括对多模态信息的交叉处理仍有不足,需要用更复杂、结构化、多维度的数据来进一步学习。另一方面,Agent应用对当前的人机交互方式带来改变,演进成为同时适用于人类和AI操作的形式。 •案例:Agent以类人的方式与智能手机应用进行交互,使用点击和滑动等底层操作来操作图形用户界面(GUI)。利用大型语言模型的视觉能力以类似人类的方式操作智能手机应用程序。在探索阶段,智能体与智能手机应用程序交互并从结果中学习,以创建一个全面的参考文档。在部署阶段,智能体利用这个文档汇编的信息来有效操作和导航应用程序。 图13:用于操作智能手机应用程序的多模态智能体框架概述图14:多模态智能体框架在智能手机App操作中的多种应用 资料来源:ChiZhang,ZhaoYang等,《AppAgent:MultimodalAgentsasSmartphoneUsers》,资料来源:ChiZhang,ZhaoYang等,《AppAgent:MultimodalAgentsasSmartphoneUsers》, •AIGC将带来无限的内容生产与供给,进而颠覆当前的信息分发方式:a16z曾说过“芯片将计算的边际成本降到了零,互联网将分发的边际成本降到了零,现在AIGC实际上将创作的边际成本降到零”。每个人都有机会获得无限的娱乐内容供给,互联网常见的信息分发方式未来可能都面临重组。人会从主动生产和管理信息,进化到与AI共同生产以及与AI辅助管控共存。 •智能终端充当人类和AI认知世界的延伸,依托大模型同时满足生产力、社交娱乐等全面需求。相比软件产品智能硬件终端更容易演化到allinone的形态,从而抢占终端的流量入口。从苹果生态来看,智能终端的壁垒同时取决于生态业务场景的广度和深度,而AI大模型的技术同时带来两个维度的革新。 图15:苹果MR眼镜 资料来源:公司官网、国信证券经济研究所整理 图16:谷歌PixelAI手机 图17:AIPin 资料来源:公司官网、国信证券经济研究所整理 资料来源:公司官网、国信证券经济研究所整理 1 01 大模型的竞争格局演绎的关键因素 02 03 独立的模型团队—月之暗面、清华GLM、百川智能 互联网大厂的模型和应用进展—腾讯、字节、百度、阿里 04 风险提示 独立的模型团队—月之暗面、清华GLM、百川智能 月之暗面:清华系新星杨植麟领衔,团队核心人员多为清华同门 •月之暗面(MoonshotAI)创始人杨植麟自2020年起便坚信“大模型是未来”,2020年下半年为华为的盘古大模型做核心技术研发,2021年参与智源研究院的悟道大模型研发。2022年底杨植麟前往美国进行为期2个月的考察,美国民众对于GPT的狂热让他更坚信此时正是成立大模型公司的合适时机,于是他在接下来的1个月内完成首轮融资,拿到来自红杉等头部机构6000万美元的启动资金,并于3个月内组建起了大约40人的技术研发团队。 •MoonshotAI于2023年3月成立,成立前其团队主要通过与其他公司合作,以团队提供技术、合作方提供算力的形式来完成大模型相关工作。创始团队核心成员参与了GoogleGemini、GoogleBard、盘古NLP、悟道等多个大模型的研发,多项核心技术被GooglePaLM、MetaLLaMa、StableDiffusion等主流产品采用。 表1:MoonshotAI创始人团队背景介绍 姓名持股比例职位简介 杨植麟