证券研究报告|2024年01月02日 人工智能应用专题(4): 国内AI大模型趋势探讨,互联网大厂AI进程梳理 行业研究·行业专题 投资评级:超配(维持评级) 证券分析师:张伦可 0755-81982651 zhanglunke@guosen.com.cnS0980521120004 联系人:刘子谭liuzitan@guosen.com.cn 联系人:王颖婕0755-81983057 wangyingjie1@guosen.com.cn 联系人:陈淑媛 021-60375431 chenshuyuan@guosen.com.cn •大模型技术本质上来源于科研创新与技术积累,我国大模型厂商根据自身特点演绎出不同的发展方向。大模型诞生与技术的积累与不断创新,伴随海外技术进步与大模型开源,我国大模型企业也在不断追赶,包括根据其技术路径自研或在其开源框架上优化调整。 •有效数据集有限,优质数据集仍旧稀缺,关注具备高质量内容的平台。大模型的未来发展依赖于训练数据集的质量,而非仅仅是数量。AI技术把原先难以利用的非结构数据带入分析领域,内容创作者所聚集的平台成为高质量数据的重要来源。 •大模型后续竞争格局B端与C端分化:C端更易于产生通用底座以及大一统的入口,通过丰富的插件、定制化功能、AIAgent满足用户的高度定制化和长尾需求。B端定制化模型或垂类模型性价比更高,不同B端行业可能用各自模型来满足企业场景、业务流程、模型大小和性能的差异化需求。 •AIAgent框架带来全链路、定制化的信息处理能力,成为生产环节的重要辅助,助力智能硬件“AllinOne”抢占终端流量入口。AIAgent需要标准定义和模型能力进化,同时GenerativeUI可能带来人机交互方式的革新。 •月之暗面、清华GLM、百川智能:作为独立的第三方模型厂商,创始人技术背景强,模型迭代速度快,产品布局AIGC等各个领域。 •互联网大厂腾讯、字节、百度、阿里:结合自身业务场景进行模型和AI应用的开发,同时布局算力、平台、大模型与应用全环节,关注AI生态建设。 投资建议:国内模型能力有望快速提升,带动应用百花齐放。建议积极布局大模型相关厂商和产业链机会。 风险提示:宏观经济波动风险,下游需求不及预期风险,AI伦理风险,核心技术水平升级不及预期的风险等。 01 大模型的竞争格局演绎的关键因素 02 独立的模型团队—月之暗面、清华GLM、百川智能 03 互联网大厂的模型和应用进展—腾讯、字节、百度、阿里 04 风险提示 •海外大厂核心大模型的能力迁移是国内AI发展的重要考量。考察是否有海外大厂核心大模型研发的技术积累和知识迁移到国内,以及这些技术在本土的应用情况和调整,对理解国内外AI技术的差异和互动具有重要意义。 •国内企业大模型技术路线有两类:①自研效果复现类:参考GPT论文自研复现效果,前期耗时、后续Finetuning对于数据数量质量也有一定要求,能力天花板高;②基于开源迭代类:训练更顺畅但天花板低,依赖开源社区,且开源模型如Llama2比较GPT3.5还是有差距。 •国内企业大模型团队发展路径有两类:①从搜广推背景转向大模型研发,如百度和百川;②成立之初主要基于大模型研究路线和学术背景,如月之暗面的杨植麟团队和清华的智谱团队。 图1:不同公司/组织/院校近三年top-100AI发文数 图2:海外SuperGlue模型榜单排名(截至2023年12月) 资料来源:SergiCastellaiSapé,《Mustread:the100mostcitedAIpapersin2022》,ZetaAlpha,2023年3月2日,国信证券经济研究所整理 资料来源:SuperGlue,参考文献:ZDu、YQian等,《GLM:GeneralLanguageModelPretrainingwithAutoregressiveBlankInfilling》,ComputationandLanguage(cs.CL),2022,arXiv:2103.10360,国信证券经济研究所整理 •OpenAI的核心能力主要体现在三个方面:1)数据收集和处理的能力,包括数据来源,清洗方式,数据结构等;2)模型结构,包括注意力、隐藏层等设计;3)训练方法,包括各类超参数,学习率等。海外大模型开源后,我国大模型企业可在其框架上进行优化调整,以百川智能为例: 基于开源模型提升性能:据GitHub,百川智能通过对LLaMA框架进行修改以提升训练时的吞吐。此外,在LLaMA较为薄弱的中文语料方面,百川智能采用2000万条以中英为主的多语言语料训练分词模型,显著提高中文的压缩率。 大模型+搜索增强解决方案服务B端场景:百川智能通过借助搜索增强,解决大模型在幻觉和时效性问题,提升了模型的可用性,并拓展了应用领域,如金融、政务、司法、教育等行业的智能客服、知识问答、合规风控、营销顾问等。 图3:Baichuan-7B对LLaMA框架进行优化后的性能提升 图4:在LLaMA上进行的研究工作的演化图 资料来源:GitHubBaiChuan主页,国信证券经济研究所整理 请务必阅读正文之后的免责声明及其项下所有内容 资料来源:WayneXinZhao、KunZhou等,《ASurveyofLargeLanguageModels》,ComputationandLanguage,2023,arXiv:2303.18223,国信证券经济研究所整理 •有效数据集有限,优质数据集仍旧稀缺。当前开源榜单公开训练数量级,现有常见的大模型训练数据集往往在几十到几百B的量级,优质的数据集可能就只有300-500Btoken,进化到多模态数据量有所增加,但总量也不多。有的模型会用万亿级别的数据token训练,但很多数据其实是无效的。 •大模型的未来发展依赖于训练数据集的质量,而非仅仅是数量。根据ScalingLaw,Transformer架构的语言模型性能在很大程度上取决于模型大小、数据集大小和训练计算量,性能与这三个因素之间存在幂律关系,且趋势跨越多个数量级,而对其他架构细节(如网络深度或宽度)的依赖相对较小。未来的大模型可能会经历增长飞轮效应,但关键在于训练数据集的质量。这强调了选择和使用高质量数据的重要性,而不仅仅是追求数量。单纯的用户数据上不一定会产生飞轮效应,比如某些用户数据目前只具备统计学的能力,能够发现逻辑、数学 的问题还需要找逻辑、数学数据集去优化。 图5:各大模型训练数据集对比 图6:ScalingLaw模型性能与模型参数、数据集和训练计算量成幂律关系 资料来源:WayneXinZhao、KunZhou等,《ASurveyofLargeLanguageModels》,ComputationandLanguage,2023,arXiv:2303.18223,国信证券经济研究所整理 请务必阅读正文之后的免责声明及其项下所有内容 资料来源:OpenAI官网,国信证券经济研究所整理 •AI技术把原先难以利用的非结构数据(占比80%)带入分析领域。AI浪潮下数据资产的重要性凸显,Snowflake在财报会提到AI技术把原来客户无法利用的非结构化数据带入分析领域构成新的增量。一系列数据公司与产品受益,包括云数据仓库领域(Snowflake)、非结构化/向量数据库(MangoDB、Pinecone)、云数据监控(DataDog)和ML/AIOps领域(Databricks、AWSBedrock、Weights&Biases)。 图7:各大模型训练数据集对比 图8:AI技术下数据分析各领域的增量 资料来源:各公司官网、国信证券经济研究所整理 请务必阅读正文之后的免责声明及其项下所有内容 资料来源:KarlKeirstead等,《AISurveyofEnterpriseExecs–ShapingtheAINarrativeInto2024》,U.S.Software,2023,国信证券经济研究所整理 •内容创作者所聚集的平台,如字节和腾讯视频号成为高质量数据的重要来源。随着内容创作者转向音视频平台,这些平台成为了聚集高质量数据的热点,如字节跳动和腾讯视频号等平台。部分观点类数据可能具有一定时效性,如百度问答和知乎等平台上的数据。 公司 模型 参数量 数据规模 阿里巴巴 M6 10T 1.9TB图像和292GB文本 智源研究院 悟道2.0 1.75T 4.9T 腾讯 混元 1T 2T 百度 文心 260B 45TB 中科院自动化所 紫东·太初 100B 1.42TB中文 智谱华章 ChatGLM3 1.5B、3B和6B 百川智能 百川 2B/7B/13B 2.6T 上海人工智能实验室 书生 7B/20B 2.3T(InternLM-20B) 科大讯飞 星火 170B 数十亿的语言数据集 商汤科技 InternLM 1,04B 1.6万亿token 春田知韵(抖音) 豆包 7B 1300亿 阿里云 通义千问 7B 3万亿tokens 华为 盘古 200B 40TB中文文本、3B图像 •C端:通用的大模型技术底座不会太多,可能只会有一个大一统的入口,通过丰富的插件、定制化功能、AIAgent满足用户的高度定制化和长尾需求。从大模型的迭代发展,我们看到底层技术基于Transformer架构的统一化。随着模型能力的增强,与硬件终端协同可能加剧流量入口的集成和统一。 •B端:不同行业具有各自垂类模型,不同大小的模型适用于不同场景。由于企业场景、业务流程差异化,不同的领域模型功能、数据集、模型大小和性能都有较大差别,定制化模型厂商或小模型性价比更高。目前出现很多竞争厂商在B端发力,比如Cohere、或者在 Huggingface上用开源模型改造。 图9:近年来现有(大于10B)大语言模型的时间轴 图10:北美各大企业的AI应用行业分布 资料来源:WayneXinZhao、KunZhou等,《ASurveyofLargeLanguageModels》,ComputationandLanguage,2023,arXiv:2303.18223,国信证券经济研究所整理 请务必阅读正文之后的免责声明及其项下所有内容 资料来源:KarlKeirstead等,《AISurveyofEnterpriseExecs–ShapingtheAINarrativeInto2024》,U.S.Software,2023,国信证券经济研究所整理 •通过先进的闭源实现商业化,通过开源前代模型构建生态:OpenAI的GPT技术路线是当前模型自研商家优先选择并跟随的技术方向,而OpenAI凭借大模型的领先优势,后续更新到GPT5后,有可能将前代GPT3.5开源,通过更新一代、开源一代来实现自身战略。领先模型闭源、服务B端客户实现商业化,落后模型开源繁荣GPT生态与应用建设。 费。 图11:OpenAI模型演进图 图12:OpenAIGPTs应用 DELL-E1DELL-E2DELL-E1 2021.012022.072023.09 资料来源:OpenAI官网,参考文献:WayneXinZhao、KunZhou等,《ASurveyofLargeLanguageModels》,ComputationandLanguage,2023,arXiv:2303.18223,国信证券经济研究所整理 资料来源:Gptshunter官网,国信证券经济研究所整理 •通过AIAgent的形态去构建流量入口:OpenAI在AIAgent与流量入口领域有许多尝试,比如插件生态、GPTs。GPTs出现打破过去的软件孤岛、复杂、不能满足长尾需求的缺点,创建过程工具化标准化而且创建成果产品化。但是AIAgent必须要对个人有全链路的信息处理能力,当前GPTs实际上对个人信息的创建和积累是分裂的,比如单人创建不同的GPTs,其实它们之间互不相连,导致可能会产生训练和数据的浪 9 •AIAg