通信 开源竞速:AI大模型的“Linux时刻”降临 证券研究报告|行业深度 2023年05月31日 ChatGPT发布后不久,Meta就开源了类GPT大语言模型LLaMA,此后,Alpaca、Vicuna、Koala等多个大模型诞生,它们以远低于ChatGPT的模型规模和成本,实现了令人瞩目的性能,引发业内人士担忧“谷歌和OpenAI都没有护城河,大模型门槛正被开源踏破,不合作就会被取代”。资本市场也在关注大模型未来竞争格局如何,模型小了是否不再需要大量算力,数据在其中又扮演了什么角色?……本报告试图分析这波开源大语言模型风潮的共同点,回顾开源标杆Linux的发展史,回答这些问题。 共同点一:始于开源。开源≠免费,开源的商业模式至少包括:1、靠服务变现。曾上市、后被IBM收购的Linux企业服务公司红帽即是一例。企业为了更稳定和及时的技术支持,愿意付费。2、靠授权费变现。安卓开 源,但谷歌向欧盟使用安卓谷歌套件的厂商收取许可费即是一例。3、许可证、标准和能力评价体系的发展,是开源大模型商用程度深化的催化剂。这波开源大模型采用的许可证协议主要是Apache2.0和MIT,它们不禁止商用,并且不禁止用户修改模型后闭源,这有助于公司应用此类大模型。 共同点二:参数少、小型化。相较于GPT3+千亿参数超大模型,这波开源大模型的参数量普遍在十亿至百亿级别。目前尚没有一套系统的大模型性能评价体系,其中仅部分任务有公信力较强的评分标准。开源大模型中, Vicuna的能力也较强,在部分任务能达到92%GPT4的效果。总体来说,OpenAIGPT系仍一骑绝尘,但训练成本高,难复现。而开源大模型借助更大标识符训练数据集、DeepSpeed、RLHF等方式,实现低训练成本和高性能,超大模型以下大模型的壁垒正在消失。 共同点三:数据集重视人类指令,并走向商用。ChatGPT相较于GPT3效果大幅提升的重要因素是使用了RLHF(基于人类反馈的强化学习),即在训练中,使用人类生成的答案和对AI生成内容的排序,来让AI“对齐” 人类偏好。LLaMA没有使用指令微调,但LLaMA之后的大量大模型使用并开源了指令数据集,并且逐步探索自建指令数据集,而非使用有商用限制的OpenAI的,进一步降低了复现GPT的门槛,扩展了商用可用性。 增持(维持) 行业走势 通信沪深300 64% 48% 32% 16% 0% -16% 2022-052022-092023-012023-05 作者 分析师宋嘉吉 执业证书编号:S0680519010002邮箱:songjiaji@gszq.com 分析师孙爽 执业证书编号:S0680521050001邮箱:sunshuang@gszq.com 相关研究 1、《通信:海外AI算力的新看点》2023-05-28 2、《通信:边缘计算——始于AI,赋能应用》2023-05- 21 3、《通信:算力为🖂,中心、边缘齐发力》2023-05-21 接下来怎么看开源大模型?站在开源大模型浪潮中,我们注意到两个趋势:1)与多模态融合,清华大学的VisualGLM-6B即是著名开源语言模型 ChatGLM的多模态升级版,我们认为,其可基于消费级显卡在本地部署的特性是大势所趋。2)开源模型+边缘计算推动AI商用落地,哈尔滨大学的中文医疗问诊模型“华驼”以及在跨境电商的使用就是案例。 投资建议:我们认为,对大模型的看法应该分时、分层看待。1、短期内,OpenAI的GPT系超大模型仍然超越众开源大模型,因此,应当重点关注与其在股权和产品上深度合作的微软、能获得ChatGPTiosApp收益分成 的苹果,以及超大模型的算力服务商英伟达等;2、中长期来看,如果部分开源大模型能力被进一步验证,则应用将快速铺开,大模型对算力将形成正循环;3、其他:边缘算力、大数据公司和开源大模型服务商业态也值得关注。建议关注:1)智能模组服务商:美格智能、广和通;2)边缘IDC服务商:龙宇股份、网宿科技;3)光模块服务商:中际旭创、新易盛、天孚通信、源杰科技;4)传统的IoT通信芯片厂商:有望受益行业上行过程。建议关注:中兴通讯、工业富联、翱捷科技、初灵信息;5)应用端标的:恺英网络、神州泰岳、佳讯飞鸿、中科金财等。 风险提示:伦理风险、市场竞争风险、政策法律监管风险。 请仔细阅读本报告末页声明 内容目录 1引言4 1.1“谷歌和OpenAI都没有护城河,大模型门槛正被开源踏破”4 1.2开源大模型集中出现,堪称风潮4 1.2.1“LLaMA系”:表现好,但商用化程度低4 1.2.2Dolly2.0、RedPajama、StableLM等:商用化程度高5 1.2.3中文双子星:ChatGLM-6B和MOSS5 2共同点一:始于开源7 2.1为什么要开源?7 2.1.1模型视角:防止大公司垄断,破除商业禁用限制7 2.1.2数据视角:保护企业机密,使定制化数据训练成为可能7 2.1.3算力视角:降低算力成本,使大模型的使用“普惠化”7 2.2开源,需要什么土壤?7 2.2.1从开源标杆Linux说开去7 2.2.2Linux并非一己之作,借力于社区深厚的开源历史8 2.3开源了,还怎么赚钱?10 2.3.1红帽公司(RedHat):服务至上10 2.3.2安卓系统(Android):背靠谷歌,靠广告变现10 2.4开源大模型主流许可证支持商用11 3共同点二:开源大模型参数少、小型化12 3.1超大模型和大模型分别多大?12 3.2GPT系超大模型能力最强,但难复现12 3.2.1Vicuna:利用GPT-4评估14 3.2.2ZenoBuild测评:较新,较全面14 3.2.3C-Eval:全面的中文基础模型评估套件14 3.2.4GPT系超大模型训练成本高,短期内难复现15 3.3开源大模型性价比高,超大模型以下大模型的壁垒正在消失15 4共同点三:开源大模型数据集重视人类指令,并自立门户17 4.1学习ChatGPT方法论,引入人类指令数据集17 4.2数据集走向商用18 4.2.1预训练数据集少量可商用18 4.2.2指令数据集部分可商用18 5展望20 5.1多模态化:助力通用人工智能(AGI)发展20 5.1.1ImageBind闪亮登场,用图像打通6种模态20 5.1.2开源大模型的多模态探索集中于图片,但进展飞快20 5.2专业化:下游生态发力,针对特定任务微调模型22 6投资建议24 6.1微软:与OpenAI深度合作24 6.2英伟达:开源大模型带动应用风起,算力需求狂飙24 6.2.1超大模型对算力的需求将保持高增长24 6.2.2开源大模型的快速追赶也将利好算力24 6.2.3催化剂:开源大模型许可证、标准和能力评价体系的发展24 6.3Meta:开源“急先锋”,受益于开源生态25 6.4其他25 6.4.1边缘算力+开源模型:AI应用的落地加速器25 6.4.2大数据公司:看好“开源大模型+自有海量数据”组合25 6.4.3开源大模型服务商:服务至上25 6.4.4苹果:获得ChatGPTApp收入分成25 风险提示26 图表目录 图表1:谷歌工程师发文阐述对大模型竞争格局的担忧4 图表2:大模型发展树状图5 图表3:部分开源大模型概况6 图表4:2021年,中国服务器操作系统市场,Linux装机量市占率远超Unix8 图表5:Linux创始人发布的第一篇有关Linux的帖子9 图表6:红帽公司的部分产品及其定价(截至2023年5月9日)10 图表7:部分开源软件许可证11 图表8:大模型训练和推理的一般流程12 图表9:部分大模型的参数量13 图表10:PaLM模型与先前模型最先进结果(SOTA)在多项任务中比较结果13 图表11:开源大模型与OpenAIGPT系大模型能力对比13 图表12:由GPT-4评估的回答质量14 图表13:ZenoBuild测评结果14 图表14:C-Eval评估结果15 图表15:部分开源大模型微调成本16 图表16:Chinchilla�样本大型多任务语言理解测试结果16 图表17:ChatGPTRLHF三步骤17 图表18:部分开源大模型的预训练模型开源与商用情况18 图表19:部分开源大模型指令数据集的开源与商用情况19 图表20:ImageBind典型实例展示20 图表21:医学知识图谱CMeKG片段示例23 图表22:华驼大模型sus评分实验结果23 1引言 一篇报道引发了公众对开源大语言模型的强烈关注。 1.1“谷歌和OpenAI都没有护城河,大模型门槛正被开源踏破” “除非谷歌和OpenAI改变态度,选择和开源社区合作,否则将被后者替代”,据彭博和SemiAnalysis报道,4月初,谷歌工程师LukeSernau发文称,在人工智能大语言模 型(LargeLanguageModels,LLM,以下简称“大模型”)赛道,谷歌和ChatGPT的推出方OpenAI都没有护城河,开源社区正在赢得竞赛。 这一论调让公众对“年初Meta开源大模型LLaMA后,大模型大量出现”现象的关注推向了高潮,资本市场也在关注大公司闭源超大模型和开源大模型谁能赢得竞争,在“模型”“算力”“数据”三大关键要素中,大模型未来竞争格局如何,模型小了是否就不再需要大量算力,数据在其中又扮演了什么角色?……本报告试图剖析这波开源大模型风潮的共同点,回顾开源标杆Linux的发展史,回答以上问题,展望大模型的未来。 图表1:谷歌工程师发文阐述对大模型竞争格局的担忧 资料来源:Bloomberg、SemiAnalysis,国盛证券研究所 1.2开源大模型集中出现,堪称风潮 2月24日,Meta发布LLaMA开源大模型,此后,市场集中涌现出一批大模型,大致可以分为三类。 2.1.1“LLaMA系”:表现好,但商用化程度低 LLaMA包括四个不同的参数版本(70亿/130亿/330亿/650亿),不支持商用,指令数据集基于OpenAI,模型表现可与GPT-3持平或优于GPT-3。其中,70亿和130亿参数版拥有包含1万亿个标识符(Token)的预训练数据集;330亿和650亿参数版拥有包 含1.4万亿个标识符的预训练数据集。在与GPT-3的对比中,LLaMA-70亿参数版在常识推理任务、零样本任务、自然问题和阅读理解中的表现与GPT-3水平相当,而130亿参数及更高参数的版本模型在以上领域的表现均优于GPT-3。 LLaMA模型本身没有使用指令数据集,但考虑到效果优于GPT-3的ChatGPT使用了人类指令数据集,一批开源大模型在LLaMA模型基础上,使用了OpenAI指令数据集来优化模型的表现,包括Alpaca、GPT4All、Vicuna、Koala、OpenAssistant和HuggingChat。由于OpenAI指令数据集不可商用,因此这批基于LLaMA的开源大模型也都不可商用。 图表2:大模型发展树状图 资料来源:《HarnessingthePowerofLLMsinPractice:ASurveyonChatGPTandBeyond》,国盛证券研究所 2.1.2Dolly2.0、RedPajama、StableLM等:商用化程度高 这些大模型没有使用OpenAI指令数据集,因此可以商用,但大多数还在持续开发中。 2.1.3中文双子星:ChatGLM-6B和MOSS ChatGLM-6B和MOSS分别由清华大学和复旦大学相关研究团体推出,在中文社区知名度较高。 这批模型还具有一些共同点,报告将在下文详述。 图表3:部分开源大模型概况 模型名称 推出团队 发布时间 参数规模 训练数据集规模 /标识符数量 指令数据集规模 LLaMA Meta 2023.2.24 70亿/130亿 /330亿/650亿 1万亿(70亿 /130亿版); 无 1.4万亿(330 亿/650亿) OpenAssistant LAION 2023.4.17