热门搜索：

通信行业深度：开源竞速，AI大模型的“Linux时刻”降临

信息技术2023-05-31国盛证券九***

AI智能总结

开源大模型正在改变通信行业，其参数量较小、小型化，且重视人类指令，走向商用。OpenAI GPT系仍一骑绝尘，但训练成本高，难复现。而开源大模型借助更大标识符训练数据集、DeepSpeed、RLHF等方式，实现低训练成本和高性能，超大模型以下大模型的壁垒正在消失。大模型对算力将形成正循环。建议关注智能模组服务商、边缘IDC服务商、光模块服务商、传统的IoT通信芯片厂商和应用端标的。

通信开源竞速：AI大模型的“Linux时刻”降临证券研究报告|行业深度 2023年05月31日 ChatGPT发布后不久，Meta就开源了类GPT大语言模型LLaMA，此后，Alpaca、Vicuna、Koala等多个大模型诞生，它们以远低于ChatGPT的模型规模和成本，实现了令人瞩目的性能，引发业内人士担忧“谷歌和OpenAI都没有护城河，大模型门槛正被开源踏破，不合作就会被取代”。资本市场也在关注大模型未来竞争格局如何，模型小了是否不再需要大量算力，数据在其中又扮演了什么角色？……本报告试图分析这波开源大语言模型风潮的共同点，回顾开源标杆Linux的发展史，回答这些问题。共同点一：始于开源。开源≠免费，开源的商业模式至少包括：1、靠服务变现。曾上市、后被IBM收购的Linux企业服务公司红帽即是一例。企业为了更稳定和及时的技术支持，愿意付费。2、靠授权费变现。安卓开源，但谷歌向欧盟使用安卓谷歌套件的厂商收取许可费即是一例。3、许可证、标准和能力评价体系的发展，是开源大模型商用程度深化的催化剂。这波开源大模型采用的许可证协议主要是Apache2.0和MIT，它们不禁止商用，并且不禁止用户修改模型后闭源，这有助于公司应用此类大模型。共同点二：参数少、小型化。相较于GPT3+千亿参数超大模型，这波开源大模型的参数量普遍在十亿至百亿级别。目前尚没有一套系统的大模型性能评价体系，其中仅部分任务有公信力较强的评分标准。开源大模型中， Vicuna的能力也较强，在部分任务能达到92%GPT4的效果。总体来说，OpenAIGPT系仍一骑绝尘，但训练成本高，难复现。而开源大模型借助更大标识符训练数据集、DeepSpeed、RLHF等方式，实现低训练成本和高性能，超大模型以下大模型的壁垒正在消失。共同点三：数据集重视人类指令，并走向商用。ChatGPT相较于GPT3效果大幅提升的重要因素是使用了RLHF（基于人类反馈的强化学习），即在训练中，使用人类生成的答案和对AI生成内容的排序，来让AI“对齐” 人类偏好。LLaMA没有使用指令微调，但LLaMA之后的大量大模型使用并开源了指令数据集，并且逐步探索自建指令数据集，而非使用有商用限制的OpenAI的，进一步降低了复现GPT的门槛，扩展了商用可用性。增持（维持）行业走势通信沪深300 64% 48% 32% 16% 0% -16% 2022-052022-092023-012023-05 作者分析师宋嘉吉执业证书编号：S0680519010002邮箱：songjiaji@gszq.com 分析师孙爽执业证书编号：S0680521050001邮箱：sunshuang@gszq.com 相关研究 1、《通信：海外AI算力的新看点》2023-05-28 2、《通信：边缘计算——始于AI，赋能应用》2023-05- 21 3、《通信：算力为🖂，中心、边缘齐发力》2023-05-21 接下来怎么看开源大模型？站在开源大模型浪潮中，我们注意到两个趋势：1）与多模态融合，清华大学的VisualGLM-6B即是著名开源语言模型 ChatGLM的多模态升级版，我们认为，其可基于消费级显卡在本地部署的特性是大势所趋。2）开源模型+边缘计算推动AI商用落地，哈尔滨大学的中文医疗问诊模型“华驼”以及在跨境电商的使用就是案例。投资建议：我们认为，对大模型的看法应该分时、分层看待。1、短期内，OpenAI的GPT系超大模型仍然超越众开源大模型，因此，应当重点关注与其在股权和产品上深度合作的微软、能获得ChatGPTiosApp收益分成的苹果，以及超大模型的算力服务商英伟达等；2、中长期来看，如果部分开源大模型能力被进一步验证，则应用将快速铺开，大模型对算力将形成正循环；3、其他：边缘算力、大数据公司和开源大模型服务商业态也值得关注。建议关注：1）智能模组服务商：美格智能、广和通；2）边缘IDC服务商：龙宇股份、网宿科技；3）光模块服务商：中际旭创、新易盛、天孚通信、源杰科技；4）传统的IoT通信芯片厂商：有望受益行业上行过程。建议关注：中兴通讯、工业富联、翱捷科技、初灵信息；5）应用端标的：恺英网络、神州泰岳、佳讯飞鸿、中科金财等。风险提示：伦理风险、市场竞争风险、政策法律监管风险。请仔细阅读本报告末页声明内容目录 1引言4 1.1“谷歌和OpenAI都没有护城河，大模型门槛正被开源踏破”4 1.2开源大模型集中出现，堪称风潮4 1.2.1“LLaMA系”：表现好，但商用化程度低4 1.2.2Dolly2.0、RedPajama、StableLM等：商用化程度高5 1.2.3中文双子星：ChatGLM-6B和MOSS5 2共同点一：始于开源7 2.1为什么要开源？7 2.1.1模型视角：防止大公司垄断，破除商业禁用限制7 2.1.2数据视角：保护企业机密，使定制化数据训练成为可能7 2.1.3算力视角：降低算力成本，使大模型的使用“普惠化”7 2.2开源，需要什么土壤？7 2.2.1从开源标杆Linux说开去7 2.2.2Linux并非一己之作，借力于社区深厚的开源历史8 2.3开源了，还怎么赚钱？10 2.3.1红帽公司（RedHat）：服务至上10 2.3.2安卓系统（Android）：背靠谷歌，靠广告变现10 2.4开源大模型主流许可证支持商用11 3共同点二：开源大模型参数少、小型化12 3.1超大模型和大模型分别多大？12 3.2GPT系超大模型能力最强，但难复现12 3.2.1Vicuna：利用GPT-4评估14 3.2.2ZenoBuild测评：较新，较全面14 3.2.3C-Eval：全面的中文基础模型评估套件14 3.2.4GPT系超大模型训练成本高，短期内难复现15 3.3开源大模型性价比高，超大模型以下大模型的壁垒正在消失15 4共同点三：开源大模型数据集重视人类指令，并自立门户17 4.1学习ChatGPT方法论，引入人类指令数据集17 4.2数据集走向商用18 4.2.1预训练数据集少量可商用18 4.2.2指令数据集部分可商用18 5展望20 5.1多模态化：助力通用人工智能（AGI）发展20 5.1.1ImageBind闪亮登场，用图像打通6种模态20 5.1.2开源大模型的多模态探索集中于图片，但进展飞快20 5.2专业化：下游生态发力，针对特定任务微调模型22 6投资建议24 6.1微软：与OpenAI深度合作24 6.2英伟达：开源大模型带动应用风起，算力需求狂飙24 6.2.1超大模型对算力的需求将保持高增长24 6.2.2开源大模型的快速追赶也将利好算力24 6.2.3催化剂：开源大模型许可证、标准和能力评价体系的发展24 6.3Meta：开源“急先锋”，受益于开源生态25 6.4其他25 6.4.1边缘算力+开源模型：AI应用的落地加速器25 6.4.2大数据公司：看好“开源大模型＋自有海量数据”组合25 6.4.3开源大模型服务商：服务至上25 6.4.4苹果：获得ChatGPTApp收入分成25 风险提示26 图表目录图表1：谷歌工程师发文阐述对大模型竞争格局的担忧4 图表2：大模型发展树状图5 图表3：部分开源大模型概况6 图表4：2021年，中国服务器操作系统市场，Linux装机量市占率远超Unix8 图表5：Linux创始人发布的第一篇有关Linux的帖子9 图表6：红帽公司的部分产品及其定价（截至2023年5月9日）10 图表7：部分开源软件许可证11 图表8：大模型训练和推理的一般流程12 图表9：部分大模型的参数量13 图表10：PaLM模型与先前模型最先进结果(SOTA)在多项任务中比较结果13 图表11：开源大模型与OpenAIGPT系大模型能力对比13 图表12：由GPT-4评估的回答质量14 图表13：ZenoBuild测评结果14 图表14：C-Eval评估结果15 图表15：部分开源大模型微调成本16 图表16：Chinchilla�样本大型多任务语言理解测试结果16 图表17：ChatGPTRLHF三步骤17 图表18：部分开源大模型的预训练模型开源与商用情况18 图表19：部分开源大模型指令数据集的开源与商用情况19 图表20：ImageBind典型实例展示20 图表21：医学知识图谱CMeKG片段示例23 图表22：华驼大模型sus评分实验结果23 1引言一篇报道引发了公众对开源大语言模型的强烈关注。 1.1“谷歌和OpenAI都没有护城河，大模型门槛正被开源踏破” “除非谷歌和OpenAI改变态度，选择和开源社区合作，否则将被后者替代”，据彭博和SemiAnalysis报道，4月初，谷歌工程师LukeSernau发文称，在人工智能大语言模型（LargeLanguageModels，LLM，以下简称“大模型”）赛道，谷歌和ChatGPT的推出方OpenAI都没有护城河，开源社区正在赢得竞赛。这一论调让公众对“年初Meta开源大模型LLaMA后，大模型大量出现”现象的关注推向了高潮，资本市场也在关注大公司闭源超大模型和开源大模型谁能赢得竞争，在“模型”“算力”“数据”三大关键要素中，大模型未来竞争格局如何，模型小了是否就不再需要大量算力，数据在其中又扮演了什么角色？……本报告试图剖析这波开源大模型风潮的共同点，回顾开源标杆Linux的发展史，回答以上问题，展望大模型的未来。图表1：谷歌工程师发文阐述对大模型竞争格局的担忧资料来源：Bloomberg、SemiAnalysis，国盛证券研究所 1.2开源大模型集中出现，堪称风潮 2月24日，Meta发布LLaMA开源大模型，此后，市场集中涌现出一批大模型，大致可以分为三类。 2.1.1“LLaMA系”：表现好，但商用化程度低 LLaMA包括四个不同的参数版本（70亿/130亿/330亿/650亿），不支持商用，指令数据集基于OpenAI，模型表现可与GPT-3持平或优于GPT-3。其中，70亿和130亿参数版拥有包含1万亿个标识符（Token）的预训练数据集；330亿和650亿参数版拥有包含1.4万亿个标识符的预训练数据集。在与GPT-3的对比中，LLaMA-70亿参数版在常识推理任务、零样本任务、自然问题和阅读理解中的表现与GPT-3水平相当，而130亿参数及更高参数的版本模型在以上领域的表现均优于GPT-3。 LLaMA模型本身没有使用指令数据集，但考虑到效果优于GPT-3的ChatGPT使用了人类指令数据集，一批开源大模型在LLaMA模型基础上，使用了OpenAI指令数据集来优化模型的表现，包括Alpaca、GPT4All、Vicuna、Koala、OpenAssistant和HuggingChat。由于OpenAI指令数据集不可商用，因此这批基于LLaMA的开源大模型也都不可商用。图表2：大模型发展树状图资料来源：《HarnessingthePowerofLLMsinPractice:ASurveyonChatGPTandBeyond》，国盛证券研究所 2.1.2Dolly2.0、RedPajama、StableLM等：商用化程度高这些大模型没有使用OpenAI指令数据集，因此可以商用，但大多数还在持续开发中。 2.1.3中文双子星：ChatGLM-6B和MOSS ChatGLM-6B和MOSS分别由清华大学和复旦大学相关研究团体推出，在中文社区知名度较高。这批模型还具有一些共同点，报告将在下文详述。图表3：部分开源大模型概况模型名称推出团队发布时间参数规模训练数据集规模 /标识符数量指令数据集规模 LLaMA Meta 2023.2.24 70亿/130亿 /330亿/650亿 1万亿（70亿 /130亿版）；无 1.4万亿（330 亿/650亿） OpenAssistant LAION 2023.4.17

点击免费查看完整报告

你可能感兴趣

通信行业深度：开源竞速，AI大模型的“Linux时刻”降临

你可能感兴趣

通信行业研究周报：中国移动集采AI服务器Meta发布下一代开源大模型

AI行业深度更新报告：大模型“开源、轻量、端侧”化，视频与语音加速落地

英维克深度AI高密度时代的液冷全链条自研龙头开源通信电新

海外科技行业中美科技巨头的AI大模型竞赛：GPT裂变时刻

电子设备行业动态点评：华为发布通信大模型，AI有望大幅提升电信行业的创新力和运营效率