您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国金证券]:计算机行业深度研究:LLaMA等开源模型凸显先进算法及行业数据的重要性 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机行业深度研究:LLaMA等开源模型凸显先进算法及行业数据的重要性

信息技术2023-04-16王倩雯、孟灿国金证券别***
计算机行业深度研究:LLaMA等开源模型凸显先进算法及行业数据的重要性

自2017年Transformer发布以来,大语言模型经历了由开源到逐步闭源的转变,头部公司先进模型的壁垒逐步形成。目前OpenAI、Google等领先的头部AI大厂对于先进模型大多采用部分开源或仅开放使用的模式,以此构建技术护城河。然而,将AI大模型直接应用于垂直行业,存在通用能力过剩、行业专业知识储备不足、推理过程消耗算力过高等问题。基于开源模型进行垂类模型开发可兼顾开发成本和数据安全,尤其是对于党政军、金融、电网、先进制造等数据敏感性较高的行业而言。 Meta旗下LLaMA大模型的开源或能为垂类模型落地提供预训练模型底座。LLaMA基于通用领域的开源数据集进行训练,训练数据涵盖40种语言,包含约1.4万亿Tokens。尽管LLaMA模型参数量较小,但性能丝毫不逊色于PaLM、GPT-3等大语言模型。并且较小的参数规模显著降低了LLaMA模型的落地部署和二次开发难度。 LLaMA作为完全开源的领先模型,具备高度的灵活性、可配置性和泛化能力,可以作为垂类AI模型的通用基座。基于LLaMA,垂类AI开发者可以根据其行业特点、应用行业数据定制开发相应的“行业发行版AI模型”。LLaMA模型一经发布就对外完全开源,吸引了广大AI开发者和研究者。目前,用户可在全球知名AI模型开源社区Huggingface中获取LLaMA的模型权重与训练代码。能够自由下载并使用LLaMA模型,既可以将其部署至设备直接进行推理,也可以基于LLaMA进行研究与二次开发。 我们测算了模型在迁移学习阶段的训练算力成本,在模型微调阶段,由于训练量级较小,仅为万级,相关的算力成本相比之下可忽略不计。例如,斯坦福大学于2023年3月对外发布Alpaca,这是一个基于LLaMA-7B基座,应用5.2 万指令对模型微调训练得到的对话类语言模型,该模型基于8块A100微调,微调时长3小时,算力成本不超过300 元。 在推理阶段,根据我们的初步测算,由8块A100组成的AI服务器可为规模达2,000人的中大型企业提供AI服务,离线部署方案每年的推理算力成本约为33.2万元,若采用云计算方案则每年需花费约66万元算力成本。基于上述推理成本分析,推理成本并不高昂,绝大多数中型以上企业足以负担,为各领域垂类模型落地提供了极为广阔的市场空间。 LLaMA等优质开源模型的推出极大加速了下游行业AI应用开发效率。基于“通用基座+迁移学习+微调”的垂类AI 模型开发范式或将成为主流,优质的行业数据资源成为影响模型性能的关键。 在此趋势之下,我们看好两类企业:1)拥有开发先进大模型能力的企业。这类企业在先进模型逐步走向闭源的趋势下,有望保持算法优势,如商汤科技、科大讯飞等。2)拥有丰富行业数据的头部公司。这类企业有望基于稀缺的行业数据以及开源模型,开发出可用性更强的垂类模型。如东方财富、同花顺、恒生电子等。 海外基础软硬件使用受限;骨干网络创新放缓;应用落地不及预期 内容目录 1.头部领先模型走向闭源,垂类模型开发呼唤开源3 1.1头部公司大模型逐步走向闭源3 1.2为什么垂类AI开发呼唤开源?5 2.LLaMA在通用开源模型中性能领先6 2.1LLaMA具有参数量低、性能优异、完全开源等特点6 2.2小参数量可降低垂类模型开发及部署难度7 2.3LLaMA提供通用开发基座,泛化能力更强8 3.“通用模型+迁移学习+微调”有望成为开发新范式,数据是重要壁垒9 3.1使用“迁移学习”向模型注入新知,开发难度相对较低9 3.2叠加先进算法微调,进一步释放模型性能10 3.3算力消耗并非海量,成本效益匹配11 3.4赋予垂类AI开发者离线部署能力和离线迭代能力13 4.投资建议13 5.风险提示14 图表目录 图表1:头部公司大模型从完全开源逐步走向部分开源3 图表2:OpenAI的系列模型开始向闭源发展4 图表3:大多数已完全开源模型准确率低于非开源模型5 图表4:基于开源模型训练垂类模型是较为理想的开发方式5 图表5:LLaMA参数量相比领先语言模型较小6 图表6:LLaMA基于海量通用领域的开源数据进行训练6 图表7:LLaMA通用领域性能处于世界领先行列7 图表8:LLaMA兼具高性能和易部署的特点7 图表9:LLaMA有望带动海量垂类模型落地8 图表10:微调无法向模型内部注入新知识9 图表11:迁移学习能向模型内部注入垂直领域新知识10 图表12:“通用基座+迁移学习+微调”有望成为垂类模型开发新范式10 图表13:LLaMA模型基座算力消耗11 图表14:采用云计算的垂类模型训练费用估算11 图表15:采用自建算力的垂类模型训练费用估算11 图表16:垂类模型推理算力成本估算12 1. 1.1头部公司大模型逐步走向闭源 自2017年Transformer发布以来,大语言模型经历了由开源到逐步闭源的转变,头部公司先进模型的壁垒逐步形成。 我们将AI模型的开源程度划分为以下四类: 完全开源:以论文形式对外发布AI模型的研究细节,研究者可以下载AI模型并离线部署。 部分开源:仅以论文形式对外发布AI模型的研究细节,研究者可以依照论文较为简单地进行模型复现。 仅开放使用:不对外公布任何技术细节,AI模型仅以API或自有产品的方式提供给 B端和C端用户。 完全闭源:不对外公布任何技术细节,AI模型仅以自有产品的方式提供给C端用户。 机构 大模型 模型开源 发布完整论文 API 开源模式 应用领域 发布时间 GPT   完全开源 自然语言生成 2018.6 GPT-2   完全开源 自然语言生成 2019.2 GPT-3   部分开源 自然语言生成 2020.3 OpenAI GPT-3.5   部分开源 自然语言生成 2022.11 DALLE-2   部分开源 图像生成 2022.4 Whisper    完全开源 语音识别翻译 2022.9 GPT-4  仅开放使用 多模态 2023.3 BERT   完全开源 自然语言处理 2018.10 T5   完全开源 自然语言处理 2019.10 LaMDA   完全开源 自然语言生成 2021.5 PaLM   部分开源 自然语言生成 2022.4 Google Imagen   完全开源 图像生成 2022.5 PaLI  部分开源 多模态 2022.9 Muse  部分开源 图像生成 2023.1 PaLM-E  部分开源 多模态 2023.3 LLaMA   完全开源 多模态 2023.2 OPT   完全开源 自然语言处理 2022.5 Meta Make-A-Video  部分开源 视频生成 2022.9 SegmentAnything   完全开源 图像分割 2023.4 PLATO   部分开源 自然语言生成 2019.10 ERNIE3.0    完全开源 自然语言理解 2021.7 ERNIE-ViLG   部分开源 多模态 2022.1 文心一言  仅开放使用 多模态 2023.3 Anthropic Claude   部分开源 自然语言生成 2022.12 StabliltyAI StableDiffusion    完全开源 图像生成 2022.9 图表1:头部公司大模型从完全开源逐步走向部分开源 百度 来源:OpenAI官网,GoogleAI官网,百度文心官网,GitHub,Anthropic官网,StabilityAI官网,国金证券研究所 对于AI算法公司,选择对外开源有助于行业技术进步和自身生态构建,是学界、早期业 界以及部分AI初创企业的选择: 行业技术发展:Google于2017年提出Transformer,采用完全开源模式,凭借其性能优势统一了深度学习底层算法,为后续的大模型发展奠定技术基础。2018年BERT、GPT-1等生成式语言模型陆续发布,也采用完全开源模式,带动AI行业高速发展。 生态构建:部分初创AI公司选择模型开源更多是出于自身生态建设的考虑。以StabilityAI为例,公司成立于2020年,于2022年9月开源文生图模型StableDiffusion,成为目前AI绘画赛道的佼佼者。目前StabilityAI已经在全球积累了超过14万名开发人员和7个研究中心社区,各渠道累计日活跃用户数超过1,000万,日益成熟的生态建设是推升公司估值的主要驱动力之一。 目前OpenAI、Google、Meta等领先的头部AI大厂对于先进模型大多采用部分开源模式或仅开放使用。以OpenAI为例,我们可以管窥海外头部AI厂商正在逐渐由开源走向闭源: 2019年及之前,OpenAI以完全开源为主。OpenAI于2018年发布第一代生成式预训练模型GPT-1并对外完全开源;2019年2月GPT-2论文发表,在模型规模和Zero-shot表现上提升较为明显,模型代码于同年8月开始分4批陆续对外开源。 2019年OpenAI成立盈利子公司OpenAILP,开始向盈利公司转变。2020年OpenAI发布GPT-3,并在论文中较为详细地介绍了模型训练情况,此外用户还可以通过API的方式调用模型资源,属于对外部分开源。GPT-3的发布加快了AI落地进程,此后OpenAI逐渐向闭源转变。 未来OpenAI可能采用仅开放使用模式。OpenAI于2022年11月发布ChatGPT,虽然官方未发布模型的具体论文,但目前AI开发者仍能从相关论文中获取技术路线信息,显著促进了行业技术的整体进步。2023年3月,OpenAI同步开放了GPT-3.5及语音识别翻译Whisper模型的API。3月14日,GPT-4发布,目前也处于仅开放使用状态,尚未向外部公布任何技术细节。 图表2:OpenAI的系列模型开始向闭源发展 来源:OpenAI官网,国金证券研究所 选择部分开源或闭源的模式有助于维持AI厂商技术优势。根据PercyLiang等人于2022年11月的研究,非开源模型性能优于开源模型:在16项核心语言类任务中,开源模型在13项任务中表现不及部分开源或闭源模型。AI大厂或延续部分开源或闭源模式,以此构建技术护城河。 图表3:大多数已完全开源模型准确率低于非开源模型 来源:《HolisticEvaluationofLanguageModels》(PercyLiang等),国金证券研究所 说明:文章统计了30个主流语言模型的情况,图中淡色柱状图为同类模型中准确度最高值,深色柱状图为整体精确度水平 1.2为什么垂类AI开发呼唤开源? AI大模型能够赋能下游垂直行业,可实现产品性能升级、用户体验感提升、企业降本增效等。但将AI大模型直接应用于垂直行业,存在通用能力过剩、行业专业知识储备不足、推理过程消耗算力过高等问题。因此,根据细分行业需求训练相应的垂类模型成为AI技术落地的必要环节。 对下游厂商而言,训练或获取AI垂类模型的主要方式有4种:1)自己从头训练垂类模型;2)调用AI厂商API;3)接受AI厂商离线部署模型;4)基于开源模型开发。其中基于开源模型进行开发可兼顾开发成本和数据安全,是较为理想的垂类模型开发方式,尤其是对于党政军、金融、电网、先进制造等数据敏感性较高的行业而言。 图表4:基于开源模型训练垂类模型是较为理想的开发方式 成本效益问题 数据安全问题 场景应用问题 从头自行训练 训练难度大、成本极高 不存在数据安全问题 可定制应用场景 调用AI厂商API API毛利率或达95%,成本企业内部数据将与外部模型 在线部署,要求网络稳定 接受AI厂商离线部署 较高 需要使用者具备一定自研能力,仍存在成本效益问题 相连 仍存在数据安全问题 产品迭代周期长,或影响后续研发 基于开源模型开发技术要求和成本门槛较低数据安全有保障自主性强,可自行定制模型能力 来源:第四范式公众号,数字时氪公众号,甲子