自2017年Transformer发布以来,大语言模型经历了由开源到逐步闭源的转变,头部公司先进模型的壁垒逐步形成。目前OpenAI、Google等领先的头部AI大厂对于先进模型大多采用部分开源或仅开放使用的模式,以此构建技术护城河。然而,将AI大模型直接应用于垂直行业,存在通用能力过剩、行业专业知识储备不足、推理过程消耗算力过高等问题。基于开源模型进行垂类模型开发可兼顾开发成本和数据安全,尤其是对于党政军、金融、电网、先进制造等数据敏感性较高的行业而言。 Meta旗下LLaMA大模型的开源或能为垂类模型落地提供预训练模型底座。LLaMA基于通用领域的开源数据集进行训练,训练数据涵盖40种语言,包含约1.4万亿Tokens。尽管LLaMA模型参数量较小,但性能丝毫不逊色于PaLM、GPT-3等大语言模型。并且较小的参数规模显著降低了LLaMA模型的落地部署和二次开发难度。 LLaMA作为完全开源的领先模型,具备高度的灵活性、可配置性和泛化能力,可以作为垂类AI模型的通用基座。基于LLaMA,垂类AI开发者可以根据其行业特点、应用行业数据定制开发相应的“行业发行版AI模型”。LLaMA模型一经发布就对外完全开源,吸引了广大AI开发者和研究者。目前,用户可在全球知名AI模型开源社区Huggingface中获取LLaMA的模型权重与训练代码。能够自由下载并使用LLaMA模型,既可以将其部署至设备直接进行推理,也可以基于LLaMA进行研究与二次开发。 我们测算了模型在迁移学习阶段的训练算力成本,在模型微调阶段,由于训练量级较小,仅为万级,相关的算力成本相比之下可忽略不计。例如,斯坦福大学于2023年3月对外发布Alpaca,这是一个基于LLaMA-7B基座,应用5.2 万指令对模型微调训练得到的对话类语言模型,该模型基于8块A100微调,微调时长3小时,算力成本不超过300 元。 在推理阶段,根据我们的初步测算,由8块A100组成的AI服务器可为规模达2,000人的中大型企业提供AI服务,离线部署方案每年的推理算力成本约为33.2万元,若采用云计算方案则每年需花费约66万元算力成本。基于上述推理成本分析,推理成本并不高昂,绝大多数中型以上企业足以负担,为各领域垂类模型落地提供了极为广阔的市场空间。 LLaMA等优质开源模型的推出极大加速了下游行业AI应用开发效率。基于“通用基座+迁移学习+微调”的垂类AI 模型开发范式或将成为主流,优质的行业数据资源成为影响模型性能的关键。 在此趋势之下,我们看好两类企业:1)拥有开发先进大模型能力的企业。这类企业在先进模型逐步走向闭源的趋势下,有望保持算法优势,如商汤科技、科大讯飞等。2)拥有丰富行业数据的头部公司。这类企业有望基于稀缺的行业数据以及开源模型,开发出可用性更强的垂类模型。如东方财富、同花顺、恒生电子等。 海外基础软硬件使用受限;骨干网络创新放缓;应用落地不及预期 内容目录 1.头部领先模型走向闭源,垂类模型开发呼唤开源3 1.1头部公司大模型逐步走向闭源3 1.2为什么垂类AI开发呼唤开源?5 2.LLaMA在通用开源模型中性能领先6 2.1LLaMA具有参数量低、性能优异、完全开源等特点6 2.2小参数量可降低垂类模型开发及部署难度7 2.3LLaMA提供通用开发基座,泛化能力更强8 3.“通用模型+迁移学习+微调”有望成为开发新范式,数据是重要壁垒9 3.1使用“迁移学习”向模型注入新知,开发难度相对较低9 3.2叠加先进算法微调,进一步释放模型性能10 3.3算力消耗并非海量,成本效益匹配11 3.4赋予垂类AI开发者离线部署能力和离线迭代能力13 4.投资建议13 5.风险提示14 图表目录 图表1:头部公司大模型从完全开源逐步走向部分开源3 图表2:OpenAI的系列模型开始向闭源发展4 图表3:大多数已完全开源模型准确率低于非开源模型5 图表4:基于开源模型训练垂类模型是较为理想的开发方式5 图表5:LLaMA参数量相比领先语言模型较小6 图表6:LLaMA基于海量通用领域的开源数据进行训练6 图表7:LLaMA通用领域性能处于世界领先行列7 图表8:LLaMA兼具高性能和易部署的特点7 图表9:LLaMA有望带动海量垂类模型落地8 图表10:微调无法向模型内部注入新知识9 图表11:迁移学习能向模型内部注入垂直领域新知识10 图表12:“通用基座+迁移学习+微调”有望成为垂类模型开发新范式10 图表13:LLaMA模型基座算力消耗11 图表14:采用云计算的垂类模型训练费用估算11 图表15:采用自建算力的垂类模型训练费用估算11 图表16:垂类模型推理算力成本估算12 1. 1.1头部公司大模型逐步走向闭源 自2017年Transformer发布以来,大语言模型经历了由开源到逐步闭源的转变,头部公司先进模型的壁垒逐步形成。 我们将AI模型的开源程度划分为以下四类: 完全开源:以论文形式对外发布AI模型的研究细节,研究者可以下载AI模型并离线部署。 部分开源:仅以论文形式对外发布AI模型的研究细节,研究者可以依照论文较为简单地进行模型复现。 仅开放使用:不对外公布任何技术细节,AI模型仅以API或自有产品的方式提供给 B端和C端用户。 完全闭源:不对外公布任何技术细节,AI模型仅以自有产品的方式提供给C端用户。 机构 大模型 模型开源 发布完整论文 API 开源模式 应用领域 发布时间 GPT 完全开源 自然语言生成 2018.6 GPT-2 完全开源 自然语言生成 2019.2 GPT-3 部分开源 自然语言生成 2020.3 OpenAI GPT-3.5 部分开源 自然语言生成 2022.11 DALLE-2 部分开源 图像生成 2022.4 Whisper 完全开源 语音识别翻译 2022.9 GPT-4 仅开放使用 多模态 2023.3 BERT 完全开源 自然语言处理 2018.10 T5 完全开源 自然语言处理 2019.10 LaMDA 完全开源 自然语言生成 2021.5 PaLM 部分开源 自然语言生成 2022.4 Google Imagen 完全开源 图像生成 2022.5 PaLI 部分开源 多模态 2022.9 Muse 部分开源 图像生成 2023.1 PaLM-E 部分开源 多模态 2023.3 LLaMA 完全开源 多模态 2023.2 OPT 完全开源 自然语言处理 2022.5 Meta Make-A-Video 部分开源 视频生成 2022.9 SegmentAnything 完全开源 图像分割 2023.4 PLATO 部分开源 自然语言生成 2019.10 ERNIE3.0 完全开源 自然语言理解 2021.7 ERNIE-ViLG 部分开源 多模态 2022.1 文心一言 仅开放使用 多模态 2023.3 Anthropic Claude 部分开源 自然语言生成 2022.12 StabliltyAI StableDiffusion 完全开源 图像生成 2022.9 图表1:头部公司大模型从完全开源逐步走向部分开源 百度 来源:OpenAI官网,GoogleAI官网,百度文心官网,GitHub,Anthropic官网,StabilityAI官网,国金证券研究所 对于AI算法公司,选择对外开源有助于行业技术进步和自身生态构建,是学界、早期业 界以及部分AI初创企业的选择: 行业技术发展:Google于2017年提出Transformer,采用完全开源模式,凭借其性能优势统一了深度学习底层算法,为后续的大模型发展奠定技术基础。2018年BERT、GPT-1等生成式语言模型陆续发布,也采用完全开源模式,带动AI行业高速发展。 生态构建:部分初创AI公司选择模型开源更多是出于自身生态建设的考虑。以StabilityAI为例,公司成立于2020年,于2022年9月开源文生图模型StableDiffusion,成为目前AI绘画赛道的佼佼者。目前StabilityAI已经在全球积累了超过14万名开发人员和7个研究中心社区,各渠道累计日活跃用户数超过1,000万,日益成熟的生态建设是推升公司估值的主要驱动力之一。 目前OpenAI、Google、Meta等领先的头部AI大厂对于先进模型大多采用部分开源模式或仅开放使用。以OpenAI为例,我们可以管窥海外头部AI厂商正在逐渐由开源走向闭源: 2019年及之前,OpenAI以完全开源为主。OpenAI于2018年发布第一代生成式预训练模型GPT-1并对外完全开源;2019年2月GPT-2论文发表,在模型规模和Zero-shot表现上提升较为明显,模型代码于同年8月开始分4批陆续对外开源。 2019年OpenAI成立盈利子公司OpenAILP,开始向盈利公司转变。2020年OpenAI发布GPT-3,并在论文中较为详细地介绍了模型训练情况,此外用户还可以通过API的方式调用模型资源,属于对外部分开源。GPT-3的发布加快了AI落地进程,此后OpenAI逐渐向闭源转变。 未来OpenAI可能采用仅开放使用模式。OpenAI于2022年11月发布ChatGPT,虽然官方未发布模型的具体论文,但目前AI开发者仍能从相关论文中获取技术路线信息,显著促进了行业技术的整体进步。2023年3月,OpenAI同步开放了GPT-3.5及语音识别翻译Whisper模型的API。3月14日,GPT-4发布,目前也处于仅开放使用状态,尚未向外部公布任何技术细节。 图表2:OpenAI的系列模型开始向闭源发展 来源:OpenAI官网,国金证券研究所 选择部分开源或闭源的模式有助于维持AI厂商技术优势。根据PercyLiang等人于2022年11月的研究,非开源模型性能优于开源模型:在16项核心语言类任务中,开源模型在13项任务中表现不及部分开源或闭源模型。AI大厂或延续部分开源或闭源模式,以此构建技术护城河。 图表3:大多数已完全开源模型准确率低于非开源模型 来源:《HolisticEvaluationofLanguageModels》(PercyLiang等),国金证券研究所 说明:文章统计了30个主流语言模型的情况,图中淡色柱状图为同类模型中准确度最高值,深色柱状图为整体精确度水平 1.2为什么垂类AI开发呼唤开源? AI大模型能够赋能下游垂直行业,可实现产品性能升级、用户体验感提升、企业降本增效等。但将AI大模型直接应用于垂直行业,存在通用能力过剩、行业专业知识储备不足、推理过程消耗算力过高等问题。因此,根据细分行业需求训练相应的垂类模型成为AI技术落地的必要环节。 对下游厂商而言,训练或获取AI垂类模型的主要方式有4种:1)自己从头训练垂类模型;2)调用AI厂商API;3)接受AI厂商离线部署模型;4)基于开源模型开发。其中基于开源模型进行开发可兼顾开发成本和数据安全,是较为理想的垂类模型开发方式,尤其是对于党政军、金融、电网、先进制造等数据敏感性较高的行业而言。 图表4:基于开源模型训练垂类模型是较为理想的开发方式 成本效益问题 数据安全问题 场景应用问题 从头自行训练 训练难度大、成本极高 不存在数据安全问题 可定制应用场景 调用AI厂商API API毛利率或达95%,成本企业内部数据将与外部模型 在线部署,要求网络稳定 接受AI厂商离线部署 较高 需要使用者具备一定自研能力,仍存在成本效益问题 相连 仍存在数据安全问题 产品迭代周期长,或影响后续研发 基于开源模型开发技术要求和成本门槛较低数据安全有保障自主性强,可自行定制模型能力 来源:第四范式公众号,数字时氪公众号,甲子