AI大模型的长期垄断形成与竞争要素 2023年4月13日 证券研究报告 AI大模型的长期垄断形成与竞争要素 2023年4月13日 行业点评 行业专题研究(普通) 电子 本期内容提要: GPT模型基于Transformer,它的本质即全局特征提取器。将词向 量、位置向量和分段向量相加,便得到了GPT模型的输入表示。在 看好 投资评级 模型的训练过程中,这些向量将通过多层Transformer结构进行处理,以捕捉词汇之间的复杂关系。词向量(TokenEmbeddings):每个词片段都被映射到一个固定长度的向量,捕捉该词片段的语义信息。这些词向量在模型的预训练过程中学习得到。位置向量 看好 上次评级 (PositionalEmbeddings):GPT使用固定长度的位置向量,用于捕 捉词片段在输入序列中的位置信息。这些位置向量与词向量相加,生 莫文宇电子行业首席分析师 执业编号:S1500522090001 联系电话:13437172818 邮箱:mowenyu@cindasc.com 成包含位置信息的输入表示。分段向量(SegmentEmbeddings):GPT-2不使用分段向量,但在GPT-3及BERT等其他模型中,它们用于区分不同的输入段。模型的训练就是寻找这些向量之间存在的位置关系,以发现语言作为知识的载体,其本身所蕴含何种数学相关性。 韩字杰联系人 邮箱:hanzijie@cindasc.com 提升参数量=提升性能、提升泛化能力,长期垄断局面可能形成:从论文研究来看,参数量的提升有助于构建语言预测模型的精确度,同时提高泛化能力。泛化能力的提升意味着一个参数量超级庞大的大模型,其在垂直细分领域的预测能力可超过针对垂直领域开发的中等参数量模型,这意味着AI的发展长期也是强者恒强的垄断过程,即参数量超级庞大的模型在任何垂直领域都具备优势,垂直细分的小模型难有生产空间。 数据标注的地位被弱化,AI产业的经济竞争也是文化竞争:无论是GPT还是SAM,其在训练过程中,大量依靠互联网原生内容训练,因此一种语言的高质量文本内容的丰富程度,将决定基于该语言的大模型能力强弱,中文互联网文本内容生态亟待加强。 AI大模型至少是一次中等规模的产业革命:仅从时间节点ChatGPT的表现来看,AI的能力边界取决于过去人类产生的知识,它对于工业来说就是极大地降低了知识获取难度。将人类知识的海洋汇聚于一个语言的入口,它更像是windows之于电脑,开启了普通人接触高性能设备的通道,也开启了电子产品/AI从企业端进入消费端的大门。 针对电子行业,我们认为在大模型格局未完全形成之前,参数量的无上限堆砌是各家企业发力的焦点,故算力的“军备竞赛”无可避免,若以动态视角来看AI芯片及服务器相关上游的弹性存在超预期可能。建议关注:兴森科技、兆威机电、芯原股份、寒武纪、通富微电。 风险提示:1.技术迭代不及预期;2.地缘政治风险;3.技术路径、产业趋势发生重大变化。 信达证券股份有限公司 CINDASECURITIESCO.,LTD 北京市西城区闹市口大街9号院1号楼邮编:100031 目录 回归AI基本面:技术视角的分析4 AI潜在垄断的形成过程、AI的竞争要素、AI的历史地位5 风险因素9 图目录 图1:ChatGPT的技术演进路径、历史地位与下游应用4 图2:Transformer模型如何理解语义4 图3:几类Transformer模型的举例5 图4:模型能力从参数体量的增加中受益6 图5:不同参数体量模型再零样本、少样本情况下命中率比较6 图6:随着参数增加,零样本/少样本阅读理解任务能力的提高6 图7:即使只增加随机种子的数量,微调的预训练模型效果也会增强7 图8:SegmentAnythingModel(SAM)概览7 回归AI基本面:技术视角的分析 人工智能经历了漫长的研究过程,近年来在范式上的转变奠定了ChatGPT的基础。基于通用类模型构建AI系统的模型被称为基础模型,即在大规模数据上训练、微调并适配到各种下游任务的模型。基础模型基于深度神经网络和自监督学习,已经存在了几十年。随着Transformer的诞生,基础模型的规模迅速壮大,应用范围突飞猛进。大模型在此基础上通过“暴力美学”实现大算力、大数据、大参数下的通用模型能力,可根据具体垂直应用进行微调。ChatGPT是在GPT-3.5系列模型的基础上形成的,于2022年初完成训练,其出现代表AI技术的第三次范式升级,即从大模型走向AGI(通用人工智能)。 图1:ChatGPT的技术演进路径、历史地位与下游应用 资料来源:甲子光年,真格基金,信达证券研发中心 GPT模型基于Transformer,它的本质即全局特征提取器。将词向量、位置向量和分段向量相加,便得到了GPT模型的输入表示。在模型的训练过程中,这些向量将通过多层Transformer结构进行处理,以捕捉词汇之间的复杂关系。词向量(TokenEmbeddings):每个词片段都被映射到一个固定长度的向量,捕捉该词片段的语义信息,这些词向量在模型的预训练过程中学习得到。位置向量(PositionalEmbeddings):GPT使用固定长度的位置向量,用于捕捉词片段在输入序列中的位置信息。这些位置向量与词向量相加,生成包含位置信息的输入表示。分段向量(SegmentEmbeddings):GPT-2不使用分段向量,但在GPT-3及BERT等其他模型中,它们用于区分不同的输入段,分段向量在这些模型中有助于捕获多个句子之间的关系。 图2:Transformer模型如何理解语义 资料来源:BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding(JacobDevlin等),信达证券研发中心 Transformer模型是参数量可以无限增长的通用模型,可以处理长序列的输入、输出,泛化能力强。Transformer模型是一种基于自注意力机制的深度学习模型,相较于传统AI模型如循环神经网络(RNN)和卷积神经网络(CNN),它在处理序列数据时具有更高的并 行性和可扩展性。其中,自注意力机制使得模型能够捕捉序列中长距离依赖关系,同时避免了RNN中的梯度消失或爆炸问题。Transformer模型的参数量之所以会随着数据量和任务复杂度无限增长,是因为它可以通过堆叠更多的层或增加隐藏层宽度来提高模型性能,从而适应更复杂的数据和任务;在传统CNN/RNN模型中,增加网络参数量会提高模型的拟合能力,但过多的参数容易导致过拟合现象。这意味着模型可能在训练集上表现良好,但在测试集或实际应用中的泛化能力较差。市面上主流的语言模型分为四类: 自回归模型(AutoregressiveLanguageModels):利用因果注意力来预测下一个标记,擅长生成式NLP任务。如:GPT(OpenAI)。 自编码模型(AutoencoderModels):更适合文本理解和分析任务,如情感分析、文本分类、实体识别等。如:BERT模型(Google)。 编码/解码模型(Encoder-Decoder):可以更好地捕捉输入序列的上下文信息,非常适合处理如机器翻译、文本摘要等任务。如:BART模型(Facebook)。 广义自回归模型(GeneralizedAutoregressive):XLNet通过对输入序列的所有可能排列进行建模,能够捕捉到双向的上下文信息;擅长文本分类、命名实体识别和情感分析等。如:XLNet(Google+卡内基梅隆大学)。 以上各类模型各有优劣,我们认为自回归模型、编码/解码模型、广义自回归模型都有较高的商业化前景。 图3:几类Transformer模型的举例 资料来源:Aman.ai,信达证券研发中心 AI潜在垄断的形成过程、AI的竞争要素、AI的历史地位 以下,我们从GPT及SAM论文出发以分析AI行业的长期发展趋势: LanguageModelsareUnsupervisedMultitaskLearners(GPT2) 中文译为《语言模型是无监督多任务学习器》,指用于模型训练的数据集无需特别标注,只需训练模型通过前文预测后文的能力就能够产生很好的问答效果。文章指出,通过训练语言模型来预测下一个单词或字符的概率,模型可以学习自然语言处理任务,例如问答、机器翻译、阅读理解和摘要生成等。此外,论文还展示了如何将条件信息与语言模型相结合来执行特定任务,这种方法称为零样本学习,因为它不需要任何特定于任务的标记数 据。因此,我们可以说语言模型是无监督多任务学习器。同时,训练GPT的数据来源并不需要特别标注,只需要筛选互联网中的高质量的文本内容就可以形成优秀的模型。 图4:模型能力从参数体量的增加中受益 数据来源:LanguageModelsareUnsupervisedMultitaskLearners(AlecRadford等),信达证券研发中心 LanguageModelsareFew-ShotLearners(GPT3) 中文译为《语言模型是少样本学习者》,指随着模型参数量的增加,即使针对没有特殊训练的垂直领域,模型的精确度也能快速上升。文章指出,大型语言模型可以通过在大量文本语料库上进行预训练来开发广泛的技能和模式识别能力。这些技能和能力可以在推理时用于快速适应或识别所需的任务。作者使用“上下文学习”一词来描述这个过程的内部循环,该过程发生在每个序列的前向传递中。此外,与传统方法相比,扩大语言模型规模可以显著提高其任务无关、少样本性能,有时甚至可以达到之前最先进的微调方法的竞争水平。总结来看,提升参数体量可以让大型语言模型在没有样本的情况下,也能提高命中率;因此提升模型参数量是各家产品分出胜负的关键手段。 图5:不同参数体量模型再零样本、少样本情况下命中率比较图6:随着参数增加,零样本/少样本阅读理解任务能力的提高 数据来源:LanguageModelsareFew-ShotLearners(TomB.Brown 等),信达证券研发中心 数据来源:LanguageModelsareFew-ShotLearners(TomB.Brown 等),信达证券研发中心 Fine-TuningLargeLanguageModels:WeightInitializations,DataOrders,andEarlyStopping 中文译为《微调大型语言模型:权重初始化、数据顺序和提前停止》,研究如何对GPT模型进行微调,商业化意义斐然。OpenAI提出了以下几个微调预训练模型的建议: •选择合适的预训练模型:不同的预训练模型可能适用于不同的任务和数据集。因此, 需要根据实际情况选择最适合您任务的预训练模型。 •选择合适的超参数:超参数包括学习率、批量大小、正则化系数等。这些参数对微调过程和模型性能都有重要影响,需要进行仔细调整。 •使用早期停止:早期停止可以防止过拟合,并提高模型泛化能力。通常,可以使用验证集上的性能来确定何时停止训练。 •数据增强:数据增强可以帮助提高模型的鲁棒性和泛化能力。例如,在文本分类任务中,可以使用随机删除、替换或插入单词等方法来增加数据样本。 •多次微调:由于随机种子现象,即使使用相同的超参数值也可能导致不同的结果。因此,建议多次微调,并记录每次实验的结果。 •合理评估模型性能:在评估模型性能时,应该使用多个指标,并根据实际情况进行选择。同时,还应该注意避免过度拟合测试集。 图7:即使只增加随机种子的数量,微调的预训练模型效果也会增强 数据来源:Fine-TuningLargeLanguageModels:WeightInitializations,DataOrders,andEarlyStopping(JDodge等),信达证券研发中心 SegmentAnythingMode 针对零样本泛化、高能效图像分割模型(S