您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[信达证券]:电子行业专题研究:四问四答,剖析算力产业链价值潜力 - 发现报告
当前位置:首页/行业研究/报告详情/

电子行业专题研究:四问四答,剖析算力产业链价值潜力

电子设备2023-06-18莫文宇信达证券为***
电子行业专题研究:四问四答,剖析算力产业链价值潜力

四问四答,剖析算力产业链价值潜力 2023年6月18日 证券研究报告行业研究 行业专题研究电子投资评级上次评级 看好看好 莫文宇电子行业首席分析师执业编号:S1500522090001联系电话:13437172818邮箱:mowenyu@cindasc.com 韩字杰联系人邮箱:hanzijie@cindasc.com 信达证券股份有限公司CINDASECURITIESCO.,LTD北京市西城区闹市口大街9号院1号楼邮编:100031 四问四答,剖析算力产业链价值潜力 2023年06月18日 本期内容提要: Q:、GPT进化历程有何启示? A:我们认为GPT进化历程有力证明了“大数据+大参数”具有可行性。Transformer架构在2017年被提出,在捕获长序列语义特征方面的优势迅速让其成为了随后数年间NLP领域的领头羊。除了注意力机 制被广泛使用外,基于Transformer架构decoder发展出GPT家族,基于encoder发展出BERT系列。为了充分利用未经标注的大量语料,OpenAI创造性地让模型在预训练之后便直接进行推理,这种方式在GPT-3上取得了成功。随后,OpenAI引入强化学习,避免GPT生成不合乎人类价值观甚至没有逻辑的答案。在GPT的迭代中,模型的规模越来越大,而性能也在显著提升。GPT-4在许多考试中都取得了八十分位的成绩,相当于一个优秀的人类学生。同时,在多模态方面的能力也为未来指明了方向。 “大参数+大数据”有何优越?演进路线未来是否持续? A:关于大模型的好处:在论文《ScalingLawsforNeuralLanguageModels》中,研究者总结出模型的损失(Loss)与计算量、模型规 模、参数规模三个变量强相关,并且在其他两个变量恒定下,Loss与该变量呈现幂级关系,这一结论可称为缩放定律(scalinglaws),缩放定律表明大模型“大有大的好处”。此外,大模型展现出良好的涌现能力。涌现能力可以理解为“顿悟”。在模型规模提升到某一临界点,模型准确度迅猛提升。目前对于涌现能力本身及其产生的具体原因尚 有争议,但是涌现能力确实让大模型的商业化方向有了很大空间。关于“大数据+大参数”能否持续,主要关注两个限制,即语料和算力。第一个限制:语料可能会用光。据epochai的预测,高质量语言数据将在2026年前耗光,低质量语言数据将在2030-2050年耗光, 图像数据将在2060年左右耗光。但是语料耗光并不意味着大模型会停止前进,目前许多模型对语料的训练并不充分。第二个限制:硬件提供的算力是有限的。由于硬件端的限制,许多大模型在“变大”方面受到限制。在固定算力的情况下,模型参数和训练数据需要较好配 合才能使得模型性能发挥到最大。 Q:算力需求跑得多快?天花板在哪里? A:训练阶段的算力需求方面,约9.9个月翻倍。OpenAI在论文 《LanguageModelsareFew-ShotLearners》中公布了不同模型的计算次数,其中GPT-3计算次数大约3.14E+23次,GPT-3的计算次数大约等于“参数量(175B)*训练集规模(300Btokens)”的6倍。但这种关系并不一定完全成立,例如在BERT的模型中这一比例也接近6左右,但是在T5的模型中仅为3左右。JaimeSevilla、LennartHeim等研究者在《COMPUTETRENDSACROSSTHREEERAS OFMACHINELEARNIN》中,将数据集以对数线性回归方式进行研究,根据结果将机器学习训练算力分为3个时代: 前深度学习时代(1952-2010):平均每21.3个月翻一倍。深度学习时代(2010-2022):平均每5.7个月翻一倍。 大模型时代(2015-2022):平均9.9个月翻一倍。 但我们认为这一测算倾向于低估算力需求的成长速度。《COMPUTETRENDSACROSSTHREEERASOFMACHINELEARNIN》发布 时间在2022年中,彼时GPT-3相对于BERT而言并无显著优势。ChatGPT发布时间在2022年底,并且在终端用户中取得了良好的反响,我们认为这至少是一次中等规模的产业革命。在此催化下,大模 型路线的可行性已被验证,算力翻倍的时间或将显著缩短,低于9.9 个月。 推理阶段的算力需求方面,模型本身参数量及接入人数是两个显著变 量。从模型参数来看,初代GPT到GPT-2、GPT-2到GPT-3的模型参数量分别增加15、100倍左右,GPT4的参数量并未公开,但由于GPT-3参数量已经达到1750亿,我们认为从GPT-2到GPT-3这样两个数量级的增长已很难复刻,但仍可以推测参数量仍在快速增长。从接入用户看,OpenAI的访问次数迅猛提升。据similarweb数据,三月OpenAI访问次数为1.64B次,5月约为1.86B次。尽管增势在不断放缓,但我们也需考虑到两方面因素:第一,时间纵向上看,GPT-4并不是完美的,模型本身也在不断成长;第二,地区横向上看,持续不断的大模型正在推出。 大模型数量方面,不断有新的大模型在推出,且随着投资的增加,模型训练时间有望不断缩减。越来越多的大模型正在不断推出,这些模型除了越来越大以外,模型的推出节点也在变得密集。从WayneXinZhao等人的统计结果来看,大模型的参数量、预训练数据规模不断增长。参数方面,2023年华为推出的盘古-Σ达到1085B(1万亿),而数据量方面也达到了329Btokens。研究机构epochai对训练模型所需的时间进行了测算,考虑了三个变量,分别为硬件改善、算法改善 和资本增加,发现在三个因素共振的情况下,训练模型的最佳时间区间从3.55年缩短至2.52个月。我们认为,在ChatGPT取得成功以来,各国各大厂已足够重视大模型的发展,在上述三个变量中,硬件性能提升主要取决于相关大厂的产品迭代,而算法和预算均有望靠人力投入和资本开支在短期内快速提升,大模型训练的时间有望显著缩短,下一个ChatGPT级的应用或已不远。 Q:瞭望未来,受益环节几何? A:云厂商数据中心是大模型算力的承载者。由于大模型的训练往往需要大规模的AI服务器进行运算,这导致提供算力的门槛大幅提高, 因此训练和运行大模型的任务最终落在大型云服务提供商的数据中心上。例如,ChatGPT的算力提供商为微软,我们认为这种合作模式将会持续。 在数据中心中,服务器是最主要成员,建设成本占比约69%,而CPU/GPU是服务器核心组件。在数据中心建设成本中,服务器是最主要的成本构成,占比69%。此外,存储、网络、安全设备、光模块 等分别占比6%、11%、9%、5%左右。服务器相当于一台高性能的PC,而AI服务器专为大模型超大的算力需求设计,通常采用异构模式,组成硬件包括CPU、GPU、硬盘、内存等等,其中CPU和GPU是核心硬件,占据成本的绝大部分。 我们持续看好算力产业链,建议关注:海外算力产业链:工业富联、 沪电股份等;国产算力产业链:寒武纪、海光信息、兴森科技、芯原 股份、深南电路等;存储芯片:兆易创新、北京君正、东芯股份、普冉股份等。 风险因素:宏观经济下行风险;AI发展不及预期风险;地缘政治波动风险。 目录 四问四答,大模型如何鉴古追来?5 Q:如何看待GPT进化历程?5 Q:“大参数+大数据”有何好处?未来是否会持续?8 Q:算力需求跑得多快?天花板在哪里?11 Q:瞭望未来,哪些环节受益?15 风险因素17 图目录 图1:《AttentionIsAllYouNeed》5 图2:Transformer架构5 图3:模型对比5 图4:初代GPT与Transformer的对比5 图5:初代GPT和BERT的对比5 图6:历代GPT对比6 图7:上下文学习的三种设定6 图8:实验结果6 图9:instructGPT训练方式7 图10:GPT-4的性能超过前代7 图11:早期GPT-4与发布版GPT4在攻击性问题方面的回答8 图12:缩放定律8 图13:增加参数时模型的表现19 图14:增加参数时模型的表现29 图15:普通模式(Few-ShotPrompted)下模型的涌现能力9 图16:增强模式(AugmentedPrompting)下模型的涌现能力9 图17:训练语料耗尽测算10 图18:固定算力下Loss存在极小值10 图19:固定算力下最佳搭配10 图20:不同模型关键参数11 图21:训练次数翻倍所需时间11 图22:机器学习训练算力增长速度12 图23:OpenAI访问数量13 图24:大模型统计13 图25:大模型推出时间线14 图26:训练模型所需时间14 图27:训练模型所需时间的缩短15 图28:数据中心实景15 图29:2018年数据中心建设成本占比15 图30:服务器爆破图(超聚变G2500)16 图31:AI的ValueChain17 四问四答,大模型如何鉴古追来? Q:如何看待GPT进化历程? 2017年,谷歌《AttentionIsAllYouNeed》论文发表,提出了具备Attention机制的Transformer架构,此后这一架构开始主导NLP(自然语言处理)领域。Transformer引入Attention机制,encoder-decoder是模型基架。Transformer相较之前的神经网络模型,具有可处理长序列数据、训练速度更快、可更好的捕获上下文特征等优势。 图1:《AttentionIsAllYouNeed》图2:Transformer架构 资料来源:Google《AttentionIsAllYouNeed》,信达证券研发中心资料来源:Google《AttentionIsAllYouNeed》,信达证券研发中心BERT和GPT走上了两条不同的路线。Transformer提出后,一些模型使用decoder发展起来,如GPT家族;有的模型则基于encoder架构诞生,如BERT等;也有的模型基于encoder+decoder发展。BERT具有双向编码器,类似于完型填空。而GPT是单向的,在预测下一语言文本的时候,仅能提取当前词前面的文本。因此,GPT在生成式 (Generative)方面更有优势。 图3:模型对比 资料来源:机器之心公众号,信达证券研发中心 初代GPT是OpenAI的开山之作,与Transformer相比,除了仅采用decoder之外,还对模型做了一些调整。初代GPT在2018年发布,参数量约1.17亿,在大约5G数据上进行训练。训练方法上,采用无监督的Pre-training和有监督Fune-tuning进行训练。初代GPT证明了Transformer强大的泛化能力,进行微调以后在很多下游任务取得了良好效果。 而BERT采用双向编码器架构,参数量在1.1-3.4亿之间,训练时允许每个token都学习前后文的特征(完形填空),在性能上,BERT也超过了初代GPT。 图4:初代GPT与Transformer的对比图5:初代GPT和BERT的对比 资料来源:腾讯云开发者,信达证券研发中心资料来源:腾讯云开发者,信达证券研发中心 GPT-2和GPT-3在模型架构上与初代并无区别,但参数量和训练集数量大幅提升。尽管初代GPT的性能并不如BERT,但是BERT有其固有缺点。在自然语言处理中有大量的语料是未经标注的,微调的训练方式导致无法对这些语料充分利用。GPT-3直接去掉微调,只是提供少量或者不提供样例,让模型在Pre-training之后直接进行推理。实验结果表明,GPT3取得了显著的成功,尤其是Few-shot方面(即在无需微调甚至仅给与少量提示),模型的准确性大幅提升。 图6:历代GPT对比 资料来源:腾讯云开发者,信达证券研发中心 图7:上下文学习的三种设定图8:实验结果 资料来源:OpenAI《LanguageModelsareFew-ShotLearners》,信达证券研