您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华西证券]:计算机行业:ChatGPT,深度拆解AI算力模型 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机行业:ChatGPT,深度拆解AI算力模型

信息技术2023-02-23刘泽晶华西证券上***
计算机行业:ChatGPT,深度拆解AI算力模型

仅供机构投资者使用证券研究报告|行业动态报告 2023年02月23日 ChatGPT,深度拆解AI算力模型 评级及分析师信息 行业评级:推荐 行业走势图 0%-7%-14%-21%-28% -35% 2022/022022/052022/082022/112023/02 计算机沪深300 分析师:刘泽晶邮箱:liuzj1@hx168.com.cnSACNO:S1120520020002联系电话: 计算机行业 ChatGPT算法的核心壁垒 (1)庞大的数据训练数据,往往意味着模型精准度的上升;数据量大,往往意味着数据特征维度大,模型的参数越复杂,训练数据维度跟算力指数呈现正相关,算力成本高。 (2)底层算法Transformer,相较于传统神经网络综合特征提取能力、远距离特征捕获能力、语义特征提取能力,全部明显增强,正逐步取代RNN(循环神经网络)。 138737 (3)AI预训练模型(大模型),本质是“大算力+强算法”结合的产物,对自然语言理解能力明显上升,谷歌BERT模型就是典型跨时代的例子,我们认为其是AIGC的初始应用算法。 (4)多模态数据协同,极大推动AIGC的内容多样性与通用性,让AIGC不只局限于文本和图像等单个部分,而是多应用相容。 不同类别AIGC算法比对 1、ChatGPT:训练模型为强化学习近端策略优化,可以理解成在“人脑思维”的基础上加入了“人类反馈系统”,是一种奖励模型,拥有175B参数,训练数据为语言文本。 2、LaDMA(谷歌Bard):参数方面为137B,奖励模型是人类评分机制,训练数据为对话数据。 3、图神经网络(GNN)作为科学领域预训练模型(大模型)备受瞩目,强大之处在于数据结构,其应用广阔例如推荐系统、药物发现、合成物发现、芯片设计等众多科学前沿领域。 国产ChatGPT生态正在形成 百度是少有预训练模型(大模型)语言训练能力的公司,已经经历多次迭代,参数方面,模型基于ERNIE3.0,拥有千亿级参数。预训练方面,具备海量知识沉淀和丰富场景的文心大模型,跨模态方面,已有地理-语言、视觉-语言、语音-语言等模型架构,已覆盖众多方向,例如自然语言处理、机器视觉等其他重大任务,此外,根据IDC数据,目前已有近百万开发者使用文心大模型,生态正在逐步繁荣,合作厂商覆盖科技、教育、工业、媒体、金融等诸多产业。 投资建议:关注鸿蒙OS的生态伙伴 我们认为AIGC的出世会产生革命性的影响,同时有望赋能千行百业。我们梳理了三条路径图,积极的推荐以下三条投资主线: 请仔细阅读在本报告尾部的重要法律声明 1)具备算力基础的厂商,受益标的为寒武纪、商汤、海光信息、浪潮信息、中科曙光、景嘉微、联想集团、紫光股份、龙芯中科; 2)具备AI算法商业落地的厂商,重点推荐科大讯飞、拓尔思,其他受益标的为:汉王科技、海天瑞声、云从科技; 3)AIGC相关技术储备的应用厂商,受益标的为:百度、同花顺、三六零、金山办公。 风险提示 核心技术水平升级不及预期的风险;AI伦理风险;政策推进不及预期的风险;中美贸易摩擦升级的风险。 正文目录 1.ChatGPT,深度拆解AI算力模型4 1.1.ChatGPT算法的核心壁垒4 1.2.不同类别AIGC算法比对9 1.3.我国国产ChatGPT生态正在形成11 2.投资建议:梳理AIGC相关受益厂商14 3.风险提示15 图目录 图表1AI算法的全流程4 图表2模型的准确度和数据数量呈现正相关5 图表3AI需求呈现指数级别的增长5 图表4Transformer算法的前世今生5 图表5Transformer模型与RNN、CNN模型准确度对比(%)5 图表6深度学习初期模型越来越大6 图表7预模型出现后机器对自然语言的理解不断提升6 图表8国外主要AIGC预训练模型一览7 图表9谷歌GBRT取得的能力8 图表10谷歌GBRT预训练架构8 图表11CLIP算法示意图8 图表12Dall·E2自动生成图画8 图表13强化学习近端策略优化优化示意图9 图表14ChatGPT和LaMDA的不同(左为ChatGPT,右为LaMDA)10 图表15图神经网络在电子健康记录建模的应用10 图表16药物发现和合成化合物11 图表17百度文心预训练模型(大模型)发展历程12 图表18百度文心大模型全景图13 图表19部分国产ChatGPT文心一言合作公司14 1.ChatGPT,深度拆解AI算力模型 1.1.ChatGPT算法的核心壁垒 图表1AI算法的全流程 AI的完整算法生成分为五部分分别是数据收集、数据清洗、模型训练、模型测试、模型部署和反馈。 资料来源:CSDN,华西证券研究所 核心壁垒一,庞大的数据训练数据。数据是所有人工智能(或大数据)的“燃料”,根据appen的数据,ChatGPT的前身GPT-3就使用了3,000亿单词、超过40T的大规模、高质量数据进行训练。ChatGPT在其基础上,加入了人工打标的监督学习,即对话式模型给出结果后,由训练师对结果做出评价并修改结果以更贴切对话内容。 原因,往往愈发庞大的“燃料”意味着模型的精准度的提升,数据量的大小跟深度学习(大数据)的准确度庞大的正相关。此外,数据量的大小对于运算计算机算力的要求往往呈现指数级别的关系,这也是强大算法的核心需求。原因是数据清洗和数据标注的核心意义就是将人们理解的非结构化数据转变成计算机可以理解的结构化数据。可以将人工智能的本质理解成矩阵的运算,矩阵的维度往往代表着数据特征的维度,这也是训练神经网络参数的基础,一般情况下,数据维度越多,模型参数量越多,模型越复杂,模型的准确度越高,对算力的指数需求越高。本质是数据维度与算力指数呈现正相关。(不考虑参数堆积、模型过拟合的情况) 图表2模型的准确度和数据数量呈现正相关图表3AI需求呈现指数级别的增长 资料来源:知乎,华西证券研究所资料来源:腾讯云,华西证券研究所 第二,模型训练方面,ChatGPT强大的底层技术是Transformer算法,该算法正逐步取代RNN(循环神经网络)。Transformer算法在神经网络中具备跨时代的意义:RNN和CNN已经广泛应用于序列模型、语言建模、机器翻译并取得不错效果,然而在算法上仍有一定限制和不足。Transformer具备跨时代的意义的原因是算法上添加了注意力机制,这种机制具备突破性的原因在于1、突破了RNN模型不能并行计算的限制;2、相比CNN模型,关联所需的操作次数不随距离增长;3、模型解释力度明显加强。从结果上看,根据CDSN数据,Transformer的综合特征提取能力、远距离特征捕获能力、语义特征提取能力,全部明显增强,因此此算法正逐步取代RNN算法,也是ChatGPT算法的底座。 图表4Transformer算法的前世今生图表5Transformer模型与RNN、CNN模型准确度对 资料来源:公开资料整理,华西证券研究所资料来源:CSDN,华西证券研究所 第三,模型训练部分,AI预训练模型(大模型)引发了AIGC技术能力的质变。在该模型问世之前,具有使用门槛高、训练成本低、内容生成简单和质量偏低等问题。而在AIGC领域,AI预训练模型拥有巨大参数量模型,AI预模型可以实现多任务、多语言、多方式等至关重要的作用。 AI预训练模型的出正是人工智能发展的未来和趋势,AI预训练模型(大模型)即“大算力+强算法”结合的产物。大模型通常是在大规模无标注数据上进行训练,学习出一种特征和规则。基于大模型进行应用开发时,将大模型进行微调,如在下游特定任务上的小规模有标注数据进行二次训练,或者不进行微调,就可以完成多个应用场景的任务。 AI预训练模型的本质是机器对自然语言理解能力的不断提升:其根本原因除Transformer算法以外,还有就是参数量的大小,谷歌BERT网络模型的提出,使得参数量首次超过3亿规模,GPT-3模型超过百亿。此外,目前较火热AIGC的参数量已经超过千亿。此外,参数量往往是计算空间的复杂程度,模型空间越复杂,往往意味着庞大的计算量,计算量和参数量呈现正比关系。这也是随着AI的功能强大,AI对算力呈现指数级别根本需求的本质原因。 图表6深度学习初期模型越来越大图表7预模型出现后机器对自然语言的理解不断提升 经典神经网络 AlexNet VGG16 Inception-V3 模型内存(MB) >200 >500 90-100 参数(百万) 60 138 23.2 计算量(百万) 720 15300 5000 资料来源:博客网,华西证券研究所资料来源:知乎,华西证券研究所 此外,预训练模型(大模型),按照应用的基本类型分类:可分为1、自然语言处理(NLP),例如谷歌的LaMDA和PaLM、OpenAI的GPT系列;2、计算机视觉(CV),例如微软的Florence;3、多模态即融合文字、图片、音视频等多种内容形式,例如OpenAI的DALL-E2;此外,根据不同的领域的应用,可以将预训练模型进一步分类。 图表8国外主要AIGC预训练模型一览 厂商 预训练模型 应用 参数量 领域 谷歌 BERT 语言理解与生成 4810亿 NLP LaMDA 对话系统 NLP PaLM 语言理解与生成、推理、代码 生成 5400亿 NLP Imagen 语言理解与图像 生成 110亿 多模态 Parti 语言理解与图像 生成 200亿 多模态 微软 Florence 视觉识别 6.4亿 CV Turing-NLG 语言理解、生成 170亿 NLP Facebook OPT-175B 语言模型 1750亿 NLP M2M-100 100种语言互译 150亿 NLP DeepMind Gato 多面手的智能体 12亿 多模态 Gopher 语言理解与生成 2800亿 NLP AlphaCode 代码生成 414亿 NLP OpenAI GPT3 语言理解与生成、推理等 1750亿 NLP CLIP&DALL-E 图像生成、跨模 态检索 120亿 多模态 Codex 代码生成 120亿 NLP ChatGPT 语言理解与生成、推理等 NLP 英伟达 Megatron-TuringNLG 语言理解与生成、推理等 5300亿 NLP StabilityAI StableDiffusion 语言理解与图像 生成 多模态 资料来源:腾讯《AIGC发展报告2023》,华西证券研究所 谷歌BERT作为自然语言处理(NLP)是预训练模型(大模型)的里程碑之作:BERT模型是谷歌2018年发布的的掩码语言模型,当时发布后,在许多自然语言理解任务上取得了最先进的性能,被当时誉为最先进的神经网络模型。其具有里程碑式结果如下,机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩:全部两个衡量指标上全面超越人类,并且还在11种不同NLP测试中创出最佳成绩,包括将GLUE基准推至80.4%(绝对改进7.6%),MultiNLI准确度达到86.7%(绝对改进率5.6%)等。 BERT取得跨时代的意义是新的预训练模型:在BERT模型出世之前,现有的技术已经严重限制了预训练表示的能力,原因是标准语言模型架构是单向的,因此,Bert采用了Transformer技术的双向编码器表示。与最近的其他语言表示模型不同,BERT旨在通过联合调节所有层中的上下文来预先训练深度双向表示。因此,预训练的BERT表示可以通过一个额外的输出层进行微调,适用于广泛任务的最先进模型的构建,比如问答任务和语言推理,无需针对具体任务做大幅架构修改。 模型的预训练核心机制是其具备里程碑的根本原因:语言建模(15%的标记被屏蔽,训练目标是在给定上下文的情况下预测原始标记)和下一句预测(训练目标是对两个文本跨度进行分类)依次出现在训练语料库中)。因此,BERT学习了上下文中单词和句子的潜在表示,例如语言推理、文本分类和基于序列到序列的语言生成任务,此外该阶段的计算成本明显高于微调。我们认为该算法