ChatGPT:突破性的对话系统预训练生成模型。 ChatGPT是基于transformer架构的文本生成式AI。ChatGPT由GPT系列分化而来,从GPT-1到ChatGPT,算法上均采用的是transformer架构,模型结构改进程度偏弱,主要为数据与算力的扩展。(1)AIGC视角下,ChatGPT在AI中属于可交互的文本AIGC,其兴起源于深度学习技术的快速突破和日益增长的数字内容供给需求;(2)transformer视角下 ,transformer帮助AI文本生成的核心技术NLP走出了发展困境。随着基于transformer的模型越来越大,它们开始可以输出达到人类水平的结果甚至超人的结果。GPT凭借着高算力与大数据成为了目前规模竞争下的胜者。 云端:半导体+AI生态逐渐清晰 更大的算力意味着更多的计算机设备,搭建这些设备也需要更多的核心器件。企业对类ChatGPT技术的追求,在服务器产业链的发展上预计将起到积极的促进作用。(1)AI算力芯片:AI算力芯片是类ChatGPT模型的基石,支撑类ChatGPT模型需要大量的算力芯片,其中对GPU、FPGA、ASIC需求较大;(2)HBM/Chiplet:AI芯片性能及成本的平衡也带动周边生态,HBM/Chiplet等产业链受益。在HBM领域,AI对话程序在执行计算期间需要大容量、高速的存储支持,预计AI芯片发展也将会进一步扩大高性能存储芯片需求;在Chiplet领域,Chiplet是布局先进制程、加速算力升级的关键技术。 类ChatGPT对芯片的需求将量大且具有高持续性 按照我们的预设,当前的ChatGPT模型至少在服务器上花费了3.47亿美元,其中CPU、GPU、DRAM分别为0.29、2.66、0.23亿美元。未来随着ChatGPT的市占率及应用端的发展,我们预测它的日活量(DAU)与每人每天生成单词2023年后均会呈现阶梯式高速增长直至2030年后放缓,服务器成本也将随之继续扩张,预计2030年服务器成本高达975.1亿美元。 终端:“ChatGPT+”加速数字经济发展 应用端相关行业通过ChatGPT找到了新的发力点,推出ChatGPT相关产品,加速数字化转型。在人工智能行业,ChatGPT可以助力AI开发、优化模型优化及丰富应用场景等,其中与具体任务相结合的应用将会是中短期内可行性较高的热点。服务上,ChatGPT能够帮助APP/语音助手提供更好的聊天服务;产品上,ChatGPT能够增强智能产品的交互性。此外,ChatGPT还能够应用在搜索引擎、泛娱乐、自媒体等其他行业上。 投资建议:我们认为以GPT-4/ChatGPT为代表的预训练大模型或将催生未来对AI服务器的扩产需求,建议关注 服务器芯片:英伟达(天风海外组覆盖)、AMD、Intel、寒武纪、海光信息(天风计算机组覆盖)、龙芯中科等; AI服务器制造:工业富联; 图像数据资源及应用:大华股份、海康威视等; 先进制造及封装:台积电、中芯国际、长电科技、通富微电等; 企业级存储:澜起科技、江波龙(天风计算机组联合覆盖)、兆易创新等。 风险提示:ChatGPT发展不及预期;国际局势震荡加重贸易成本;市场竞争加剧;本文对芯片市场空间测算是基于一定前提假设,存在假设条件不成立、市场发展不及预期等因素导致市场空间测算结果偏差。 1.一图看懂产业链 图1:AIGC产业链 1.1.服务器成本规模测算 我们认为基于下述假设,GPT目前在服务器上花费的成本至少为3.47亿美元。首先,我们参考马里兰州AI方向的副教授Tom Goldstein及财经十一人公众号的估计,①假设1个服务器由2个CPU、8个GPU(A100,80G内存)、DRAM与其它组件组成,这个服务器可以使用ChatGPT AI模型每秒生成15-20个单词,我们取20个单词/秒,那么每台服务器每天可以生成172.8(=20×60×60×24/10000)万个单词。根据Similar Web数据,2023年1月,ChatGPT的网站平均每天有超过1300万用户使用,②假设日活量(DAU)为1000万,如果每个人对话过程中只使用500个单词,那么每天ChatGPT至少需要生产50亿单词(=1000×500万,这里需要注意的是,1000万人使用时间实际上并不是均匀分布的,因此现实中ChatGPT每天可生成单词预计比50亿单词高)。基于以上分析,ChatGPT至少需要2894个服务器,即5788个CPU、23152个GPU。参考行行查给出的服务器成本构成以及Thinkmate给出的A100GPU报价,③CPU单价取$5000,GPU单价取$11500(考虑公司战略合作及贸易成本,取价比Thinkmate报价略低),DRAM取$8000,加上其他组件,一个服务器总价为$120000。综合上述假设,服务器总成本为3.47亿美元,CPU、GPU、DRAM分别为0.29、2.66、0.23亿美元。 未来随着ChatGPT的市占率及应用端的发展,我们预测它的日活量(DAU)与每人每天生成单词2023年后均会呈现阶梯式高速增长直至2030年后放缓,服务器成本也将随之继续扩张。其中,DAU表现了ChatGPT普适性,当ChatGPT的普适性更高即ChatGPT的用途更加广泛(往往取决于算法)时,将会有更多的用户使用它;每人每天生成单词则能表现ChatGPT解决用户问题的能力(取决于数据训练),当ChatGPT能够更好地解决用户问题时,平均每个用户需要生成的单词会更多。因此,为了展现这两个指标对服务器成本的影响,我们对其进行敏感性分析发现,ChatGPT对两个指标的弹性指数均为1,也就是说当2030年ChatGPT实现9.36亿日活量(前文假设的93.6倍)、每人每天1500个生成单词(前文假设的3倍)时,服务器成本将变成前文的281倍(≈93.6×3)——975.1亿美元。 此外,若考虑到芯片的损耗及芯片升级,预计ChatGPT对芯片的需求将长时间维持在较高水平。 图2:ChatGPT服务器成本(百万美元)对DAU、每人每天生成单词的敏感性分析 2.ChatGPT:突破性的对话系统预训练生成模型 2.1.ChatGPT的基本介绍 ChatGPT可以解释为一种用于对话系统的预训练生成式模型。ChatGPT名称中包含两个元素: Chat和GPT。Chat是指“聊天”,代表了它在对话系统等领域的应用。GPT全称是Generative Pre-trained Transformer,其本质上是一种通过在大型文本语料库上训练而形成的具有自然语言生成能力的NLP模型。电子工程专辑公众号指出,ChatGPT和以往帮我们实现简单服务的客服机器人不一样,它可以和用户进行多轮对话,经过“预先训练+微调”后,OpenAI通过监督学习不断训练,得到合适的模型,再通过设计好的奖励机制由人类培训员不断筛选,最终得到质量最好的回复。 图3:ChatGPT的操作页面:当用户提出问题,ChatGPT能够迅速抓取信息互动 作为AI的ChatGPT,其核心仍为算法、数据与算力。联想创投公众号指出,ChatGPT正在经历巨大的变迁,这是重新定义生产力颠覆性变化的机会。超级算力和大模型代表的超级算法,正在成为国家和企业的竞争力。在数据智能时代,特别需要AI的算法、算力、高质量的数据支撑。其中,在算力上,ChatGPT首先需要云计算基础设施作为算力底座; 其次,云计算数据中心还需要包括服务器、芯片、光模块等硬件的支持,而AI芯片则是算力最重要的硬件基石之一。 表1:AI的三大基石:算法、数据和算力 图4:ChatGPT训练过程,背后的底层技术的特点是能够分析大量数据 2.2.发展历程:从GPT-1到ChatGPT ChatGPT是基于GPT系列演化而来的。ChatGPT由OpenAI公司开发,OpenAI是一家总部位于美国的人工智能研究机构,旨在不受产生财务回报需求的约束,以最有可能造福全人类的方式推进数字智能。OpenAI开发了GPT模型的四代产品——GPT-1、GPT-2、GPT-3和GPT-4,分别发布于2018年、2019年、2020年、2023年。 GPT系列从1到4,算法上均采用的是transformer架构(详见2.3.2),模型结构改进程度偏弱,主要为数据与算力的扩展。 维普研究院公众号指出,GPT-1主要有三点贡献:第一,它是最早一批提出在NLP任务上使用pre-train+fine-tuning范式的工作;第二,GPT的实验证明了模型的精度和泛化能力会随着解码器层数增加而不断提升,而且目前还有提升空间;第三,预训练模型具有zero-shot的能力,并且能随着预训练的进行不断增强。 GPT-2想通过zero-shot,在迁移到其他任务上的时候不需要额外的标注数据,也不需要额外的模型训练。GPT-2的核心思想是当模型的容量非常大且数据量足够丰富时,仅仅靠语言模型的学习便可以完成其他有监督学习的任务,不需要在下游任务微调。GPT-2在较多任务上对比无监督算法取得了一定的提升,证明了zero-shot的能力,但在很多任务上与有监督微调的方法相比还有一些差距。 GPT-3不再去追求极致的不需要任何样本就可以表现很好的模型,而是考虑像人类的学习方式那样,仅仅使用极少数样本就可以掌握某一个任务,因此就引出了GPT-3标题Language Models are Few-Shot Learners。可以从GPT-3的分析结果得出一个重要的结论:当我们想要线性的提升一个任务的效果时,往往需要指数级的提升模型的规模和所需的数据量。 图5:相同参数下few-shot性能更佳 ChatGPT可以看做是GPT-3.5版本之一,通过牺牲上下文学习的能力换取建模对话历史的能力。《How does GPT Obtain its Ability? Tracing Emergent Abilities of Language Models to their Sources》(Yao Fu,Hao Peng等)中指出,code-davinci-002和text-davinci-002是第一版的GPT3.5模型,一个用于代码,另一个用于文本。它们表现出了三种与初代GPT-3不同的重要能力:响应人类指令、泛化到没有见过的任务、利用思维链进行复杂推理。文章推测这些新的能力来源于指令微调和代码训练,具体来说:能够响应人类指令的能力是指令微调的直接产物;对没有见过的指令做出反馈的泛化能力是在指令数量超过一定程度之后自动出现的;使用思维链进行复杂推理的能力很可能是代码训练的副产物。指令微调不会为模型注入新的能力,其作用是解锁/激发这些能力,通过牺牲性能换取与人类的对齐。在code-davinci-002上进行指令微调后,模型可以生成更加符合人类期待的反馈——指令微调将GPT-3.5分化到不同的技能树,有些更擅长上下文学习,如text-davinci-003,有些更擅长对话,如ChatGPT。 图6:从GPT-3到当前阶段GPT-3.5的进化历程 GPT-4针对GPT-3.5在测试中出现的问题进行了改进。OpenAI发布GPT-4时声明,其将GPT-3.5作为GPT-4的第一次“测试运行”进行了训练,发现并修复了一些错误,此外还提高了GPT的理论基础。团队花了6个月的时间迭代GPT-4,使用OpenAI的对抗性测试程序和ChatGPT的经验教训,在事实性、可操纵性和拒绝超出合理范围(refusing to go outside ofguardrails)方面取得了有史以来最好的结果。在随意的谈话中,GPT-3.5和GPT-4之间的区别可能很微妙。当任务的复杂性达到足够的阈值时,差异就出现了——GPT-4比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令。 图7:在内部对抗性事实性评估中,GPT-4的得分比最新的GPT-3.5高40% 2.3.地位:基于NL