1、ChatGPT有望显著提升算力及计算资源需求 ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,基于强大的基座模型能力(InstructGPT)、大参数语言模型(GPT3.5)、高质量的真实数据(精标的多轮对话数据和比较排序数据),以及性能稳定的强化学习算法(PPO算法),ChatGPT能够较好的与人类进行交互,取得成功。 而ChatGPT将显著提升算力:ChatGPT包括研发(训练)和应用(推理),其都需要大量智能计算资源和数据存储及传输资源。ChatGPT需要TB级的运算训练库,甚至是P-Flops级的算力,未来随着GPT算法的进一步演进,以及应用场景的丰富,对于算力的需求将进一步提升。 2、带动数据中心液冷应用需求 未来异构计算或成为主流。基于CPU+GPU的异构计算平台可以优势互补,GPU重点处理数据密集型的并行计算程序。但同时功耗将明显提升,以NVIDIA的DGX A100 640GB为例,系统功耗达到最大6.5千瓦,带来数据中心机柜功率的大幅提升。 东数西算等政策严格限制PUE。“东数西算”推出针对上架率、能效指标作出规范要求,同时如北京、上海等核心区域出台能耗管控指标,对PUE指标进行严格管控。而数据中心制冷方案的选择将影响整体能耗,传统风冷最高可冷却30 kW/r的机柜,对于30 kW/r以上功率密度的机柜无法做到产热与移热速率匹配,需要选用液冷方案。 3、相关标的有望受益 推荐标的: ①润泽科技(与军工机械组联合覆盖):手握核心机柜资产,数字经济下IDC龙头扬帆起航。公司全国5个区域布局6个超大规模数据中心,总体规划56栋数据中心,29万个机柜,成长动力强劲。并且公司已有针对于浸没式液冷和冷板式液冷的实验机房,开始准备批量交付液冷机房,行业内布局领先。 ②奥飞数据(与计算机组联合覆盖):持续深耕数据服务与云计算。2019年-2021年接连获取阿里、快手和百度等重磅客户,同时是腾讯云区域服务授权中心。大客户保驾护航,掌握核心资源持续拓宽布局,新能源打开成长空间。 ③科华数据(与电新组联合覆盖):IDC行业中坚力量,公司通过3条路径远航1)加强自我开发;2)轻资产合作运营;3)深度绑定腾讯等大客户。 同时新能源业务快速发展,产品主要包括光伏逆变器、光伏配件、储能变流器、储能电池和解决方案。 建议关注: ①英维克(与军工机械组联合覆盖):温控行业领先企业,深度研发数据中心液冷方案,液冷方面具有成熟产品布局。 ②数据港、光环新网等IDC厂商 风险提示:数据中心建设进度可能不及预期、数据中心上架率可能不及预期、限电及电价波动带来的风险、ChatGPT应用推动不及预期、液冷技术发展不及预期等 重点标的推荐 1.什么是ChatGPT? ChatGPT近期获得较高的关注度,人们可以与其聊天对话,进行文本互动,那么什么是ChatGPT呢? ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列任务。 图1:ChatGPT页面 其中GPT指代的是一种模型,其是“Generative Pre-trained Transformer”生成型预训练变换模型的缩写,目的是为了使用深度学习生成人类可以理解的自然语言。目前我们讨论的GPT一般指的是GPT-3,显而易见,在之前还有GPT-2和GPT。 GPT-3是由人工智能公司OpenAl训练与开发,该模型设计基于谷歌开发的变换语言模型。 GPT-3的神经网络包含1750亿个参数,为有史以来参数最多的神经网络模型。OpenAI于2020年5月发表GPT-3的论文,微软在2020年9月22日宣布取得了GPT-3的独家授权。 回顾GPT的发展,GPT家族与BERT模型都是知名的NLP模型,都基于Transformer技术。 GPT,是一种生成式的预训练模型,由OpenAI团队最早发布于2018年,GPT-1只有12个Transformer层,而到了GPT-3,则增加到96层。其中,GPT-1使用无监督预训练与有监督微调相结合的方式,GPT-2与GPT-3则都是纯无监督预训练的方式,GPT-3相比GPT-2的进化主要是数据量、参数量的数量级提升。 图2:历代GPT模型情况 而InstructGPT/GPT3.5(ChatGPT的前身)与GPT-3的主要区别在于,新加入了RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习),其增强了人类对模型输出结果的调节,并且对结果进行了更具理解性的排序。应用Tamer框架,ChatGPT可以比GPT-3更好的理解和完成人类语言或指令,模仿人类,提供连贯的有逻辑的文本信息的能力。 图3:GPT技术演进 ChatGPT算法成功的原因:强大的基座模型能力(InstructGPT)、大参数语言模型(GPT3.5)、高质量的真实数据(精标的多轮对话数据和比较排序数据),以及性能稳定的强化学习算法(PPO算法)。 图4:InstructGPT性能比GPT3出色 2.ChatGPT的运行机制 OpenAI利用RLHF来训练模型(该方法在训练中使用人类反馈,以最小化无益、失真或偏见的输出),使用与InstructGPT相同的方法,但数据收集设置略有不同。通过使用supervised fine-tuning来训练初始模型,将这个新的对话数据集与InstructGPT数据集混合,并将其转换为对话格式。 图5:RLHF的训练过程图 方法总体上包括三个不同步骤: 1、有监督的调优:预训练的语言模型在少量已标注的数据上进行调优,以学习从给定的prompt列表生成输出的有监督的策略(即SFT模型); 2、模拟人类偏好:标注者们对相对大量的SFT模型输出进行投票,这就创建了一个由比较数据组成的新数据集。在此数据集上训练新模型,被称为训练回报模型(Reward Model,RM); 3、近端策略优化(PPO):RM模型用于进一步调优和改进SFT模型,PPO输出结果是的策略模式。 第一步是收集数据,以训练有监督的策略模型。为了创建像ChatGPT这样的通用聊天机器人,开发人员是在「代码模型」而不是纯文本模型之上进行调优。第二步是训练回报模型,这一步的目标是直接从数据中学习目标函数。第三步是使用PPO模型微调SFT模型,这一步里强化学习被应用于通过优化RM模型来调优SFT模型。 图6:ChatGPT训练方法 3.ChatGPT会提升多少算力? 中国算力发展持续快速增长。根据城市大脑研究院,IDC预测,中国智能算力规模将持续高速增长,预计到2026年中国智能算力规模将达到1271.4EFLOPS,22-26年复合增长率达52.3%,同期通用算力规模的复合增长率为18.5%。 图7:中国算力发展情况 ChatGPT将需要大量算力和计算资源。根据通信世界数据,ChatGPT的总算力消耗约为3640PF-days (即假如每秒计算一千万亿次,需要计算3640天),需要7-8个投资规模30亿、算力500P的数据中心才能支撑运行。ChatGPT需要TB级的运算训练库,甚至是P-Flops级的算力。ChatGPT包括研发(训练)和应用(推理),其都需要大量智能计算资源和数据存储及传输资源。 现阶段的ChatGPT是在拥有3000亿个单词的语料基础上预训练拥有1750亿参数的模型,GPT-4将是一个拥有超过100万亿级别参数的大模型。根据学术界的既有研究可知,深度神经网络的学习能力和模型的参数规模呈正相关。人类大脑皮层有140多亿个神经细胞,每个神经细胞有3万余个突触,因此,大脑皮层的突触总数超过100万亿个,神经细胞通过突触相互建立联系。一旦GPT-4实现100万亿参数规模,就可以堪比人的大脑,意味着它将达到与人类大脑神经触点规模的同等水平。 图8:GPT3到GPT4数据量大幅增长 下游应用场景有望持续拓展。目前ChatGPT的主要应用场景包括但不限于无代码编程、小说生成、对话类搜索引擎、语音陪伴、语音工作助手、对话虚拟人、人工智能客服、机器翻译、芯片设计等。随着算法技术和算力技术的不断进步,ChatGPT也有望进一步走向更先进功能更强的版本,在越来越多的领域进行应用,为人类生成更多更美好的对话和内容。 图9:大模型呈爆发态势(更多的参数/更大的算力芯片需求) 4.对数据中心的影响 未来异构计算或成为主流。 在CPU+GPU的异构计算架构中,GPU与CPU通过PCle总线连接协同工作,CPU所在位置称为为主机端(host),而GPU所在位置称为设备端(device)。基于CPU+GPU的异构计算平台可以优势互补,CPU负责处理逻辑复杂的串行程序,而GPU重点处理数据密集型的并行计算程序,从而发挥最大功效。 图10:CPU+GPU异构计算 A100服务器系统功耗明显提升。以NVIDIA的DGX A100 640GB为例,其配置了8片A100 GPU,系统功耗达到最大6.5千瓦,未来随着A100服务器的应用增多,我们认为或将显著提升数据中心机柜的功耗。 表1:NVIDIA DGX A100 640GB系统规格 机柜功率或将迎来大幅提升。通常19英寸机柜和42U机柜是标准机柜,参考高度1U=4.445厘米,宽度19英寸约为48.26厘米,英伟达DGX A100 640GB宽度上基本约为19英寸,高度上大约为5.94U,以标准机柜42U为参考,最大限度可以放下约7台DGX A100 640GB服务器(实际需要预留散热、挪动、走线等的空间),最大功率可达到约45.5KW。 图11:机架式服务器与机柜宽度规格 ChatGPT训练将带来较大的碳排放。ChatGPT是基于GPT-3的一个升级版本,在GPT-3的模型架构基础上进行了优化并在训练时期增加了强化学习。训练一个GPT-3约消耗1287 MWh(兆瓦时)的电,相当于排放了552吨碳,由于强化学习需要额外消耗的电力,ChatGPT在模型训练阶段所产生的碳排放将大于552吨。 表2:大型语言模型的碳排放 东数西算下PUE指标严格。随着东数西算的实施,其推出针对上架率、能效指标作出规范要求,同时如北京、上海等核心区域出台能耗管控指标,有望助力行业有序发展,也突显出一线地区机柜资源的稀缺性。21年11月,《贯彻落实碳达峰碳中和目标要求推动数据中心和5G等新型基础设施绿色高质量发展实施方案》提出,全国新建大型、超大型数据中心平均用电效率降至1.3以下,全国中心节点进一步降至1.25以下,绿色低碳水平达到4A以上。 图12:PUE值要求变化 数据中心基础设施根据冷却方式不同可分为风冷数据中心基础设施和液冷数据中心基础设施。风冷方式起步较早,技术相对成熟;液冷方式是近几年因数据中心散热需求提升而出现的一种新方式,技术尚处于发展阶段。液冷方式分为冷板液冷和浸没式液冷,浸没式液冷方式又可分为相变浸没式液冷和非相变浸没式液冷。 图13:数据中心相关设备设施 制冷散热主要方式:目前发展的散热冷却技术主要有风冷和液冷两大类,其中风冷包括自然风冷和强制风冷,适用的机柜功率密度较低;液冷分为单相液冷和相变液冷。散热冷却系统所采用的冷却介质、冷却方式不同,移热速率差距大。传统风冷最高可冷却30 kW/r的机柜,对于30 kW/r以上功率密度的机柜无法做到产热与移热速率匹配,会使机柜温度不断升高导致算力下降甚至损害设备。 可以看到,采用A100后服务器功率大幅提升,参考上文若采用英伟达DGX A100 640GB服务器,单机柜的功率或将超过30kW,此时更适宜应用液冷的冷却方案。 图14:数据中心冷却类型图 液冷分为间接液冷、直接单相液冷和直接两相液冷,主要根据液体与IT设备接触状态来区分。 表3:三种液冷模式与方式 目前而言,普遍应用的是冷