ChatGPT大模型计算量高速扩张,算力需求陡增。1)以ChatGPT为代表的大模型参数量、数据量高度扩张,GPT-3模型参数量高达1750亿,大模型训练需要强大算力支撑。2)当前Google每日搜索量已达到35亿,我们认为Chatgpt日活提升空间广阔,算力需求有望持续释放。3)未来多模态趋势下,更广的数据形态、更多的应用场景、更深的用户体验,亦将大幅提升支撑人工智能的算力需求,算力或迎来高速扩张时代。 人工智能芯片铸就算力底座,龙头破局加速追赶。华为昇腾、海光信息、寒武纪、百度等龙头在AI芯片市场加速布局,产品算力不断提升,部分性能靠近国际先进水平: 华为昇腾910整数精度的算力达到640 TOPS,半精度的算力达到320 TFLOPS,可对标国际行业领先产品,其Atlas 300T训练卡主要应用场景包括运营商、互联网、金融等需要AI训练以及高性能计算的领域; 海光“深算一号”DCU内置60-64个计算单元,最多4096个运算核心,具有较强的并行计算能力和较高的能效比,现已实现规模销售; 寒武纪思元370芯片采用 7nm 制程工艺和chiplet技术,集成390亿个晶体管,最大算力高达256TOPS(INT8); 百度昆仑芯2代AI芯片通用计算核心算力提升2-3倍,半精度达到128 TFLOPS,可支持训练和推理; 景嘉微GPU可广泛应用于PC、服务器、图形工作站等设备,满足地理信息系统、图像匹配、信号处理、机载车载舰载显控等显示计算需求。 软硬生态构筑壁垒,关注海光、昇腾两大算力领军生态。考虑到除了GPU本身的技术壁垒外,软件生态也成为强化GPU厂商竞争力的重要屏障,建议关注产品性能突出、生态完善、下游应用丰富的海光和鲲鹏及其合作伙伴: 海光生态:海光DCU协处理器能够较好地适配NVIDIA的CUDA生态,减轻开发和迁移难度,也降低了推广压力;构建较为完善的AI工具链生态,可以最大限度利用已有的成熟AI算法和框架;CPU与GPGPU也获得产业链各环主流厂商支持,建议关注的海光信息、中科曙光等。 昇腾生态:昇腾计算产业生态基于昇腾系列处理器和基础软件,构建全栈AI计算基础设施、行业应用及服务。在软硬件体系方面,Atlas硬件、MindSpore框架以及AI开发平台构建起完备的合作体系;在整机方面,神州数码与拓维信息作为华为昇腾算力9家整机合作伙伴,在昇腾算力领域率先落子;在行业应用方面,22年北明软件加入昇腾万里伙伴计划,明确在金融、互联网、电力等领域的全方位合作意向,昇腾计算产业生态日渐完善。建议关注神州数码、拓维信息、常山北明等。 风险提示:AI技术迭代不及预期风险、经济下行超预期风险、行业竞争加剧风险。 1.ChatGPT大模型计算量高速扩张,算力需求陡增 ChatGPT以大模型为基础,在翻译、问答、内容生成等领域表现不俗。1)ChatGPT是生成式AI的一种形式,Gartner将其作为《2022年度重要战略技术趋势》的第一位。2)根据腾讯研究院研究,当前的人工智能大多是针对特定的场景应用进行训练,生成的模型难以迁移到其他应用,属于“小模型”的范畴。整个过程不仅需要大量的手工调参,还需要给机器喂养海量的标注数据,这拉低了人工智能的研发效率,且成本较高。而ChatGPT背后的支撑是人工智能大模型。大模型通常是在无标注的大数据集上,采用自监督学习的方法进行训练。之后,在其他场景的应用中,开发者只需要对模型进行微调,或采用少量数据进行二次训练,就可以满足新应用场景的需要。这意味着,对大模型的改进可以让所有的下游小模型受益,大幅提升人工智能的适用场景和研发效率。3)因此大模型成为业界重点投入的方向,OpenAI、谷歌、脸书、微软,国内的百度、阿里、腾讯、华为和智源研究院等纷纷推出超大模型。特别是OpenAIGPT3大模型在翻译、问答、内容生成等领域的不俗表现,让业界看到了达成通用人工智能的希望。当前ChatGPT的版本为GPT3.5,是在GPT3之上的调优,能力进一步增强。 图表1:Gartner2022年度重要战略技术趋势 以大模型为基础,参数量、数据量高度扩张,算力需求陡增。在大模型的框架下,每一代GPT模型的参数量均高速扩张;同时,预训练的数据量需求亦快速提升。我们认为,ChatGPT的快速渗透、落地应用,也将大幅提振算力需求。 图表2:GPT历代模型参数量及表现 Chatgpt月活过亿,算力成为衡量投入的关键指标。根据Similarweb的数据,2023年1月,Chatgpt累计用户超1亿,创下了互联网最快破亿应用的记录,超过了之前TikTok9个月破亿的速度。 1)访问阶段:初始投入近十亿美元,单日电费数万美元。 英伟达A100:根据OneFlow报道,目前,NVIDIA A100是AWS最具成本效益的GPU选择。 英伟达DGXA100服务器:单机搭载8片A100 GPU,AI算力性能约为5PetaFLOP/s,单机最大功率约为6.5kw,售价约为19.9万美元/台。 每日咨询量:根据Similarweb数据,截至2023年1月底,chat.openai.com网站(即ChatGPT官网)在2023/1/27-2023/2/3这一周吸引的每日访客数量高达2500万。 假设以目前的稳定状态,每日每用户提问约10个问题,则每日约有2.5亿次咨询量。 A100运行小时:假设每个问题平均30字,单个词在A100GPU上约消耗350ms,则一天共需消耗729,167个A100 GPU运行小时。 A100需求量:对应每天需要729,167/24=30,382片英伟达A100GPU同时计算,才可满足当前ChatGPT的访问量。 初始算力投入:以前述英伟达DGXA100为基础,需要30,382/8=3,798台服务器,对应3,798/7=542个机柜。则,为满足ChatGPT当前千万级用户的咨询量,初始算力投入成本约为542*140=7.59亿美元。 每月电费:用电量而言,542*45.5kw*24h=591,864kwh/日。参考Hashrate Index统计,我们假设美国平均工业电价约为0.08美元/kwh。则,每日电费约为2,369,640*0.08=4.7万美元/日。 另外,考虑Google每日搜索量已达到35亿,我们认为Chatgpt日活提升空间广阔,算力需求有望持续释放。 2)训练阶段:公有云下,单次训练约为百万至千万美元 每个token的训练成本通常约为6N(而推理成本约为2N),其中N是LLM的参数数量。 假设在训练过程中,模型的FLOPS利用率为46.2%,与在TPU v4芯片上进行训练的PaLM模型(拥有5400亿参数)一致。 根据OneFlow估算,GPT-3训练一次的成本约为139.8万美元;对于一些更大的LLM模型(如拥有2800亿参数的Gopher和拥有5400亿参数的PaLM),采用同样的计算公式,可得出,训练成本介于200万美元至1200万美元之间。 图表3:GPT-3训练成本估算 图表4:预估LLM在GCPTPUv4芯片上的训练成本 目前文字交互仅为Chatgpt以及AIGC应用场景的冰山一角,语音、图片、视频等多形式的输入输出,或将为内容创作领域带来革命性变化。而更广的数据形态、更多的应用场景、更深的用户体验,亦将大幅提升支撑人工智能的算力需求,算力或迎来高速扩张时代,服务器、芯片、IDC、光通信等厂商有望核心受益。 图表5:OpenAI大模型各类场景数据量测算 2.人工智能芯片铸就算力底座,龙头破局加速追赶 AI芯片优化机器学习和深度学习运算,较传统CPU存在技术变化。在CPU的基础上,AI芯片优化了在机器学习和深度学习中常用的运算,在并行计算、低精度计算、内存优化三个方面存在技术变化,与CPU发挥不同的功能,共同满足新时代计算需求。 图表6:AI芯片较传统CPU优化机器学习和深度学习运算 根据技术架构分类,AI芯片包括图形处理单元(GPU),现场可编程门阵列(FPGA),以及特定应用集成电路(ASICs)。1)GPU最初是为处理应用并行计算的图像而设计的。 2012年起,GPU开始越来越多地被用于训练AI系统;到2017年,GPU已成为主导的AI芯片。根据海光信息招股说明书,目前GPGPU依旧是主流架构选择,占比达到90%。 2)然而,GPU仍然采用了通用计算的设计,FPGA和ASIC与之相对,在训练和推理方面变得更加突出。ASIC包括为特定算法定制的硬蚀刻的线路,由于ASIC对特定的算法做了优化,其通常比FPGA有着更高的效能和速度;FPGA的逻辑块使得其可以在制造后由程序员重新配置、适应特定的算法,比ASIC有着更高的通用性可以被二次编程应用与改造。 图表7:GPU、FPGA、ASIC特征比较 根据承担的任务分类,AI芯片包括训练芯片和推理芯片。训练芯片通过大量标记或未标记的大数据来学习训练、搭建神经网络模型需要更强的算力、也往往带来更高的功耗; 后者则以训练好的模型为蓝本推理出结论。根据SCET的测算,训练芯片和推理芯片在效能和速度上比同等耗能的CPU有着10~1000倍的提升。 图表8:AI芯片基本构造图 图表9:各类AI芯片的效能和速度与CPU的比较 华为昇腾、海光信息、寒武纪、百度等龙头在AI芯片市场加速布局,产品算力不断提升,部分性能靠近国际先进水平: 华为昇腾(训练+推理):1)推理卡:昇腾310芯片为华为首款全栈全场景AI芯片,功耗仅为8W,在典型配置下可以输出整数精度(INT8)达到16TOPS,半精度(FP16)算力达到8TOPS,其Atlas300推理卡被广泛应用于智慧城市、智慧交通、智慧金融等场景。2)训练卡:昇腾910功耗310W,整数精度(INT8)的算力达到640 TOPS,半精度(FP16)的算力达到320 TFLOPS,可对标国际行业领先产品,其Atlas300T训练卡主要应用场景包括运营商、互联网、金融等需要AI训练以及高性能计算的领域。 图表10:昇腾310和昇腾910技术参数对比 图表11:昇腾310 海光信息(训练):公司主要产品包括通用处理器(CPU)和海光协处理器(DCU)。 海光DCU对应海光8000系列,为海光自行研发设计的AI训练芯片。公司于2018年10月启动了“深算一号”的产品设计,现已实现规模销售。该芯片内置60-64个计算单元,最多4096个运算核心,具有较强的并行计算能力和较高的能效比,适用于向量计算和矩阵计算等计算密集型应用。海光DCU兼容“类CUDA”(ROCm)的环境,软硬件生态丰富,可广泛应用于大数据处理、人工智能、商业计算等计算密集类应用领域。2020年1月,公司启动了第二代DCU“深算二号”的产品研发工作。 图表12:海光8100技术参数 图表13:海光DCU产品形态 寒武纪(训练+推理):1)训推一体:思元370芯片是寒武纪公司推出的一款训推一体的AI芯片,采用 7nm 制程工艺和chiplet技术,集成390亿个晶体管,最大算力高达256TOPS(INT8),是上一代产品思元270算力的2倍,内存带宽的3倍。2)推理卡:寒武纪的思元270是一款推理芯片,可以处理非稀疏的AI模型,峰值性能达到128TOPS(INT8)。思元270还支持包括INT4和INT16的多种精度运算,以及浮点和混合精度运算。它适用于多种人工智能应用,包括视觉、语音、自然语言处理和机器学习。此外,思元290芯片是寒武纪的首款AI训练芯片,集成460亿个晶体管,HBM2内存则提供了AI训练中所需的高内存带宽,vMLU技术则帮助客户实现了云端虚拟化及资源隔离。 图表14:思元370 图表15:MLU370-X4技术参数 百度昆仑芯(训练+推理):1)推理卡,昆仑芯一代和二代AI芯片分别名为K系列和R系列。其中,昆仑芯1代AI芯片为云端推理芯片,支持通用AI算法。该芯片算力强大,整数精度(INT8)达到256 TOP