行业点评|计算机 ChatGPT使用成本下降或将是打开产业应用市场的拐点 行业评级超配 AIGC行业跟踪 核心结论 证券研究报告 2023年03月03日 前次评级超配 此次OpenAI使用成本的大幅下降,很有可能来自于模型架构的调整。3月2 评级变动维持 日,OpenAI在官方博客宣布,此次OpenAI开放的ChatGPTAPI模型是 Gpt-3.5-turbo。这与ChatGPT目前使用的是同一种模型。价格为0.002美元/1k tokens,GPT-3.5模型达芬奇版本为0.02美元/1ktokens,使用成本下降90%。回溯GPU的发展历程,1)人工智能算力核心来源于GPU,2010年英伟达发 布的Fermi架构,是第一个完整的GPU架构。其计算核心由16个SM(StreamMultiprocesser)组成,每个SM包含2个线程束(Warp),16组加载存储单元 (LD/ST)和4个特殊函数单元(SFU)组成。2)2016年的Pascal架构,英伟达开始往深度学习方向演进。在SM内部,除了以往支持单精度的FP32Cuda 近一年行业走势 计算机沪深300 -1% -6% -11% -16% -21% -26% -31% 2022-032022-072022-11 Core,还增加了支持双精度的DPUnit,而DPUnit实际上是FP64的CudaCore。 相对表现 1个月 3个月 12个月 计算机 5.70 19.11 0.11 沪深300 -0.586.38-9.53 3)从CudaCore到TensorCore,通过精简业务模块,满足低精度输出要求,进而节省成本。2017年以后,引入了张量核TensorCore模块,用于执行融合乘法加法。其中两个4*4FP16矩阵相乘,然后将结果添加到4*4FP16或FP32 矩阵中,最终输出新的4*4FP16或FP32矩阵。我们认为此次OpenAI成本的 大幅下降,很有可能来自于模型架构的调整。 ChatGPT成本仍有降低空间,我们认为ChatGPT使用成本的下降或将是打开产业应用市场的拐点。1)我们认为此次成本的下降可能来自于对算法算力以及GPU的优化。包括业务层的优化,降低延迟和重复调用;模型层优化,去掉作用不大的结构等等;量化优化,kernel层优化,编译器层优等等。2)主导的变 化:让以前高精度CUDACore为主要的运算降低到可以以TensorCore为主要的模型去跑,这样的话就可以大幅降低使用成本。3)往后看我们认为这种优化会持续不断进行,即使现在成本降低90%,但是随着OpenAI技术的迅速迭代,展望未来还有进一步下降的空间,目前这个阶段可以认为已经看到初步应用的拐点。 建议关注:OpenAI产业进展、研发进展提速,我们认为相关模型比国内领先,海外更快做好准备;成本优化成功,和搜索引擎在数量级上可以进行初步比较,我们认为海外产业链这个时点有充分逻辑,可以撬动下游需求和生态发展,所以 海外业务占比越高的企业,撬动力更高。1)出海产业链(海外业务占比高):推荐福昕软件、建议关注昆仑万维、万兴科技。ChatGPT降价对于行业未来发展有提振作用,对大规模商用有促进作用,对AI产业链拉动作用强。2)AI大模型:建议关注360、拓尔思、推荐科大讯飞;3)AI供应链:建议关注海天瑞声、中兴通讯、推荐中科曙光、海光信息;4)英伟达产业链:建议关注天孚通信、鸿博股份;5)百度产业链:建议关注宇信科技、汉得信息。 风险提示:国际关系发生变化;政策监管出现变化;技术更新不及预期。 分析师 邢开允S0800519070001 13072123839 xingkaiyun@research.xbmail.com.cn 赵宇阳S0800522090002 zhaoyuyang@research.xbmail.com.cn 相关研究 计算机:基建投资稳中向好,行业下游需求有望修复—智能网联车行业跟踪点评2023-02-15 计算机:AIGC系列-C3.AI:全球领先的AISaaS平台—C3.AI招股说明书梳理2023-02-14 计算机:A3打印机开辟国产化新赛道,汉光奔图或成双寡头—国产打印机行业专题报告2023-02-05 索引 内容目录 一、此次OpenAI使用成本的大幅下降,很有可能来自于模型架构的调整3 二、ChatGPT成本仍有降低空间,ChatGPT使用成本的下降或将是打开产业应用市场的拐点 .................................................................................................................................................5 三、投资建议6 四、风险提示6 图表目录 图1:GPU软件和硬件的对应关系3 图2:GPU软件和硬件的对应关系4 图3:SM内部架构4 图4:TensorCore运算模型5 一、此次OpenAI使用成本的大幅下降,很有可能来自于模型架构的调整 3月2日,OpenAI在官方博客宣布,此次OpenAI开放的ChatGPTAPI模型是Gpt-3.5-turbo。这与ChatGPT目前使用的是同一种模型。价格为0.002美元/1ktokens,GPT-3.5模型达芬奇版本为0.02美元/1ktokens,使用成本下降90%。 回溯GPU发展历程我们认为此次OpenAI使用成本的大幅下降,很有可能来自于模型架构的调整。 1、人工智能算力核心来源于GPU,2010年英伟达发布的Fermi架构,是第一个完整的GPU架构。其计算核心由16个SM(StreamMultiprocesser)组成,每个SM包含2个线程束(Warp),16组加载存储单元(LD/ST)和4个特殊函数单元(SFU)组成。最核心的是,每个线程束包含16个CudaCore组成,每一个CudaCore由1个浮点数单元FPU和1个逻辑运算单元ALU组成。 图1:GPU软件和硬件的对应关系 资料来源:AI人工智能、西部证券研发中心 CUDA编程中的最小单元称之为Thread,可以简单认为一个软件Thread会在一个硬件CUDACore中执行,而Thread中执行的内容或函数称之为Kernel。多个相同的Thread组成一个ThreadBlock,软件ThreadBlock会被调度到一个硬件SM上执行,同一个ThreadBlock内的多个Thread执行相同的kernel并共享SM内的硬件资源。而多个ThreadBlock又可以进一步组成一个Grid,一个软件Grid可以看成一次GPU的计算任务,被提交到一整个GPU硬件中执行。这几个概念非常重要,简单总结下: kernel:Thread执行的内容/代码/函数。 Thread:执行kernel的最小单元,被SM调度到CUDACore中执行(其实还有一个Warp 的概念,为了简单,这里先略过)。 ThreadBlock:多个Thread组合,GPU任务调度的最小单元(这个描述不太准确,应该 是Warp,为了简单暂时先不细究),被调度到SM中执行。一个SM可以同时执行多个 ThreadBlock,但是一个ThreadBlock只能被调度到一个SM上。Grid:多个ThreadBlock的组合,被调度到整个GPU中执行。图2:GPU软件和硬件的对应关系 资料来源:AI人工智能、西部证券研发中心 Thread、ThreadBlock和Grid由于所处层次不同,他们可以访问的存储资源也不同。如Thread只能访问自身的寄存器,ThreadBlock可以访问SM中的L1缓存,而Grid则可以访问L2缓存和更大的HBM显存。不同层次的存储其访问速度往往是数量级的差别,GPU也不例外,针对CUDA的优化很大一部分就是如何正确高效的使用GPU中的多级存储来提高GPU的方寸比,从而进一步提高GPU的计算效率。 图3:SM内部架构 资料来源:汽车人参考、西部证券研发中心 这个架构确立了英伟达GPU整体的发展方向,2012年的Kepler架构和2014年的Maxwell 架构,都在这个基础上增加CudaCore。 2、2016年的Pascal架构,英伟达开始往深度学习方向演进。在SM内部,除了以往支持单精度的FP32CudaCore,还增加了支持双精度的DPUnit,而DPUnit实际上是FP64的CudaCore。一个SM由64个FP32CudaCores和32个FP64CudaCores(DPUnit)组成,此外,FP32CudaCore也具备处理半精度FP16的能力,以满足当时行业开始对低精度计算的需求。 3、2017年以后,引入了张量核TensorCore模块,用于执行融合乘法加法。其中两个4*4FP16矩阵相乘,然后将结果添加到4*4FP16或FP32矩阵中,最终输出新的4*4FP16或FP32矩阵。 图4:TensorCore运算模型 资料来源:汽车人参考、西部证券研发中心 TensorCore所做的这种运算输入矩阵的精度为半精度,但乘积可以达到完全精度,在深度学习的训练和推理中十分常见,TensorCore的引入增加了浮点计算的吞吐量。TensorCore的流水线与标准算术逻辑单元ALU是一致的,更多面向的是矩阵运算,而对于单指令流多数据流标量(Scalar)运算结果不好。 二、ChatGPT成本仍有降低空间,ChatGPT使用成本的下降或将是打开产业应用市场的拐点 3月2日,OpenAI在官方博客宣布,开放了ChatGPT和Whisper的模型API,用户可将其集成在应用程序等产品中。此次OpenAI开放的ChatGPTAPI模型是Gpt-3.5-turbo。这与ChatGPT目前使用的是同一种模型。价格为0.002美元/1ktokens,GPT-3.5模型达芬奇版本为0.02美元/1ktokens。 我们认为此次成本的下降可能来自于对算法算力以及GPU的优化。此次OpenAI成本的大幅下降,很有可能来自于模型架构的调整,包括业务层的优化,降低延迟和重复调用;模型层优化,去掉作用不大的结构等等;量化优化,kernel层优化,编译器层优等等。主导的变化:让以前高精度CUDACore为主要的运算降低到可以以TensorCore为主要的模型去跑,这样的话就大幅降低使用成本。 往后看我们认为这种优化会持续不断进行,即使现在成本降低90%,但是随着OpenAI技术的迅速迭代,展望未来还有进一步下降的空间,目前这个阶段可以认为已经看到初步应用的拐点。 三、投资建议 OpenAI产业进展、研发进展提速,我们认为相关模型比国内领先,海外更快做好准备;成本优化成功,和搜索引擎在数量级上可以进行初步比较,我们认为海外产业链这个时点有充分逻辑,可以撬动下游需求和生态发展,所以海外业务占比越高的企业,撬动力更高。 出海产业链(海外业务占比高):推荐:福昕软件、建议关注:昆仑万维、万兴科技。 ChatGPT降价对于行业未来发展有提振作用,对大规模商用有促进作用,对AI产业链拉动作用强。 AI大模型:建议关注:360、拓尔思、推荐:科大讯飞。 AI供应链:建议关注:海天瑞声、中兴通讯、推荐:中科曙光、海光信息。英伟达产业链:建议关注:天孚通信、鸿博股份。 百度产业链:建议关注:宇信科技、汉得信息。 四、风险提示 1、国际关系发生变化 AIGC属于技术密集型行业,国内外交流和联系比较密切,如若国际关系发生变化,会影响相关原材料的采购和技术的更新迭代。 2、监管政策出现变化 AIGC出于发展早期,后续是否会出台AIGC作品相关知识版权或其他法律监管条款尚不明确。 3、技术更新不及预期 AIGC是强技术行业,应用和涉及领域广泛,对技术要求较高,如若技术更新不及预期,会影响行业整体发展