ChatGPT开启AI新纪元,AIGC投资框架梳理 核心观点: ChatGPT指明了NLP生成领域的技术方向,从技术本源上加速AIGC发展。我们认为,ChatGPT对AIGC发展的意义在于:一方面,GPT作为NLP生成领域模型的突破,将迅速解决AI文本生成、AI代码生成 等领域的痛点;另一方面,AI文本生成、AI代码生成作为AI音视频、游戏等其他领域的技术基础,其突破发展也将加速AIGC在音视频、游戏等场景中的渗透(比如生成AI绘画提示词,或生成调用计算引擎等)。全球巨头争相追赶,与ChatGPT水平尚存一定差距。国外公司中,谷歌发布的聊天机器人Bard具有与ChatGPT接近的技术水平,大约相差半年左右。国内公司中,百度、华为、字节跳动、阿里、腾讯等巨头均在大模型方向布局,整体发展水平与ChatGPT相差大概一到两年左右,约接近GPT-3的水平。 AIGC多场景应用处于爆发前夜,千亿市场打开。随着大模型算法突破以及算力成本下降,AIGC发展痛点逐步解除,亟待爆发;同时又有ChatGPT助力,文本、代码、图像生成有望率先成熟,视频、游戏将紧随其后。我们预测,到2025年AIGC在网络文学领域、文本分析领域、 绘画及图片领域、数字音乐领域技术将相对成熟,因此渗透率分别为70%/60%/60%/50%;网络视频领域、游戏领域由于技术原因渗透率相对较低,分别约为30%/25%。基于上述假设,我们分别对AIGC细分领域做市场规模预测,预计2025年中国AIGC市场规模有望达到1600亿。 AIGC产业链:基础层最先受益,中间层巨头占优。AIGC产业链可大致分为基础层、中间层和应用层三层架构。鉴于大模型训练需要巨大的 算力规模,基础层中的芯片、服务器等硬件提供商将最先受益。而对于中间层来说,技术积累以及资金实力都是关键竞争力,因此我们认为科技巨头更具有竞争优势。应用层中,可类比移动互联网时代,会爆发出很多杀手级应用,用户体验和模式创新都将成为“杀手钳”。 GPT-3训练所需总成本:模型的算力需求几乎与参数量呈同比增长。单一V100GPU芯片进行一次GPT-313B模型的训练,大约需要2144天;进行一次GPT-3175B模型的训练,大约需要29120天。我们测算 GPT-313B训练总成本约为:$3.06/H*24H/D*365D/Y*26Y=$0.7Million;同理,GPT-3175B训练总成本约为$9.5Million。在不计RAM、CPU、SSD驱动器、电源等其他情况下,GPT-3运行所需芯片成本至少在20万美元以上。 投资建议:ChatGPT开启AI新纪元,AIGC千亿市场处于爆发前夜。产业链基础层中,我们重点推荐全球AI服务器龙头浪潮信息(000977.SZ), 关注中科曙光(603019.SH)、中国长城(000066.SZ);中间层中,推荐人工智能技术积累深厚的拓尔思(300229.SZ)、科大讯飞(002230.SZ);应用层中,推荐彩讯股份(300634.SZ)、嘉和美康(688246.SH)、金山办公 (688111.SH)、同花顺(300033.SZ),关注万兴科技(300624.SZ)。 风险提示:行业竞争加剧的风险;产业发展进度不达预期的风险;技术风险;政策风险。 计算机行业 推荐维持评级 分析师吴砚靖 :(8610)66568589 :wuyanjing@chinastock.com.cn 执业证书编码:S0130519070001 邹文倩 :(8610)86359293 :zouwenqian@chinastock.com.cn 执业证书编码:S0130519060003 行业数据2023-2-17 资料来源:Wind,中国银河证券研究院整理 行业深度报告●计算机 2023年2月17日 www.chinastock.com.cn证券研究报告请务必阅读正文最后的中国银河证券股份有限公司免责声明 目录 一、ChatGPT开启AI新纪元,指明NLP生成领域的技术方向3 (一)ChatGPT通过引入RLHF技术解决生成模型的核心问题,大大提高类人成熟度3 (二)ChatGPT商业化规划及仍需讨论的问题4 (三)全球巨头争相追赶,与ChatGPT水平尚存一定差距6 二、AIGC多场景应用处于爆发前夜,千亿市场打开6 (一)AIGC发展痛点逐步解除,亟待爆发6 (二)ChatGPT助力,文本、代码、图像生成有望率先成熟,视频、游戏紧随其后8 (三)AIGC海外公司布局梳理12 (四)AIGC细分市场规模预测:2025年有望百倍增长14 三、AIGC产业链:基础层最先受益,中间层巨头占优16 (一)AIGC产业链结构及巨头布局16 (二)GPT模型所需算力测算18 四、A股相关公司介绍20 �、投资建议与风险提示23 一、ChatGPT开启AI新纪元,指明NLP生成领域的技术方向 ChatGPT指明了NLP生成领域的技术方向。预训练语言模型对于NLP理解领域以及生成领域的问题都是相当有效的,在过去几年里,发展出的主要模型有Bert和GPT。从文本对话的过程来看,理解到生成之间的连接是一个关键问题。然而,Bert在NLP理解领域获得了巨大的成功,但是在NLP生成领域却表现不佳,这是由于Bert训练时所采用的语言模型所决定的。Bert采用的是DAE语言模型,只学习到了词的上下文表征的能力,即理解语言的能力,但没有学习到如何组织语言的能力。而chatGPT成功解决了这个问题,可以说ChatGPT 指明了NLP生成领域的技术方向。 ChatGPT从技术本源上加速AIGC发展。AIGC的底层技术主要有NLP、GAN、扩散模型等,其中的代表就是语言生成中的chatGPT和图像生成中的扩散模型(DiffusionModel)。2022年8月StabilityAI宣布开源StableDiffusion模型,AI图像生成成本迅速下降,并且能获得惊人的高质量绘画作品,达到学习几年、十几年的画师同等水平。而2022年11月OpenAI发布的chatGPT虽然是自然语言生成领域的产品,但是可以生成AI绘画提示词,或生成调用计算引擎,从而进一步加速AI绘画、AI游戏、AI音视频领域的应用。 我们认为,ChatGPT对AIGC发展的意义在于:一方面,GPT作为NLP生成领域模型的突破,将迅速解决AI文本生成、AI代码生成等领域的痛点;另一方面,AI文本生成、AI代码生成作为AI音视频、游戏等其他领域的技术基础,其突破发展也将加速AIGC在音视频、游戏等场景中的渗透(比如生成AI绘画提示词,或生成调用计算引擎)。 (一)ChatGPT通过引入RLHF技术解决生成模型的核心问题,大大提高类人成熟度 ChatGPT是在GPT3.5大语言模型(LLM,即LargeLanguageModel)的基础上,加入“基于人类反馈的强化学习(RLHF,ReinforcementLearningfromHumanFeedback)”来不断微调 (Fine-tune)预训练语言模型,使得LLM模型学会理解不同类型的命令指令,并通过多重标准合理判断基于给定的prompt输入指令,输出的是否为优质信息(这些标准包括:富含信息、内容丰富、对用户有帮助、无害、不包含歧视信息等)。因此,ChatGPT使得人机对话更加人性化,更富有逻辑性,大大提高了AI的类人成熟度。 ChatGPT的技术发展路径:从GPT-1到InstructGPT,数据量与参数量不断增加,模型精度和语言能力提升。1)2018年,在自然语言处理领域(NLP)刚兴起时,OpenAI就推出了 初代GPT,它的运行逻辑是:先通过无标签数据学习生成语言模型,并能够运用于一些与有监督任务无关的NLP任务中。此后再根据特定的下游任务进行有监督的微调,提高其泛化能力。 2)2019年推出的GPT-2扩展了网络参数和数据集,进行多任务学习,可以在数据量足够丰富 且模型容量足够大时,通过训练语言模型就能够完成有监督学习的任务。3)对比GPT-2,2020 年推出的GPT-3最显著的特征是庞大的数据量和参数投入,整体训练过程耗资1200万美元,投入数据量达上万亿,模型参数量达到1750亿。GPT-3延续了前两代GPT的技术架构,但改变了“大规模数据集预训练+下游数据标注微调”的方式,采用情境学习(in-contextlearning)来提高模型对话输出的性能。GPT-3的规模和语言能力几乎是最强大的。它能在不做微调的情况 下,在一些传统的NLP任务中表现得更好,包括实现闭卷问答、模式解析、纯语言建模、机器翻译等;在新的领域,GPT-3将NLP的应用扩展到缺乏足够训练数据的领域,例如在开发程序代码、文章生成和信息检索领域取得了实质性的进展。然而,GPT-3在推理和理解能力上还有较长的路要走,在自然语言推理(NLI)任务中表现不佳。 ChatGPT在InstructGPT模型上做改进,实现更好地遵循用户意图、更少的虚假信息。OpenAI在2022年3月发布了InstructGPT。该语言模型通过“基于人类反馈的强化学习(RLHF)和监督学习”来提高输出质量。虽然InstructGPT的参数量仅为13亿左右,相比于GPT-3缩小了100倍以上;但在遵循指令方面,能够更好地遵循用户意图,将有害的、不真实或者有偏差的信息输出最小化。在优化的模型上,ChatGPT基于InstructGPT进一步改进,在模型结构和 训练流程上遵循上述方式,但收集和标注数据的方式上发生了变化,通过采取监督学习的方式让模型学习人类排序的方式。 表1:GPT四代的对比 模型 发布时间 参数量 预训练数据量 预估成本 消耗资源 GPT-1 2018年6月 1.17亿 约5GB 在8个GPU上训练一个月 GPT-2 2019年2月 15亿 40GB 在256个GoogleCloudTPUv3上训练一周 GPT-3 2020年5月 1750亿 45TB 训练一次460万美元,总成本1200万美元 在355个GPU上训练一年 ChatGPT 2022年12月 13-1750亿 数十GB 训练一次的成本高达1千万美元 根据参数量而定 资料来源:人民数字,品玩,中国银河证券研究院 (二)ChatGPT商业化规划及仍需讨论的问题 ChatGPT成为史上最快达到1亿月活跃用户的应用。ChatGPT在1月达到1亿月活跃用户,平均每天有1300多万访客。目前OpenAI已推出每月20美元(约合135人民币)的ChatGPT用户个人订阅计划,即使在软件的使用高峰时段,订阅用户也可以优先使用AI聊天机器人。 表2:各大软件月活数突破一亿所用时间 软件名 ChatGPT TikTok Instagram Facebook Twitter 所用时间 两个月 九个月 两年半 四年半 五年 资料来源:新浪,中国银河证券研究院 在Gartner发布的2022年新兴技术成熟度曲线中,生成性AI处于技术萌芽期并加速发展中。Gartner将生成性AI列为2022年�大影响力技术之一,预测到2025年生成性AI所创造的数据可占到所有已生产数据的10%。 图1:Gartner发布的2022年新兴技术成熟度曲线 资料来源:Gartner,中国银河证券研究院 ChatGPT的能力目前几乎可以涵盖各个自然语言交互领域,例如聊天机器人、对话系统、智能客服、信息检索、主题建模、文本生成和总结、NLP作为服务的翻译、转录、总结等等,未来应用领域将面向蓝海。例如,在聊天机器人领域,目前ChatGPT已经能基本满足用户的提供个性化需求和信息提供服务;在需要智能客服的电商、金融、医疗、教育、政务等垂直领域等,ChatGPT能够结合行业特点和需求,构建自动应答系统,为客户提供快速、准确的问题解答。除此外,在传媒、娱乐、设计和影视领域,ChatGPT能够协助完成一些较低层次的任务, 包括文稿生成、采访助手、摘