您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[东方证券]:ChatGPT引领AI新浪潮,AIgc商业化启程 - 发现报告
当前位置:首页/行业研究/报告详情/

ChatGPT引领AI新浪潮,AIgc商业化启程

信息技术2023-02-08浦俊懿、陈超、谢忱东方证券为***
ChatGPT引领AI新浪潮,AIgc商业化启程

行业研究|深度报告 看好(维持) ChatGPT引领AI新浪潮,AIGC商业化启程 计算机行业 国家/地区中国 行业计算机行业 报告发布日期2023年02月08日 核心观点 ChatGPT引领AI技术新一轮热潮,预示着NLP技术有望迅速进入平民化应用时代。2022年11月30日,OpenAI公司上线了聊天机器人模型ChatGPT,迅速引发了全球的热潮。ChatGPT是一种预训练的语言大模型,采用大量的参数和大量的数 据进行训练,基于人类反馈的强化学习算法,将NLP技术和机器学习结合,极大地提升了模型算法的效率和能力。随着ChatGPT的热度不断攀升,多家科技公司都开始布局ChatGPT相关技术领域,NLP技术有望迅速进入平民化应用时代。 ChatGPT具有良好的商业价值,未来应用空间广阔。ChatGPT相关技术不仅对众多的C端应用带来革新,同时也将对B端应用产生重大影响,企业数字化转型有望真正从数字化走向智能化,ChatGPT在企业办公中的应用,具备很大的想象空间。我们认为,协同办公类应用作为企业各类应用的入口,同时具备知识管理、流程引擎等功能,具备很强卡位价值,在把ChatGPT技术引入后,可以极大提升产品的功能与应用体验。员工仅需给出想要办理的流程,由ChatGPT进行智能化办理,从而改变过去员工需要自行在OA、ERP及业务系统中完成信息录入、功能查找、业务办理的现状,将极大地提升办公效率和使用体验。目前微软已经将ChatGPT应用到了Dynamics365、Teams等产品线,未来将要应用到Bing搜索中,未来的商业价值空间十分可观。 AIGC有望成为未来人工智能的重要方向,商业化模式仍需摸索。AIGC即人工智能内容生成,ChatGPT就是典型的文本生成式的AIGC,其目前的成功也有望带动 AIGC在图像、音乐、视频等其他领域落地。Gartner曾多次将生成式AI列为未来 浦俊懿021-63325888*6106 pujunyi@orientsec.com.cn 执业证书编号:S0860514050004 陈超021-63325888*3144 chenchao3@orientsec.com.cn 执业证书编号:S0860521050002 谢忱xiechen@orientsec.com.cn 执业证书编号:S0860522090004 杜云飞duyunfei@orientsec.com.cn 覃俊宁qinjunning@orientsec.com.cn 的重要技术趋势,是当下最引人注目的人工智能技术之一。据Gartner预计,到2025年,生成式人工智能将占所有生成数据的10%,而目前这一比例还不到1%。随着ChatGPT开启付费订阅试点,AIGC的商业化进程正式拉开帷幕。据量子位报告统计,到2030年,AIGC的市场规模将超过万亿人民币,但由于AIGC目前产业化程度有限,大量业务场景尚未成功变现,商业模式也还处于探索阶段。我们认 为,在当下时点,AIGC基于其出色的降本增效能力,在企业级市场的应用前景较为明朗和稳定,在C端消费市场的商业模式仍需进一步摸索。 投资建议与投资标的 我们认为,未来几年是AIGC的快速发展窗口期,相关的AI模型算法、算力基础设施以及下游应用都有望迎来加速增长。 AI模型和算法能力领域,建议关注科大讯飞(002230,买入)、拓尔思(300229,未评级)、云从科技-UW(688327,未评级)等公司。 算力基础设施领域,建议关注中科曙光(603019,买入)、海光信息(688041,买入)、浪潮信息(000977,未评级)等公司。 我们看好ChatGPT在企业级市场的应用和渗透前景,建议投资者关注致远互联(688369,未评级)、ST泛微(603039,未评级)、用友网络(600588,买入)、鼎捷软件(300378,未评级)、金山办公(688111,增持)、汉得信息(300170,未评级)等公司。 风险提示 AI技术发展不及预期;政策监管风险 开门红后未来表现仍值得期待,数据要 素、AI、信创是核心方向:——计算机行业周报 2023-02-05 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 目录 一、ChatGPT持续升温,AIGC热潮来临4 1.1ChatGPT横空出世,AI发展方兴未艾4 1.2ChatGPT的先行者——GPT模型的发展5 1.3ChatGPT应用在即,B端商业价值凸显6 二、AIGC出圈,潜在应用前景广阔8 2.1从AI艺术品到AIGC的破圈8 2.2AIGC有望成为未来人工智能的重要方向9 2.3ChatGPT开启付费试点,AIGC商业化任重道远11 三、相关标的13 3.1科大讯飞:认知智能领域全国领先13 3.2拓尔思:语义智能技术(NLP)的领导者13 3.3云从科技:从智能感知到认知决策的核心技术闭环14 风险提示15 图表目录 图1:ChatGPT回答问题4 图2:RHLF算法的训练流程4 图3:基于NLP的预训练模型的参数数量(单位:百万个)6 图4:GPT-3模型与其他语言模型的训练算力消耗对比6 图5:集成ChatGPT的Bing搜索短暂上线7 图6:UiPath的ChatGPT+RPA尝试7 图7:ChatGPT在Dynamics365中的应用8 图8:AI画作《埃德蒙·贝拉米画像》8 图9:AI数字虚拟人形象8 图10:AIGC发展历程9 图11:内容创作模式发展的四个阶段10 图12:2022年Gartner人工智能成熟度曲线10 图13:2022年Gartner影响力雷达10 图14:生成式AI模型进展与应用时间表10 图15:近年来AICG领域的投资情况11 图16:OpenAI推出付费试点订阅计划ChatGPTPlus11 图17:2030年AIGC市场规模将超过万亿人民币12 图18:科大讯飞在SemEval2022三项主要赛道中拿下冠军13 图19:拓尔思“智创”AIGC平台架构14 图20:云从科技人机协同全景14 表1:GPT历代产品5 一、ChatGPT持续升温,AIGC热潮来临 1.1ChatGPT横空出世,AI发展方兴未艾 ChatGPT是由OpenAI公司在2022年11月30日发布的一种聊天机器人模型,是由人工智能技术驱动的自然语言处理工具。它使用了Transformer架构并训练了大量的文本数据,能够进行语言翻译、问答、对话等任务。由于其在各种对话交互处理中的性能表现出色,自上线之后就迅速走红,仅一周就吸引了超过百万用户,ElonMusk也在推特盛赞ChatGPT的出色表现。 图1:ChatGPT回答问题 数据来源:ChatGPT,东方证券研究所 AI发展方兴未艾,ChatGPT的优秀表现也离不开强大的模型算法支撑。ChatGPT采用了RHLF (ReinforcementLearningfromHumanFeedback,基于人类反馈的强化学习)算法,采用人工标注的方式将NLP(NaturalLanguageProcessing,自然语言处理)和RL(ReinforcedLearning强化学习)结合起来,极大地提升了模型效率和学习能力。其训练过程可以分为三个步骤: 1)有监督微调(SupervisedFineTune,SFT):通过人工标注生成SFT数据集,数据集是由 <问题,回答>组成的答复对,通过SFT数据集来对GPT-3模型进行微调; 2)奖励模型(RewardModel)训练:针对同一个问题,采用人工标注方式来为微调后的模型输出的不同结果进行排序,用排序的结果来训练奖励模型; 3)用PPO(ProximalPolicyOptimization,最近策略优化算法)进行强化学习:针对每个问题,采用RM对模型输出的结果进行打分,打分结果再通过PPO算法对模型参数进行更新。 图2:RHLF算法的训练流程 数据来源:OpenAI,东方证券研究所 表1:GPT历代产品 1.2ChatGPT的先行者——GPT模型的发展 GPT已经历了三个版本的发展,ChatGPT是GPT-3与GPT-4之间的过渡版本。GPT (GenerativePre-trainedTransformer,生成式预训练语言模型)系列模型是一种基于互联网可用数据训练的文本生成深度学习模型。GPT模型是OpenAI公司研发的一系列模型,这一系列的模型可以在非常复杂的NLP任务中取得非常惊艳的效果,例如文章生成,代码生成,机器翻译,Q&A等,而完成这些任务并不需要有监督学习进行模型微调。不过,要达到这样的目的,GPT模型的训练需要大量的数据、参数以及强大的算力支撑,GPT模型的发展也印证了,通过不断地提升模型容量和语料规模,模型的能力是可以不断提升的。GPT系列模型经历了GPT-1、GPT-2和GPT-3三个阶段,ChatGPT则是由GPT-3微调得到的一个聚焦于对话交互的过渡版本。 模型 发布时间 参数量 预训练数据量 升级内容 GPT-1 2018年6月 1.17亿 5GB 无监督学习,从而对高质量标注数据的要求比较低,有比较强的泛化能力。 GPT-2 2019年2月 15亿 40GB 开源,使用了更多的网络参数与更大的数据集,验证了通过海量数据和大量参数训练出来的词向量模型可迁移到其它类别任务中,而不需要额外的训练。 GPT-3 2020年5月 1750亿 45TB 海量数据,从而在不使用样本、使用极少量样本完成下游NLP任务,还可以完成数学加法、代码编写等任务。 数据来源:CSDN,网易伏羲,东方证券研究所 1)GPT-1:由OpenAI在2018年6月发布,采用了半监督学习的方式,在无标签的数据上学习一个通用的语言模型,然后再在有标签的的子任务上进行微调,解决了无标签数据集要远大于有标签数据集的训练问题。GPT-1首次采用了Transformer架构作为特征抽取器,解决了传统RNN结构的缺陷与效率问题,在问题回答、语义相似度评估、语义确定、文本分类任务中可以简单应用; 2)GPT-2:发布于2019年2月,引入了zero-shot的概念,即模型在不再需要有标注的数据集 来进行子任务微调的工作,而是全程都采用无监督学习的方式来训练模型。GPT-2的核心思 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 想是,任何有监督任务都是语言模型的一个子集,当模型的容量非常大且数据量足够丰富时,仅仅靠训练语言模型的学习便可以完成其他有监督学习的任务。因此GPT-2的训练数据集和参数数量都远超GPT-1; 3)GPT-3:发布于2020年5月,OpenAI在微软投资的加持下,GPT-3将模型扩大到了一个新的维度,模型参数量达到1750亿个,是当时所有基于NLP的预训练模型中最大的,其训练数据集也达到了45TB。大模型带来的是大量的算力消耗,GPT-3在微软提供的AzureAI超算基础设施(由V100GPU组成的高带宽集群)上进行训练,总算力消耗约3640PF-days (即每秒一千万亿次计算,运行3640天)。在如此规模的数据支持下,GPT-3的性能表现也远远超过了GPT-2,也可以进行一些真正意义的AI创作。 图3:基于NLP的预训练模型的参数数量(单位:百万个) 175000 1100017000 1500 340340355 66 110110125 12 18 1000000 100000 10000 1000 100 10 1 数据来源:medium,东方证券研究所 图4:GPT-3模型与其他语言模型的训练算力消耗对比 数据来源:《LanguageModelsareFew-ShotLearners》,东方证券研究所 1.3ChatGPT应用在即