聊天机器人顶流ChatGPT,开启自然语言处理领域新篇章 核心观点: 计算机行业 推荐维持评级 事件:12月1日,美国人工智能公司OpenAI在网页上推出自然语言处理领域(NLP)的模型ChatGPT,它能够通过对话方式进行交互, 并根据用户输入的自然语言文本内容,自动生成新的文本内容。一周内,ChatGPT的用户已突破100万。 什么是ChatGPT:ChatGPT是在GPT3.5大模型语言模型(LLM,即 LargeLanguageModel)的基础上,加入“基于人类反馈的强化学习 (RLHF,ReinforcementLearningfromHumanFeedback)”来不断微调(Fine-tune)预训练语言模型,使得LLM模型学会理解不同类型的命令指令,并通过多重标准合理判断基于给定的prompt输入指令,输出的是否为优质信息(这些标准包括:富含信息、内容丰富、对用户有帮助、无害、不包含歧视信息等)。 ChatGPT引爆AIGC,AIGC将迎多场景爆发期。AIGC即AI-GeneratedContent,是继UGC、PGC之后利用AI技术自动生成内容的新型生产方式。相比UGC和PGC,AIGC的最大不同是基于海量 数据、风格随机多变、跨模态融合、认知交互力等新技术导向特征。随着ChatGPT的技术日渐成熟,AIGC将在电商虚拟主播、教育、金融、医疗、影视娱乐等多场景爆发,并进一步催生元宇宙的快速发展。 ChatGPT的技术发展路径:从GPT-1到InstructGPT,数据量与参数量不断增加,模型精度和能力提升。2018年,在自然语言处理领域 (NLP)刚兴起时,OpenAI就推出了初代GPT,它的运行逻辑是: 先通过无标签数据学习生成语言模型,并能够运用于一些与有监督任务无关的NLP任务中。此后再根据特定的下游任务进行有监督的微调,提高其泛化能力。 GPT-2扩展了网络参数和数据集,进行多任务学习,可以在数据量足够丰富且模型容量足够大时,通过训练语言模型就能够完成有监督学习的任务。 对比GPT-2,2020年推出的GPT-3最显著的特征是庞大的数据量和参数投入,整体训练过程耗资1200万美元,投入数据量达上万亿, 模型参数量达到1750亿。GPT-3延续了前两代GPT的技术架构,但改变了“大规模数据集预训练+下游数据标注微调”的方式,采用情境学习(in-contextlearning)来提高模型对话输出的性能。GPT-3的规模和语言能力几乎是最强大的。它能在不做微调的情况下,在一些传统的NLP任务中表现得更好,包括实现闭卷问答、模式解析、纯语言建模、机器翻译等;在新的领域,GPT-3将NLP的应用扩展到缺乏足够训练数据的领域,例如在开发程序代码、文章生成和信息检索领域取得了实质性的进展。然而,GPT-3在推理和理解能力上还有较长的路要走,在自然语言推理(NLI)任务中表现不佳。InstructGPT和ChatGPT:更好地遵循用户意图、更少的虚假信息。 OpenAI在2022年初发布了InstructGPT。该语言模型通过“基于人 分析师吴砚靖 :(8610)80927622 :wuyanjing@chinastock.com.cn 分析师登记编码:S0130519070001 邹文倩 :(8610)86359293 :zouwenqian@chinastock.com.cn 分析师登记编码:S0130519060003 行业数据2022-12-11 资料来源:Wind,中国银河证券研究院整理 行业点评报告●计算机行业 2022年12月11日 www.chinastock.com.cn证券研究报告请务必阅读正文最后的中国银河证券股份公司免责声明 类反馈的强化学习(RLHF)和监督学习”来提高输出质量。虽然InstructGPT的参数量仅为13亿左右,相比于GPT-3缩小了100倍以上;但在遵循指令方面,能够更好地遵循用户意图,将有害的、不真实或者有偏差的信息输出最小化。在优化的模型上,ChatGPT基于InstructGPT进一步改进,在模型结构和训练流程上遵循上述方式,但收集和标注数据的方式上发生了变化,通过采取监督学习的方式让模型学习人类排序的方式。 ChatGPT的优势与缺陷:优势是ChatGPT不需要任何额外的训练就能在多种不同的领域中应用并快速输出高质量的文本,相较于以前的模型已具备较强的自然语言处理能力。但目前ChatGPT在精准 性、真实性、重复率和依赖性等问题上尚待改善:第一、由于技术实现的问题,ChatGPT会不可避免地写出一些似是而非、或者荒谬的答案,这将导致植入虚假数据和误导用户的风险。ChatGPT依然没有完全克服大型语言模型(LLM)的这一常见缺点;第二、在较长的会话中,由于训练数据的偏差和过度修正,ChatGPT会过度强调某些短语或者句子,导致重复性高的问题;第三、ChatGPT的强大能力依赖语料库、数据量的抓取和复杂的训练过程。ChatGPT模型依赖于大规模离线语料进行训练,往往不能充分接受并采用在线提供的即时信息,难以理解对话中提及的因果关系,也无法基于已有信息进行推测,这距离人类举一反三的能力相差较远。 可能存在的瓶颈:ChatGPT本身的缺陷可能通过技术进步和优化训练方式得到解决,但它的爆火却引发了人们对AIGC行业中安全性、伦理约束和创造力的思考,或将成为发展瓶颈。一方面,由于RLFH并不能完全避免ChatGPT训练库中学习到的不道德或有偏见的回 答,也会导致在模糊提示或引导回答的过程中让ChatGPT输出一些有害信息,导致输出结果的安全性降低。另一方面,在创造性、创作伦理和知识产权等方面并未形成有效界定。在数据挖掘、大规模计算、统计、多线程工作等数据处理分析领域,人工智能有着人类不可比拟的优势,但是以“创新和感知”为基础的创造过程是机器学习和模型难以训练的。目前ChatGPT能够在用户的引导下快速生成小说、诗歌、散文、编程等需要创造力的内容,或许将对创作者和以版权为基础的行业造成冲击。文本生成的过程是基于数据库内容的学习,这是否会构成对被抓取作品的侵权,ChatGPT生成的文本内容是否具有著作权,是否属于该用户等一系列问题的答案尚不明确。 ChatGPT的能力目前几乎可以涵盖各个自然语言交互领域,例如聊天机器人、对话系统、智能客服、信息检索、主题建模、文本生成和总结、NLP作为服务的翻译、转录、总结等等,未来应用领域将面向蓝海。例如,在聊天机器人领域,目前ChatGPT已经能基本满 足用户的提供个性化需求和信息提供服务;在需要智能客服的电商、 金融、医疗、教育、政务等垂直领域等,ChatGPT能够结合行业特点和需求,构建自动应答系统,为客户提供快速、准确的问题解答。除此外,在传媒、娱乐、设计和影视领域,ChatGPT能够协助完成一些较低层次的任务,包括文稿生成、采访助手、摘要总结等,或将提高行业的运行效率。 ChatGPT的商业化落地方式还待商榷:第一、由于GPT-3的训练耗资巨大,且需要大量的数据集和算力,即使ChatGPT未来应用前景广阔,如果不能降低模型的更新训练成本和推理成本,将限制中小 B端企业的采购意愿。第二、目前正在免费测试阶段的ChatGPT还未解决GPT-3模型存在的准确性和安全性问题,还需要进一步优化迭代。此前,OpenAI已尝试过通过API接口的方式推动GPT-3的商业化,但由于模型问题并未通过测试阶段。虽然目前OpenAI已找到 方式优化输出虚假信息的问题,但效力远远不足。如果不能解决这两个问题,GPT的商业化道路还需等待。 投资建议ChatGPT代表自然语言处理技术一大进步,利好相关AI 公司的技术与产品落地,可重点关注拓尔思(300229.SZ)、商汤-W (0020.HK)、科大讯飞(002230.SZ)。 风险提示技术研发不及预期的风险;商业化落地方式尚不明确的风险;下游需求不及预期的风险。 (一)ChatGPT是什么 ChatGPT是一个由OpenAI开发的自然语言处理领域(NLP)的模型,它通过对话方式进行交互,能够根据用户输入的自然语言文本内容,自动生成新的文本内容,属于AIGC行业中细分赛道中的一种。 ChatGPT是在GPT3.5大模型语言模型(LLM,即LargeLanguageModel)的基础上,加入“基于人类反馈的强化学习(RLHF,ReinforcementLearningfromHumanFeedback)”来不断微调(Fine-tune)预训练语言模型,使得LLM模型学会理解不同类型的命令指令,并通过多重标准合理判断基于给定的prompt输入指令,输出的是否为优质信息。(这些标准包括:富含信息、内容丰富、对用户有帮助、无害、不包含歧视信息等) (二)ChatGPT引爆AIGC,AIGC将迎多场景爆发期。 AIGC即AI-GeneratedContent,是继UGC、PGC之后利用AI技术自动生成内容的新型生产方式。相比UGC和PGC,AIGC的最大不同是基于海量数据、风格随机多变、跨模态融合、认知交互力等新技术导向特征。随着ChatGPT的技术日渐成熟,AIGC将在电商虚拟主播、教育、金融、医疗、影视娱乐等多场景爆发,并进一步催生元宇宙的快速发展。 (三)ChatGPT的技术发展路径 ChatGPT的名称来源于它所使用的技术架构GPT,即GenerativePre-trainedTransformer,是一种强大的生成式预训练语言模型,能够完成复杂的自然语言处理领域(NLP)的任务,例如文本生成、机器翻译、代码生成、问答、对话AI等。GPT模型在上述任务中并不需要监督学习,但模型训练过程需要庞大的训练语料、模型参数和强大的计算资源。在结构上,GPT基于堆叠的Transformer组件进行编解码,通过提升训练语料的规模和质量、提升网络参数数量来完成GPT系列的迭代过程。近�年来GPT的发展过程也证明了:模型能力的提高 与参数量和预训练数据量有直接关联。 表1:GPT三代的对比 模型 发布时间 参数量 预训练数据量 预估成本 pfs-days 消耗资源 GPT-1 2018年6月 1.17亿 约5GB 0.96 在8个GPU上训练一个月 GPT-2 2019年2月 15亿 40GB 7.86 在256个GoogleCloudTPU v3上训练一周 GPT-3 2020年5月 1750亿 45TB 1200万美元 3640 在8个GPU上训练一个月 资料来源:人民数字,品玩,中国银河证券研究院 1.GPT初代:无监督的预训练结合有监督的模型微调 2018年,在自然语言处理领域(NLP)刚兴起时,OpenAI就推出的初代GPT,它的运行逻辑是:先通过无标签数据学习生成语言模型,并能够运用于一些与有监督任务无关的NLP任务中。此后再根据特定的下游任务进行有监督的微调,提高其泛化能力。常用的有监督任务主要有: (1)自然语言推理(NaturalLanguageInference):判断两个句子的关系,是包含关系、矛盾关系或者中立关系; (2)问答和常识推理(Questionansweringandcommonsensereasoning):通过输入的文章和若干个问题及其候选答案,输出为每个答案的预测概率; (3)语义相似度(SemanticSimilarity):判断两个句子是否语义相关; (4)分类(Classification):判断输入文本的指定类别。 在经过有监督的微调后,GPT-1的泛化能力会得到明显提升,且随着训练次数的增加,GPT-1的性能逐步提升。但是初代GPT仅仅使用了解码器decoder部分,其transformer结构中对于词向量的学习能力得到发挥,能够对实现较好地语言理解,适用于文本生成领域,但在通用语言和会话交流方面,还有较大的欠缺。 2.GPT-2:扩展了网络参数和数据