ChatGPT:AIGC现象级应用,商业化落地打开成长空间 ChatGPT上线后热度持续提升,已超过TikTok成为活跃用户增长最快的产品。 英伟达CEO黄仁勋表示“ChatGPT相当于AI界的iPhone问世”。目前ChatGPT已开启商业化探索,面向B端开放接口对外输出服务(如与微软Bing的结合); 面向C端推出收费的Plus版本,月度费用为20美元/月。根据OpenAI预测,2023年将实现2亿美元收入,2024年将超过10亿美元,未来成长空间广阔。 大模型+大数据+高算力,ChatGPT不断突破 (1)预训练大模型:GPT大模型是ChatGPT的基础,目前已经过多个版本迭代,GPT-3版本参数量达1750亿,训练效果持续优化。(2)数据:数据是预训练大模型的原材料。GPT-3数据主要来自Common Crawl、新闻、帖子、书籍及各种网页,原始数据规模达45TB,训练效果大幅提升。(3)算力:微软AzureAI是OpenAI独家云计算供应商,所用超算拥有285,000个CPU内核、约10,000个GPU。在大模型、大数据和高算力的支撑下,ChatGPT技术持续突破,表现惊艳。 巨头积极布局,产业落地加速 AIGC在AI技术创新(生成算法、预训练模型、多模态技术等)、产业生态(三层生态体系雏形已现)和政策支持(北京经信局表示支持头部企业打造对标ChatGPT的大模型)共振下,有望步入发展快车道,根据腾讯研究院发布的AIGC发展趋势报告,预计2030年AIGC市场规模将达1100亿美元,前景广阔。 (1)微软:微软自2019年与OpenAI展开合作,并表示未来所有产品将全线整合ChatGPT。目前已推出引入ChatGPT技术的搜索引擎New Bing,经过测试后,71%的用户对ChatGPT版Bing满意,AI与搜索协同效果显著。 (2)谷歌:2023年2月谷歌推出对标ChatGPT的对话机器人Bard。Bard基于谷歌LaMDA模型,参数量最高达1370亿,LaMDA已经在多个维度接近人类水平。谷歌表示未来会将AI技术率先应用于搜索领域,或将与微软展开正面竞争。 (3)百度:百度在AI领域深耕数十年,在芯片、深度学习框架、大模型以及应用已形成全栈布局,已有文心一格(AI作画)、文心百中(产业搜索)产品落地。 2023年2月,百度推出聊天机器人“文心一言”,目前生态合作伙伴近300家,未来可期。 投资建议 国内具有丰富应用场景和数据积累,政策环境持续优化,随着巨头的纷纷投入,有望带动AIGC相关产业链加速发展,建议积极关注。算法和场景领域受益标的包括科大讯飞、三六零、拓尔思、金山办公、福昕软件、同花顺、万兴科技、格灵深瞳、云从科技,数据领域受益标的包括海天瑞声,算力及芯片领域受益标的包括浪潮信息、中科曙光、寒武纪、景嘉微、海光信息、龙芯中科、中国长城。 风险提示:技术发展不及预期;商业落地不及预期;政策支持不及预期。 1、ChatGPT:AIGC现象级应用,商业化落地打开成长空间 ChatGPT是AIGC领域现象级应用。ChatGPT是美国AI公司OpenAI于2022年11月30日发布的通用型对话系统,可以通过模拟对话的形式完成编程、问答、文本生成等任务。ChatGPT的持续火热,成为AIGC领域现象级应用,为后续商业化和应用落地打开广阔空间,也为以自然语言处理为核心的认知智能技术提供广阔发展机遇。英伟达CEO黄仁勋表示“ChatGPT相当于AI界的iPhone问世”。 图1:ChatGPT是OpenAI于2022年11月30日发布的通用型对话系统 ChatGPT在多项测试中超过人类。2022年,包括ChatGPT在内的许多大模型的测试表现已经超出人类。目前ChatGPT已经通过SAT考试、商学院考试、美国律师资格、注册会计师、医师资格等高难度考试,IQ测试达83,已经具备取代无意义重复性工作的能力,在专业领域也具有辅助决策的潜力。 图2:大型语言模型在多项测试中已经超过人类 ChatGPT上线后热度持续提升,已超过TikTok成为活跃用户增长最快的产品。 ChatGPT发布一周用户数就突破100万人,月访问量达2100万人次。目前ChatGPT尚未披露具体的日活用户数,根据ARK数据,截至2023年1月,预计ChatGPT全球日活用户超过1000万人。 图3:GhatGPT日活用户超过1000万人 ChatGPT商业化已经落地,未来成长空间广阔。面向B端,ChatGPT可以开放接口对外输出服务,如与微软Bing的结合;面向C端,2023年2月,ChatGPT已推出收费的Plus版本,月度费用为20美元/月,并表示未来或将探索价格更低的订阅方案、2B的商业方案以及数据包等选项。根据OpenAI预测,2023年将实现收入2亿美元,2024年将超过10亿美元,未来成长空间广阔。 图4:ChatGPT已推出收费的Plus版本 2、大模型+大数据+高算力,ChatGPT不断突破 2.1、预训练大模型:GPT大模型多次迭代,训练结果持续优化 ChatGPT是以Transformer为基础的预训练模型。GPT的全称为Generative Pre-Trained Transformer,即生成式预训练Transfomer模型。预训练模型是指通过挖掘利用大规模无标注数据,学习数据中的知识与规律,然后针对特定任务,通过微调、手工调参等阶段,进入到可以大规模、可复制的大工业落地阶段。Transformer模型来自谷歌2017年发表的论文《Attention is allyou need》,是一种采用自注意力机制的深度学习模型,模型按照输入数据各部分的重要性的不同而分配不同的权重。 Transformer的优势在于:(1)采用并行训练,大幅提高了训练效率;(2)在分析预测更长的文本时,对间隔较长的语义具有更好的关联效果。 图5:ChatGPT是以Transformer为基础的预训练模型 GPT大模型经过多次迭代,参数量大幅提升。谷歌发表Transformer论文后的第二年(即2018年),OpenAI推出基于Transformer的第一代GPT模型,随后陆续推出GPT-2、GPT-3、InstructGPT等版本,GPT模型持续迭代。OpenAI于2020年5月推出第三代GPT-3模型,参数量达1750亿,较上一代GPT-2(参数量15亿)提升了两个数量级,是微软同年2月推出的T-NLG模型(参数量170亿)的10倍,成为当时最大的预训练语言模型。 图6:GPT大模型多次迭代,参数量大幅提升 GPT-3系列已经发展出50多种模型。GPT-3模型推出后,已陆续发展出面向不同场景的模型。除ChatGPT外,GPT-3系列中比较流行的还有CodeX(代码生成)、DALL-E(图片生成)等。CodeX经过自然语言和几十亿行代码的训练,可以完成Python、JavaScript等十几种语言的代码任务。DALL-E于2021年5月推出,可以根据文字描述生成图像和艺术作品,收费价格为0.016-0.020美元/图。 图7:GPT-3系列已经发展出50多种模型 ChatGPT由GPT-3微调而来,模型更小,专注于聊天场景。对比来看,GPT-3是一种大型通用语言模型,可以处理各种语言处理任务,ChatGPT是一个较小的专用模型,专为聊天应用程序设计。ChatGPT训练包括三个步骤:(1)预训练一个语言模型(LM);(2)聚合问答数据并训练一个奖励模型(Reward Model,RM);(3)用强化学习(RL)方式微调LM。此外,因为引入了代码作为训练语料,ChatGPT还额外产生了自动写代码和理解代码的能力。 图8:ChatGPT训练包括三个步骤 ChatGPT通过RLHF优化训练结果。ChatGPT基于人类反馈强化学习(RLHF),通过众包团队大规模开展生成结果好坏的人工标注,经过多次迭代,使得大模型生成结果更加无偏见和符合人类预期,实现了“智慧涌现”的效果。 图9:ChatGPT通过RLHF优化训练结果 InstructGPT相比GPT-3: (1)更符合人类偏好。InstructGPT是在GPT-3微调而来,经过人类反馈强化学习后,InstructGPT相比GPT-3,在71%-88%的情况下更符合人类偏好。 (2)真实性显著提升。在TruthfulQA测试中,InstructGPT生成真实信息的频率较GPT-3提升约一倍(0.413vs0.224)。 (3)在生成有毒信息方面略有改善。在RealToxicity测试中,InstructGPT生成有毒信息的情况(包含仇恨、歧视或谣言的信息)较GPT-3略有改善(0.196vs0.233)。 图10:InstructGPT相比GPT-3更符合人类偏好 图11:InstructGPT较GPT-3毒性降低 ChatGPT相比InstructGPT:在有效性和无害性方面有所提升。比如在“哥伦布如何在2015年来到美国?”,ChatGPT会回答“哥伦布在1506年去世,所以他不能在2015年到达美国”,相比InstructGPT的回答更加合理。在“如何欺负JohnDoe?”的问题上,InstructGPT会给出建议,ChatGPT则会指出欺负人是不对的。 图12:ChatGPT的信息相比InstructGPT更加有效 图13:ChatGPT在无害性方面也有所提升 2.2、数据:数据量提升显著优化大模型表现 ChatGPT数据主要来自Common Crawl、新闻、帖子、书籍及各种网页。Common Crawl、网页、书籍、维基百科对于训练的贡献量分别为60%、22%、16%、3%。英文维基百科全部内容包含约30亿tokens,仅占到训练数据量的3%。 表1:ChatGPT数据主要来自Common Crawl、新闻、帖子、书籍及各种网页 Common Crawl是一个由网络爬取产生的大型免费语料库,数据规模达PB级。 Common Crawl(CC)是一个从网络抓取数据并免费开放的非盈利组织,数据库包含了2008年以来的原始网页、元数据和抓取文本,数据规模达PB级别,其中英文数据占比约45%,中文数据占比约5%。CC数据库的应用场景包括训练NLP模型、网络抓取和机器学习等,CC数据库对于AI的意义堪比Google对于互联网的意义,重点研究实验室一般会选取纯英文过滤版( C4 )作为数据集。 图14:Common Crawl数据规模达PB级 图15:Common Crawl英文数据占比约45% ChatGPT的优秀表现得益于预训练数据量大幅提升。GPT-3和GPT-2采用了相同的架构,在模型上没有大幅修改,仅用更多的数据量、参数量去进行训练。GPT-2的预训练数据规模约40GB,约有100亿个tokens;GPT-3的预训练数据是由45TB的原始语料清洗而来,数据规模达570GB,约有4900亿个tokens。GPT-2模型参数量为15亿,GPT-3参数量为1750亿。由于容量和参数量的的大幅提升,GPT-3的准确性也得到大幅提升,已经可以生成高质量文本,让人难以确定是否是人写的。 表2:GPT-3预训练数据量大幅提升 图16:GPT-3预训练数据量大幅提升 ChatGPT局限:(1)ChatGPT的知识有限。ChatGPT的预训练数据库只更新至2021年,无法进行联网更新,因此不能理解和回答2021年之后发生的事情;(2)真实性无法保障。ChatGPT的部分训练是基于从互联网上搜集的数据,因此它的输出结果经常受到偏见和不准确信息的影响,无法保证真实性。 图17:ChatGPT预训练数据仅更新至2021年 2.3、算力:微软是独家云计算供应商,预计每月成本近千万美元 微软AzureAI是ChatGPT独家云计算供应商。根据Open AI于2018年的统计,自2012年以来,AI训练