行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

计算机行业深度报告：ChatGPT不断突破，AI驶入快车道

信息技术2023-02-21陈宝健、闫宁开源证券从***

AI智能总结

报告标题：《数据库：潜力空间大，替代正当时—行业深度报告》报告摘要：ChatGPT是AIGC现象级应用，商业化落地打开成长空间。ChatGPT已超过TikTok成为活跃用户增长最快的产品，英伟达CEO黄仁勋表示“ChatGPT相当于AI界的iPhone问世”。ChatGPT已开启商业化探索，面向B端开放接口对外输出服务，面向C端推出收费的Plus版本。根据OpenAI预测，2023年将实现2亿美元收入，2024年将超过10亿美元，未来成长空间广阔。大模型+大数据+高算力，ChatGPT不断突破。ChatGPT技术持续突破，表现惊艳。巨头积极布局，产业落地加速。AIGC在AI技术创新、产业生态和政策支持共振下，有望步入发展快车道。建议积极关注。

ChatGPT：AIGC现象级应用，商业化落地打开成长空间 ChatGPT上线后热度持续提升，已超过TikTok成为活跃用户增长最快的产品。英伟达CEO黄仁勋表示“ChatGPT相当于AI界的iPhone问世”。目前ChatGPT已开启商业化探索，面向B端开放接口对外输出服务（如与微软Bing的结合）；面向C端推出收费的Plus版本，月度费用为20美元/月。根据OpenAI预测，2023年将实现2亿美元收入，2024年将超过10亿美元，未来成长空间广阔。大模型+大数据+高算力，ChatGPT不断突破（1）预训练大模型：GPT大模型是ChatGPT的基础，目前已经过多个版本迭代，GPT-3版本参数量达1750亿，训练效果持续优化。（2）数据：数据是预训练大模型的原材料。GPT-3数据主要来自Common Crawl、新闻、帖子、书籍及各种网页，原始数据规模达45TB，训练效果大幅提升。（3）算力：微软AzureAI是OpenAI独家云计算供应商，所用超算拥有285,000个CPU内核、约10,000个GPU。在大模型、大数据和高算力的支撑下，ChatGPT技术持续突破，表现惊艳。巨头积极布局，产业落地加速 AIGC在AI技术创新（生成算法、预训练模型、多模态技术等）、产业生态（三层生态体系雏形已现）和政策支持（北京经信局表示支持头部企业打造对标ChatGPT的大模型）共振下，有望步入发展快车道，根据腾讯研究院发布的AIGC发展趋势报告，预计2030年AIGC市场规模将达1100亿美元，前景广阔。（1）微软：微软自2019年与OpenAI展开合作，并表示未来所有产品将全线整合ChatGPT。目前已推出引入ChatGPT技术的搜索引擎New Bing，经过测试后，71%的用户对ChatGPT版Bing满意，AI与搜索协同效果显著。（2）谷歌：2023年2月谷歌推出对标ChatGPT的对话机器人Bard。Bard基于谷歌LaMDA模型，参数量最高达1370亿，LaMDA已经在多个维度接近人类水平。谷歌表示未来会将AI技术率先应用于搜索领域，或将与微软展开正面竞争。（3）百度：百度在AI领域深耕数十年，在芯片、深度学习框架、大模型以及应用已形成全栈布局，已有文心一格（AI作画）、文心百中（产业搜索）产品落地。 2023年2月，百度推出聊天机器人“文心一言”，目前生态合作伙伴近300家，未来可期。投资建议国内具有丰富应用场景和数据积累，政策环境持续优化，随着巨头的纷纷投入，有望带动AIGC相关产业链加速发展，建议积极关注。算法和场景领域受益标的包括科大讯飞、三六零、拓尔思、金山办公、福昕软件、同花顺、万兴科技、格灵深瞳、云从科技，数据领域受益标的包括海天瑞声，算力及芯片领域受益标的包括浪潮信息、中科曙光、寒武纪、景嘉微、海光信息、龙芯中科、中国长城。风险提示：技术发展不及预期；商业落地不及预期；政策支持不及预期。 1、ChatGPT：AIGC现象级应用，商业化落地打开成长空间 ChatGPT是AIGC领域现象级应用。ChatGPT是美国AI公司OpenAI于2022年11月30日发布的通用型对话系统，可以通过模拟对话的形式完成编程、问答、文本生成等任务。ChatGPT的持续火热，成为AIGC领域现象级应用，为后续商业化和应用落地打开广阔空间，也为以自然语言处理为核心的认知智能技术提供广阔发展机遇。英伟达CEO黄仁勋表示“ChatGPT相当于AI界的iPhone问世”。图1：ChatGPT是OpenAI于2022年11月30日发布的通用型对话系统 ChatGPT在多项测试中超过人类。2022年，包括ChatGPT在内的许多大模型的测试表现已经超出人类。目前ChatGPT已经通过SAT考试、商学院考试、美国律师资格、注册会计师、医师资格等高难度考试，IQ测试达83，已经具备取代无意义重复性工作的能力，在专业领域也具有辅助决策的潜力。图2：大型语言模型在多项测试中已经超过人类 ChatGPT上线后热度持续提升，已超过TikTok成为活跃用户增长最快的产品。 ChatGPT发布一周用户数就突破100万人，月访问量达2100万人次。目前ChatGPT尚未披露具体的日活用户数，根据ARK数据，截至2023年1月，预计ChatGPT全球日活用户超过1000万人。图3：GhatGPT日活用户超过1000万人 ChatGPT商业化已经落地，未来成长空间广阔。面向B端，ChatGPT可以开放接口对外输出服务，如与微软Bing的结合；面向C端，2023年2月，ChatGPT已推出收费的Plus版本，月度费用为20美元/月,并表示未来或将探索价格更低的订阅方案、2B的商业方案以及数据包等选项。根据OpenAI预测，2023年将实现收入2亿美元，2024年将超过10亿美元，未来成长空间广阔。图4：ChatGPT已推出收费的Plus版本 2、大模型+大数据+高算力，ChatGPT不断突破 2.1、预训练大模型：GPT大模型多次迭代，训练结果持续优化 ChatGPT是以Transformer为基础的预训练模型。GPT的全称为Generative Pre-Trained Transformer，即生成式预训练Transfomer模型。预训练模型是指通过挖掘利用大规模无标注数据，学习数据中的知识与规律，然后针对特定任务，通过微调、手工调参等阶段，进入到可以大规模、可复制的大工业落地阶段。Transformer模型来自谷歌2017年发表的论文《Attention is allyou need》，是一种采用自注意力机制的深度学习模型，模型按照输入数据各部分的重要性的不同而分配不同的权重。 Transformer的优势在于：（1）采用并行训练，大幅提高了训练效率；（2）在分析预测更长的文本时,对间隔较长的语义具有更好的关联效果。图5：ChatGPT是以Transformer为基础的预训练模型 GPT大模型经过多次迭代，参数量大幅提升。谷歌发表Transformer论文后的第二年（即2018年），OpenAI推出基于Transformer的第一代GPT模型，随后陆续推出GPT-2、GPT-3、InstructGPT等版本，GPT模型持续迭代。OpenAI于2020年5月推出第三代GPT-3模型，参数量达1750亿，较上一代GPT-2（参数量15亿）提升了两个数量级，是微软同年2月推出的T-NLG模型（参数量170亿）的10倍，成为当时最大的预训练语言模型。图6：GPT大模型多次迭代，参数量大幅提升 GPT-3系列已经发展出50多种模型。GPT-3模型推出后，已陆续发展出面向不同场景的模型。除ChatGPT外，GPT-3系列中比较流行的还有CodeX（代码生成）、DALL-E（图片生成）等。CodeX经过自然语言和几十亿行代码的训练，可以完成Python、JavaScript等十几种语言的代码任务。DALL-E于2021年5月推出，可以根据文字描述生成图像和艺术作品，收费价格为0.016-0.020美元/图。图7：GPT-3系列已经发展出50多种模型 ChatGPT由GPT-3微调而来，模型更小，专注于聊天场景。对比来看，GPT-3是一种大型通用语言模型，可以处理各种语言处理任务，ChatGPT是一个较小的专用模型，专为聊天应用程序设计。ChatGPT训练包括三个步骤：（1）预训练一个语言模型(LM)；（2）聚合问答数据并训练一个奖励模型(Reward Model，RM)；（3）用强化学习(RL)方式微调LM。此外，因为引入了代码作为训练语料，ChatGPT还额外产生了自动写代码和理解代码的能力。图8：ChatGPT训练包括三个步骤 ChatGPT通过RLHF优化训练结果。ChatGPT基于人类反馈强化学习（RLHF），通过众包团队大规模开展生成结果好坏的人工标注，经过多次迭代，使得大模型生成结果更加无偏见和符合人类预期，实现了“智慧涌现”的效果。图9：ChatGPT通过RLHF优化训练结果 InstructGPT相比GPT-3：（1）更符合人类偏好。InstructGPT是在GPT-3微调而来，经过人类反馈强化学习后，InstructGPT相比GPT-3，在71%-88%的情况下更符合人类偏好。（2）真实性显著提升。在TruthfulQA测试中，InstructGPT生成真实信息的频率较GPT-3提升约一倍（0.413vs0.224）。（3）在生成有毒信息方面略有改善。在RealToxicity测试中，InstructGPT生成有毒信息的情况（包含仇恨、歧视或谣言的信息）较GPT-3略有改善（0.196vs0.233）。图10：InstructGPT相比GPT-3更符合人类偏好图11：InstructGPT较GPT-3毒性降低 ChatGPT相比InstructGPT：在有效性和无害性方面有所提升。比如在“哥伦布如何在2015年来到美国？”，ChatGPT会回答“哥伦布在1506年去世，所以他不能在2015年到达美国”，相比InstructGPT的回答更加合理。在“如何欺负JohnDoe？”的问题上，InstructGPT会给出建议，ChatGPT则会指出欺负人是不对的。图12：ChatGPT的信息相比InstructGPT更加有效图13：ChatGPT在无害性方面也有所提升 2.2、数据：数据量提升显著优化大模型表现 ChatGPT数据主要来自Common Crawl、新闻、帖子、书籍及各种网页。Common Crawl、网页、书籍、维基百科对于训练的贡献量分别为60%、22%、16%、3%。英文维基百科全部内容包含约30亿tokens，仅占到训练数据量的3%。表1：ChatGPT数据主要来自Common Crawl、新闻、帖子、书籍及各种网页 Common Crawl是一个由网络爬取产生的大型免费语料库，数据规模达PB级。 Common Crawl（CC）是一个从网络抓取数据并免费开放的非盈利组织，数据库包含了2008年以来的原始网页、元数据和抓取文本，数据规模达PB级别，其中英文数据占比约45%，中文数据占比约5%。CC数据库的应用场景包括训练NLP模型、网络抓取和机器学习等，CC数据库对于AI的意义堪比Google对于互联网的意义，重点研究实验室一般会选取纯英文过滤版（ C4 ）作为数据集。图14：Common Crawl数据规模达PB级图15：Common Crawl英文数据占比约45% ChatGPT的优秀表现得益于预训练数据量大幅提升。GPT-3和GPT-2采用了相同的架构，在模型上没有大幅修改，仅用更多的数据量、参数量去进行训练。GPT-2的预训练数据规模约40GB，约有100亿个tokens；GPT-3的预训练数据是由45TB的原始语料清洗而来，数据规模达570GB，约有4900亿个tokens。GPT-2模型参数量为15亿，GPT-3参数量为1750亿。由于容量和参数量的的大幅提升，GPT-3的准确性也得到大幅提升，已经可以生成高质量文本，让人难以确定是否是人写的。表2：GPT-3预训练数据量大幅提升图16：GPT-3预训练数据量大幅提升 ChatGPT局限：（1）ChatGPT的知识有限。ChatGPT的预训练数据库只更新至2021年，无法进行联网更新，因此不能理解和回答2021年之后发生的事情；（2）真实性无法保障。ChatGPT的部分训练是基于从互联网上搜集的数据，因此它的输出结果经常受到偏见和不准确信息的影响，无法保证真实性。图17：ChatGPT预训练数据仅更新至2021年 2.3、算力：微软是独家云计算供应商，预计每月成本近千万美元微软AzureAI是ChatGPT独家云计算供应商。根据Open AI于2018年的统计，自2012年以来，AI训练

点击免费查看完整报告

你可能感兴趣

计算机行业深度报告：ChatGPT不断突破，AI驶入快车道

你可能感兴趣

行业深度报告：ChatGPT引领AI突破，工业AI前景可期

深度研究：AI发展驶入快车道，公司先发优势明确

通信行业深度报告：“5G+车联网”驶入快车道，自主可控待产业爆发

医疗器械行业深度报告：技术推广双轮驱动，肿瘤早筛驶入发展快车道

计算机行业：ChatGPT，深度拆解AI算力模型