您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中航证券]:科技专题研究:ChatGPT狂飙破壁,现象级AI应用引发范式革命 - 发现报告
当前位置:首页/行业研究/报告详情/

科技专题研究:ChatGPT狂飙破壁,现象级AI应用引发范式革命

信息技术2023-02-16刘牧野中航证券小***
科技专题研究:ChatGPT狂飙破壁,现象级AI应用引发范式革命

科技专题研究 2023年2月16日 ChatGPT狂飙破壁,现象级AI应用引发范式革命 行业评级:增持 分析师:刘牧野 证券执业证书号:S0640522040001 股市有风险入市需谨慎 中航证券研究所发布证券研究报告请务必阅读正文后的免责条款部分 现象级AI应用狂飙破壁,ChatGPT引发范式革命:ChatGPT推出仅两个月后,即2023年1月末的月活用户已经突破了1亿,成为史上用户增长速度最快的消费级应用程序。OpenAI在2023年2月1日推出订阅服务,每月收费20美元,拉开了人工智能在C端变现的帷幕。由此引发了全球范围的关注和讨论,国内大多数头部科技企业表示,已经拥有、在研对标ChatGPT相关的模型及产品。 AI模型运算规模增长,算力缺口巨大:基于大量数据训练、拥有巨量参数的AI预训练模型—GPT-3,引发了AIGC技术的质变,从而诞生ChatGPT。然而,预训练模型参数数量、训练数据规模将按照300倍/年的趋势增长,现有算力距离AI应用存巨大鸿沟。运算规模的增长,带动了对AI训练芯片单点算力提升的需求,并对数据传输速度提出了更高的要求。 AIGC跨越数据鸿沟,合成数据与日精进:ChatGPT的火速出圈,将AIGC推向新的高度。数据是人工智能的燃料和驱动力,人工智能发展所需的海量数据也能通过AIGC技术生成、合成出来,即合成数据(syntheticdata)。合成数据有望解决人工智能和数字经济的数据供给问题。Gartner预测,到2030年AI模型使用的绝大部分数据将由人工智能合成。 建议关注: GPU:景嘉微、航锦科技,和未上市的地平线、黑芝麻、摩尔线程; AI训练芯片:寒武纪、商汤(港股)、燧原科技(未上市); 存算一体化:恒烁股份、东芯股份; 光模块:中际旭创、光迅科技、华工科技、天孚通信、德科立、源杰科技; 硅光芯片:光库科技、声光电科、赛微电子; 合成数据潜在受益标的:百度、阿里、腾讯、金山办公、中国电信。 风险提示:AI算法、模型存较高不确定性,AI技术发展不及预期;ChatGPT用户付费意愿弱,客户需求不及预期;针对AI的监管政策收紧 一、现象级AI应用狂飙破壁,ChatGPT引发范式革命 二、巨量数据规模引发质变,AI模型算力紧缺 三、AIGC跨越数据鸿沟,合成数据与日精进 四、风险提示 ChatGPT(ChatGenerativePre-trainedTransformer)是由OpenAI开发的人工智能聊天机器人程序,于2022年11月推出。据瑞银集团,ChatGPT推出仅两个月后,即2023年1月末的月活用户已经突破了1亿,成为史上用户增长速度最快的消费级应用程序。作为比较,TikTok达到1亿用户用了9个月,Instagram花了2年半的时间。 图:应用程序达到1亿用户量所需时间(月数) ChatGPT是一个虚拟助手,可以帮助用户解决问题、提供信息和建议。通过人工智能技术实现自然语言处理和自然语言理解,ChatGPT能够快速准确地回答用户提出的问题。可以通过文本或语音与用户交互,并通过不断学习和改进来提高能力和服务质量。现有使用案例中,用户可通过ChapGPT实现代码生成、修改程序bug、写诗等。 图:根据要求连续改进回答图:提升编程效率图:原创七言绝句 ChatGPT在智能化方面有跨越式进步,在多轮对话能力以及对话交互友好性上展示了惊艳效果。能够较准确理解问题,把生成的答案用易于人类理解的语言组织起来,生成类似人类语言的文本答案。同时,ChatGPT的模型优化目标为有用、可信、无害,在道德上友善,符合大众的道德观。 智能化 图:ChatGPT特点 人性化 支持意图识别和逻辑推理 主动承认错误,对用户指出的错误进行答案优化。 支持多轮次连续对话 质疑不正确的问题。 支持在一个prompt(提示)中同时有多个问题 承认自身的无知,承认对专业技术的不了解 支持上下文理解,以回答某些假设性的问题 道德友善,驳回潜在的种族主义或性别歧视提示 应用层 以ChatGPT为代表的AIGC应用在2022年的爆发,主要是得益于深度学习模型方面的技术创新。不断创新的生成算法、预训练模型、多模态等技术融合带来了AIGC(AIGeneratedContent)技术变 革,拥有通用性、基础性多模态、参数多、训练数据量大、生成内容高质稳定等特征的AIGC模型成为了自动化内容生产的“工厂”和“流水线”。 基础层是核心,GPT-3模型起关键支撑作用。GPT-3一个大规模的通用语言模型,已经在来自各种来源的大量文本数据上进行了训练。能够产生类似人类的反应,并可用于广泛的语言相关任务。 ChatGPT基于目前较新的GPT-3.5模型版本进行研发,专注于自然语言对话,接受了更广泛的语言模式和风格培训,因此,能较GPT-3产生更多样化和微妙的响应。 图:AIGC产业架构 基础层 中间层 预训练模型重直化、场景化、个性化模型 图像、语音和文字生成等 各种各样的AIGC的应用 以预训练大规模模型为基础搭建的AIGC技术基础设施层。 在基础层上生成场景化、定制化、个性化的小模型,实现不同行业、垂直领域的流水线式部署 面向C端用户的文字、图片、音视频等内容生成服务 OpenAI在2023年2月1日推出订阅服务,名为ChatGPTPlus,每月收费20美元。订阅用户将获得全天候服务,并在高峰时段享有优先访问。用户还可提前使用新功能及改进功能,应用的响应时间也更快。OpenAI预计2023年ChatGPT将实现2亿美元的收入。 微软计划将旗下所有产品全线整合ChatGPT。除了搜索引擎必应、办公软件Office外,微软还将在云计算平台Azure中整合ChatGPT,Azure的 OpenAI服务将允许开发者访问AI模型。 图:ChatGPT商业模式 基础层 中间层 应用层 GPT-3大规模语言模型 ChatGPT小模型、Azure 聊天机器人APP、 必应、Office 产品/服务 对模型的API调用进行收费,属于toB端软件即服务(SaaS) 允许开发者访问AI模型,属于toB端模型即服务 (MaaS) C端用户通过订阅模式获得更加智能化的服务 收费模式 2023年2月13日,北京市经济和信息化局发布《2022年北京人工智能产业发展白皮书》,提出全面夯实人工智能产业发展底座。支持头部企业打造对标ChatGPT的大模型,着力构建开源框架和通用大模型的应用生态。加强人工智能算力基础设施布局。加速人工智能基础数据供给。 国内科技企业纷纷对ChatGPT发表看法,百度、华为、腾讯、阿里巴巴等大多数头部企业表示,已经拥有、在研对标ChatGPT相关的模型及产品。 图:国内科技企业现有技术储备 将在2023年3月上 线百度版ChatGPT: 「文心一言」 公司2020年在大模型领域开始有布局,2021年基于昇腾AI与鹏城实验室联合发布了鹏程 相关技术储备包括 「混元」系列AI大模型、智能创作助手文涌(Effidit)等 提出业界首个通用的统一大模型(模态、任务和架构)M6-OFA,可能将AI大模型技术与钉钉生产力工具深度结合 将推出「产业版」ChatGPT——ChatJD,ChatJD将以「125」计划作为落地应用路线图,包含一个平台、两个领域、五个应用。 科大讯飞 龙芯中科 国盾量子 … 浪潮信息 中国联通 … 中国移动 中国电信 润泽科技 神州数码 算法、算力和数据是人工智能发展的三驾马车,也是推动人工智能发展的重要基础。 算法层面,超大规模预训练模型推动AI效果不断提升。当前,预训练模型参数数量、训练数据规模按照300倍/年的趋势增长,继续通过增大模型 和增加训练数据仍是短期内演进方向。 算力层面,单点算力持续提升,算力定制化、多元化成为重要发展趋势。计算技术围绕数据处理、数据存储、数据交互三大能力要素演进升级,类脑芯片、量子计算等方向持续探索。 数据层面,以深度学习为代表的人工智能技术需要大量的标注数据,这也催生了专门的技术和服务,随着面向问题的不断具体化和深入,数据服务走向精细化和定制化。 算法 算力 数据 OpenAI 谷歌 Meta 英伟达 景嘉微 寒武纪 光环新网 数据港 海量数据 百度 阿里 腾讯 地平线 恒烁股份 东芯股份 光迅科技 中际旭创 中科曙光 华为 商汤 … 拓尔思 海光信息 中国长城 一、现象级AI应用狂飙破壁,ChatGPT引发范式革命 二、巨量数据规模引发质变,AI模型算力紧缺 三、AIGC跨越数据鸿沟,合成数据与日精进 四、风险提示 Transformer基础算法模型的出现,为NLP和CV训练领域提供了强大支持。OpenAI的GPT预训练模型,以及百度的ERNIE模型,都是基于Transformer模型建立。 Al预训练模型,又称为大模型、基础模型(foundationmodel),即基于大量数据(通常使用大规模自我监督学习)训练的、拥有巨量参数的模型, 能适应广泛的下游任务。预训练模型能够满足真实内容消费场景中的灵活多变、高精度、高质量等需求。 随着2018年谷歌发布基于Transformer机器学习方法的自然语言处理预训练模型BERT,人工智能领域进入了大炼模型参数的预训练模型时代。 预训练模型成为AI技术发展的范式变革,许多跨领域的AI系统将直接建立在预训练模型上。 VAE、生成对抗网络GAN 2014年 基础的生成算法模型不断突破创新 预训练模型引发AIGC技术能力质变 谷歌:LAMDA、BERT OpenAI:GPT系列 百度:ERNIE系列 Transformer模型 2017年 自然语言处理(NLP)预训练模型 基于流生成的模型、扩散模型 2015年 神经辐射场NeRF 2020年 微软:Florence 计算机视觉(CV)预训练模型 CLIP模型 2021年 DeepMind:Gato OpenAI:CLIP&DALL-E 多模态预训练模型 当前,预训练模型参数数量、训练数据规模按照300倍/年的趋势增长,继续通过增大模型和增加训练数据仍是短期内演进方向。未来使用更多种图像编码、更多种语言、以及更多类型数据的预训练模型将会涌现。 当前算力距离AI应用存巨大鸿沟。根据OpenAI数据,模型计算量增长速度远超人工智能硬件算力增长速度,存在万倍差距。英特尔表示,目前 的计算、存储和网络基础设施远不足以实现元宇宙愿景,而要想实现真正的元宇宙,目前的计算能力需量要再提高1000倍。 图:大模型参数量和训练数据规模增长迅速 据IDC预计,2021-2026年期间,中国智能算力规模年复合增长率达52.3%。2022年智能算力规模将达到268.0EFLOPS,预计到2026年智能算力规模将进入每秒十万亿亿次浮点计算(ZFLOPS)级别,达到1,271.4EFLOPS。 运算数据规模的增长,带动了对AI训练芯片单点算力提升的需求,并对数据传输速度提出了更高的要求。 图:2012至2019年算力需求增长近30万倍 图:中国智能算力规模百亿亿次浮点运算/秒(EFLOPS) IDC预计,到2025年人工智能芯片市场规模将达726亿美元。IDC全球范围调研显示,人工智能芯片搭载率将持续增高。目前每台人工智能服务器上普遍多配置2个GPU,未来18个月,GPU、ASIC和FPGA的搭载率均会上升。通用性递减,专用性增强,为AI芯片的主要发展方向。 2021年中国以GPU为主实现数据中心计算加速,GPU在算力芯片的市场占有率接近90%。ASIC,FPGA,NPU等非GPU芯