您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华西证券]:从算力、算法、数据和应用看AIGC:奇点将至,探他山之石 - 发现报告
当前位置:首页/行业研究/报告详情/

从算力、算法、数据和应用看AIGC:奇点将至,探他山之石

信息技术2023-03-19朱芸华西证券温***
从算力、算法、数据和应用看AIGC:奇点将至,探他山之石

行业研究报告奇点将至,探他山之石——从算力、算法、数据和应用看AIGC请仔细阅读在本报告尾部的重要法律声明华西海外团队2023年3月19日朱芸执业证书编号:S1120522040001联系人:李佳妮/侯钧皓/吴嘉悦 目录101 核心观点03 数据:大模型训练的基础资源02 生成式AI:ChatGPT引燃市场,数字经济未来已至05 算法:大模型算法助力AIGC突破04 算力:大模型发展带来高算力需求07 生成式AI海外受益标的08 风险提示06 产业应用:各领域应用加速落地,商业化前景广阔 •AIGC未来已来,超预期持续出现从2018到2023年,四代GPT模型高速进步,从简单的问答、阅读理解、文本总结,到在众多测试中获得“人类级别表现”评级,AI迭代进化的速度越来越快。可以预期,AI达到人类智能水平、乃至超越人类智能水平的时代会以超预期的形态和速度出现。•数据、算力、算法为AIGC核心要素,海内外厂商各占鳌头数据,通过算力,最后产生了算法或者应用。数据作为新兴生产要素,数据的拥有者、加工者是产业发展的基础。算力作为基础设施,是AIGC资本开支的主要受益者,核心参与者英伟达、AMD竞争优势显著。AIGC的技术壁垒主要体现在算法上,当前通用型AI由GPT领跑,而在细分领域上,行业内的主要参与者包括谷歌、Meta、Anthropic、HuggingFace和百度等公司。随着细分龙头竞相研发创新算法和优化现有技术、以及模型迭代下对数据、算力的需求高速膨胀,AIGC行业技术壁垒将不断提高,现有优秀参与者护城河极深。•AIGC市场潜力巨大,应用领域迎来生产力解放根据Tractica的预测数据显示,全球AI软件市场规模将在2025年达到1260亿美元,2021年到2025年年复合增长率为41.02%。一级市场的火热也反映了AIGC发展的确定性趋势。在大模型的快速迭代推动下,搜索引擎、办公软件、汽车、媒体、AI绘画设计、AI广告营销、智能工作助理等应用率先落地的行业将具备较强商业化机会。报告亮点:作为海外团队,我们期待该篇报告能够尽可能呈现海外市场当前在生成式AI(AIGC)领域的布局和进展,从算力、算法、数据和应用入手,看清趋势,寻找差异。一是尽可能减少我们对海外认知的信息差,更重要的是,他山之石,可以攻玉,海外映射是国内可以持续关注的重点。核心观点核心要点: 风险提示:•技术落地商业化不及预期•人工智能在部分领域应用的监管风险•外部环境导致芯片、软件等供应限制投资建议:我们认为生成式AI模型不断加速迭代,将快速推动生成式AI技术的商业化推广应用的进程,带动产业三大要素—数据、算力、算法和应用的高速发展。后续建议密切关注生成式AI产业链上四条投资主线:(1)数据是大模型训练的基础资源,随着大模型项目迭代发展,对训练用数据集需求将不断上升,受益标的为数据提供商龙头Appen(APX.AX);(2)大模型发展带来高算力需求,人工智能芯片市场巨大,受益标的为英伟达(NVDA.O)、AMD(AMD.O);(3)各大厂商布局大模型算法项目,龙头科技企业具有技术优势,受益标的为微软(MSFT.O)、谷歌(GOOG.O)、Meta(META.O)、百度(BIDU.O/9888.HK);(4)生成式AI商业化应用落地领先领域,受益标的为自动驾驶技术公司Mobileye(MBLY.O)、数字媒体Buzzfeed(BZFD.O)、办公软件微软(MSFT.O)。核心观点 目录401 核心观点03 数据:大模型训练的基础资源02 生成式AI:ChatGPT引燃市场,数字经济未来已至05 算法:大模型算法助力AIGC突破04 算力:大模型发展带来高算力需求07 生成式AI海外受益标的08 风险提示06 产业应用:各领域应用加速落地,商业化前景广阔 AIGC(AI Generated Content)即生成式AI,多领域应用逐渐成熟。AIGC涉及无监督和半监督学习算法,截至目前其发展历程主要分为三个阶段:•统计机器学习方法阶段(2010年前):首先对数据进行手工标注,然后构建其重要特征,最后构建概率模型并进行参数优化,从而将概率最大的输出作为结果;•基于深度学习的神经网络模型(2010年-2017年):深度学习算法被引入,本质上是通过大量数据训练神经网络,主要表现形式为:CNN(卷积神经网络)、RNN(循环神经网络)等。相比统计学习方法,省去了复杂且手工的特征构建;•基于Transformer结构的预训练模型(2017年至今):利用大量无标注数据进行自监督学习,然后再使用少量的标注数据对下游任务进行微调(即迁移学习)。•在应用方面,按场景分类AIGC已经较为成熟地应用于文本和代码撰写、图像识别和生成,以GPT为首的AIGC模型也正在探索消费级AI技术的变现方式。展望未来,AIGC不仅会在现有应用领域持续进步,也将逐步拓展到视频和游戏领域,AIGC将会在更多的领域得到广泛应用,为各个行业和领域的发展和进步提供更多可能性。表1:AI应用发展进程预测2020前20202022预计2025预计2030预计2050文本垃圾邮件检测翻译基础问答基础文案撰写生成草案撰写更长文章完善文稿对科学论文等进行垂直微调文章终稿超过人类平均水平文章终稿超过专业作者水平代码单行自动完成多行代码生产更长代码更高准确度更多语言深度提高文本到产品(草稿)文本到产品(终稿),超过大部分开发者图像艺术Logo摄影产品设计、建筑等模型产品设计、建筑等终稿终稿超过大部分专业艺术家、设计师、摄影师水平视频/3D/游戏视频和3D制作的初稿完善版本AI创作平台游戏和电影实现个性化定制开始尝试基本完成黄金时期资料来源:红杉资本,华西证券研究所生成式AI:自然语言处理演变十余年,迎来变现阶段 OpenAI创立于2015年12月,发布ChatGPT引燃AI行业热度。GPT系列是OpenAI打造的自然语言处理模型,采用以Transformer结构为核心的模型,其最大特点是使用了大量的未标注的语料进行无监督的预训练,然后在各种有监督的任务上进行微调。OpenAI于2022年11月先后推出了GPT-3.5和ChatGPT,GPT-3.5使用了更新的语料进行预训练,而ChatGPT是基于GPT-3.5的对话机器人,能够根据用户的输入生成流畅、有逻辑的回答,以及完成撰写论文报告、翻译文字、编写代码等文本生成任务,并且能根据聊天的上下文进行互动。ChatGPT发布后爆火,仅用5天时间用户量便破百万,推出2个月后用户量破亿,成为史上用户增长速度最快的消费级应用程序。3月14日,OpenAI进一步推出GPT-4.0,相比当前ChatGPT使用的GPT-3.5,增加了输入图像的功能;扩写能力增强,能处理超过25000个单词的文本;更具创造力,并且能够处理更细微的指令。GPT模型迭代的参数量及训练量均呈指数级增长,使得AI从实验技术成长为稳定生产力。图1:ChatGPT仅发布5天便达到百万用户资料来源:Statista,TRTWorld, 华西证券研究所0200400600800100012001400NetflixAirbnbTwitterFoursquareFacebookSpotifyInstagramChatGPT用户量达到100万时间(天)生成式AI:GPT模型迭代四大版本,进化速度不断提升 GPT模型稳定进步,AI已是成熟生产工具。从GPT-1到最新发布的GPT-4模型,其应用已经不仅局限于问答、阅读理解等文本处理,虽然目前GPT-4在现实场景中的能力可能不如人类,但在各种专业和学术考试上表现出明显超越人类水平的能力,GPT-4在模拟律师考试中,分数排在前10%;相比之下,GPT-3.5的得分则在倒数10%附近。随着算力、算法、数据量的演进,行业内不断出现高质量的AI产品,微软NewBing、AI绘画、智能驾驶等等,体现出AI未来在多个领域的应用潜力。ChatGPT版Office、百度“文心一言”两大产品正式推出,或将AI的生产力推向新的高度。图2:GPT 4.0 数学能力大幅提升资料来源:量子位,OpenAI,华西证券研究所生成式AI:AI产品全面开花,生产力将达新高度 AI行业星辰大海,数字经济未来已至。从2018到2023年,四代GPT模型高速进步,从简单的问答、阅读理解、文本总结,到在众多测试中获得“人类级别表现”评级,此外近期AI衍生产品的层出不穷,显现出背后AI行业的星辰大海。2020年,马斯克预言五年内人工智能将比人类更聪明,当前AI迭代进化的速度越来越快,虽然GPT还未通过图灵测试,距离真正的“智能”还有距离,但我们认为,AI达到人类水平、乃至超越人类的时代即将到来。表2:历代GPT学习目标及表现情况资料来源:OpenAI,Medium,中新经纬,华西证券研究所模型发布时间参数量预训练数据量学习目标模型表现GPT-12018年6月1.17亿约5GB无监督语言模型(Pre-training)有监督fine-tune在9/12任务中获得“先进”表现:问答、阅读理解、文本总结GPT-22019年2月15亿40GB多任务零次学习Zero Short Task Transfer在7/8任务中超过“先进”表现随着模型参数变多,模型的表现呈现log-linear上升,没有到达瓶颈GPT-32020年5月1,750亿45TB语境学习小样本学习在小样本学习、单样本学习、零样本学习中表现突出GPT-42023年3月待公布基于规则的奖励模型(RBRM)在GLUE, SuperGLUE, SQuAD等测试中获得“人类级别表现”拥有图像处理能力生成式AI:AI进化加速,数字经济未来已至 数据,通过算力,最后产生了算法或者应用。AIGC是人工智能、大数据、云计算、5G等多个技术领域的整合,是一种跨领域的合作发展模式。在AIGC行业中,算力、算法、数据是三个核心概念,它们共同构成了这个领域的基础设施。未来随着技术的进步和应用场景的不断拓展,这三个概念将继续发挥重要作用,推动整个行业的创新和发展。•算力(ComputingPower):算力是指计算设备执行算法、处理数据的能力,包括CPU、GPU、FPGA、ASIC等。云计算技术和5G通信技术的发展使得算力的分布和调度更加灵活,有助于满足各种场景下对高性能计算的需求。•算法(Algorithm):算法是一系列解决问题、实现特定功能的有序指令和步骤。在AIGC行业中,算法是模型的基础,用于实现数据分析、人工智能模型训练等功能。•数据(Data):在AIGC行业中,数据是支撑决策和优化的基础,是算法发挥作用的前提。大数据技术可以对海量数据进行有效处理、分析和存储,而人工智能技术可以通过对数据进一步学习,实现各种智能化应用,如图像识别、自然语言处理等。表3:AIGC行业三大核心概念资料来源:OpenAI,华西证券研究所核心概念描述应用及关联技术算力(Computing Power)衡量计算设备执行算法、处理数据的能力,关系到系统的运行效率和任务完成速度。数据中心、分布式计算、云计算、边缘计算、高性能计算(HPC)算法(Algorithm)解决问题、实现特定功能的有序指令和步骤,是计算机程序的基础,用于实现各种功能。机器学习(ML)、深度学习(DL)、自然语言处理(NLP)、计算机视觉(CV)、推荐系统等数据(Data)对现实世界的描述和反映,以数字、文字、图像等形式表现,是支撑决策和优化的基础。数据挖掘、数据分析、数据仓库、数据可视化、数据安全、隐私保护等生成式AI:算力、算法、数据三位一体 目录1001 核心观点03 数据:大模型训练的基础资源02 生成式AI:ChatGPT引燃市场,数字经济未来已至05 算法:大模型算法助力AIGC突破04 算力:大模型发展带来高算力需求07 生成式AI海外受益标的08 风险提示06 产业应用:各领域应用加速落地,商业化前景广阔 数据是训练大模型的基础资源,以GPT系列模型为例,对比三代模型间使用的