人工智能全面发展,算力层、模型层、应用层快速迭代。全球各大科技巨头纷纷布局AI大模型,模型迭代迅速、算力建设和应用落地也在加码。 展望将来,我们对算力层、模型层、应用层提出4个猜想。我们猜想,AI模型能力将成为基础设施,模型和MaaS层或不存在绝对护城河。而产业链两头的算力层和应用层有望迎来爆发和变革,价值链或呈“U型分布”。 猜想1:算力竞赛加码,格局尚难稳定。大量AI模型的涌现带动了上游的算力需求。信通院报告预测,2030年全球算力规模有望达56ZFLOPS,2022-2030年复合增长率达65%。以AI芯片为例,英伟达率先卡位软硬件,并积极绑定下游需求;AMD、Google、Intel等纷纷挑战其软硬件产品性能及生态,跑步争夺市场地位。 猜想2:若模型同质化,则MaaS不稀缺。面对“百模大战”,我们倾向于认为,多数模型本身可能并不存在绝对的护城河。而基于这些模型的MaaS平台,如AWS、Salesforce、火山方舟等,也在积极采用多模型的开放合作模式。我们倾向于认为,MaaS作为基础设施、未来并不稀缺。 MaaS的竞争将来或成为对算力资源、运营精细度、价格等因素的竞争。 猜想3:B端应用:SaaS服务迎来AI魔法加持。AI有望为各类SaaS公司赋予全新的能力、助力SaaS赛道迎来“奇点时刻”。1)办公赛道,以微软为例,微软推出Microsoft 365 Copilot,嵌入Office等以及商务沟通环节,优化办公软件功能,提高办公效率,提升用户体验。2)CRM赛道,以Salesforce为例,AI有望在销售服务、数据分析、营销商务、内部通讯、开发代码等方面赋能,实现效率和体验的提升。3)设计赛道,以Adobe为例,AI能力嵌入后有望支持内容创作者使用文字生成图像、音频、插图、视频和3D图像等,大幅降低设计门槛、提升设计效率。 猜想4:C端应用:搜索引擎等中心化入口或被削弱,终端场景望承接新流量入口。我们认为,生成式AI在应用端的持续迭代,将对线上线下业态的流量入口产生颠覆型重塑。其中,搜索引擎这一中心化入口或被削弱。 而各类终端场景——文旅、餐饮、零售、金融、教育、车载座舱等平台——则有望受益于大语言和多模态模型对内容运营能力的加持,从而将各类终端场景的“内容+服务”一站式打通,实现经营闭环。 投资建议:AI产业价值链或呈“U型分布”,算力端及应用端迎来奇点。 1)算力层,建议关注英伟达(NVDA.O)、AMD(AMD.O)等,以及国内对标企业。 2)模型及MaaS层,建议关注微软(MSFT.O)、谷歌(GOOGL.O)、META(META.O)及国内对标企业。 3)应用层:建议关注to B端Oracle(ORCL.N)、Adobe(ADBE.O)、Salesforce(CRM.N)等,以及to C端Unity(U.N)、Booking(BKNG.O)、Tesla(TSLA.O)及国内对标企业。 风险提示:算力需求不及预期,大模型迭代不及预期,B端及C端应用落地不及预期,行业政策监管超预期。 全球各大科技巨头纷纷布局AI大模型,且模型迭代迅速。此外,算力建设和应用落地也在加码。 展望将来,我们对AI算力层、模型层、应用层提出4个猜想,试图对后续的赛道动态窥得些许线索。 一、算力的竞赛 1.1猜想1:算力竞赛加码,格局尚难稳定 1.1.1需求端:AI拉动成长,算力需求空间广阔 2022到2023,全球AI布局加速,大量人工智能模型涌现。2022年11月,OpenAI发布聊天机器人ChatGPT,将生成式AI的燎原战火带入公众视野。2023年2月,Meta AI在其官网公开发布了LLaMA大型语言模型。2023年5月,Google发布新一代大语言模型PaLM 2。与此同时,中国科技企业也按下了AI领域的快进键。百度于2023年3月发布文心大模型。此后,商汤、阿里云、科大讯飞、华为等陆续发布各自的大模型。 图表1:国内外人工智能模型快速迭代 大量人工智能模型的推出和迭代大幅带动了上游的算力需求。一方面,全球人工智能模型数量的增长对上游算力需求的拉动十分显著。另一方面,单个模型的持续迭代过程中,其算力需求较以往亦有大幅增长。 以GPT系列预训练过程为例,历代GPT参数量呈现指数级增长,未来其算力需求有望大幅增长。训练一次1750亿参数的GPT-3模型需要的算力约为3640 PFlop/s-day(即假如每秒计算一千万亿次,需要计算3640天),约合3.14E23 FLOPs。但这算力消耗速度很快被新一代模型刷新。GPT-4不仅支持文本输入,还支持图像输入,文字输入限制提升至2.5万单词,所需计算规模大幅提升。 图表2:历代GPT系列的参数量和预训练数据量 算力需求提升,意味着芯片、服务器、云厂商和运营商等各个环节的需求增长。根据中国信通院《中国算力发展指数白皮书》测算,2021年全球计算设备算力规模超过615EFLOPS(1个EFLOPS代表10^18FLOPS),同比增速高达44%左右,而后续几年则将迎来算力引爆时代。信通院报告预测,2030年,全球算力规模有望达56ZFLOPS,2022-2030年复合增长率达65%。这对于AI芯片需求的拉动将会非常显著: 一方面,从服务器总量上来看,算力需求增长将带动GPU服务器出货量增速高升,从而带动训练芯片的需求; 另一方面,从服务器结构上来看,相比较普通GPU服务器(一般配备单卡或双卡),AI服务器平均每单位出货所需的GPU数量至少翻倍(一般配置4块以上GPU卡)。 因此,我们认为AI芯片环节面临巨大的增长机会,因此我们将重点以AI芯片为例分析算力板块的机会。 1.1.2供给端:算力竞赛激烈角逐 从AI芯片的市场格局看: GPU核心供应商包括了NVIDIA、AMD等,NVIDIA目前占据大部分市场。 FPGA供应商主要包括Intel、赛灵思(AMD)等,其中赛灵思于2022年被AMD收购。 ASIC市场较为分散,比较知名的供应商例如设计生产TPU的谷歌。 随着AI技术的迭代、算力需求的增长,各家芯片企业亦展开了百舸争流的竞争态势。 (1)英伟达:率先卡位,软硬结合构筑护城河 在GPU市场,英伟达凭借以H100为首的高性能GPU,率先卡位。TrendForce指出,目前AI服务器市场上,英伟达的GPU作为主流芯片,市场份额约占60-70%,预计今年搭载英伟达A100和H100的AI服务器的出货量年增长率将超过50%。 我们认为,英伟达的龙头优势来自其1)硬件性能、2)软件生态、3)投资及合作版图。 图表3:英伟达部分GPU产品情况梳理 1)当前英伟达的H100和A100等产品在性能表现上全球领先。 根据6月27日MLCommons公布的最新的MLPerf测试结果,由3584个H100 GPU组成的集群在基于GPT-3的大规模训练基准测试中,不到11分钟即可完成训练。 图表4:英伟达H100大幅降低了模型训练时间 2)硬件性能之外,CUDA软件生态为英伟达搭起护城河。 英伟达的核心优势并不仅仅在于GPU性能,更重要的是与GPU相辅相成的CUDA生态。 CUDA生态使得开发者可以使用C、C++、Fortran、OpenCL、DirectCompute和其他语言编写的程序在NVIDIA GPU进行并行计算,并且仅适用于英伟达的硬件产品,实现软硬件的绑定。这种软硬件的绑定,提高了客户切换软硬件的门槛,从而形成极强的客户粘性。目前主流的深度学习框架基本都使用CUDA,为英伟达建立了非常强的竞争优势。 3)英伟达正通过快速投资AI模型企业,进一步扩张AI版图、绑定下游潜在需求。 2023年6月9日,主要做类ChatGPT聊天机器人的加拿大AI企业Cohere宣布完成2.7亿美元C轮融资,估值约22亿美元,英伟达、甲骨文、Salesforce等均参与了该轮融资。 6月29日,美国AI聊天机器人创业企业Inflection AI、AI文生视频创业企业Runway宣布完成新融资,英伟达亦在这两笔融资的投资方之列。 图表5:英伟达近期投资AI公司情况 (2)AMD:GPU加速追赶英伟达,并快速布局FPGA 作为第二大GPU厂商,AMD亦加速提升GPU产品性能,缩小与龙头之间的差距。6月13日,AMD对标英伟达的H100,推出专门面向生成式AI的MI300X。AMD表示,MI300X的高带宽内存(HBM)密度,最高可达英伟达H100的2.4倍,高带宽内存带宽最高可达英伟达H100的1.6倍。相较其他竞品,MI300X在运行包括GPT-3、PaLM2等大模型时,所需要的GPU数量更少。总体从硬件来看,AMD推出的MI300X产品在某些性能指标上已经可以和英伟达的产品相媲美。 但软件方面,AMD与英伟达仍存在一定差距。为了兼容英伟达的CUDA生态,AMD推出了ROCm生态圈,并实现通过HIP去兼容CUDA,这在一定程度上缓解了AMD在GPU运算环境上落后于NVIDIA的局面。但目前,ROCm无法真正替代CUDA产生软件生态上的壁垒。其软件生态的构建、完善及推广应用,仍然需要一定的时间。 图表6:英伟达和AMD软件生态对比 此外,FPGA产品方面,AMD收购赛灵思后,继续锤炼产品。AMD在2020年开始准备布局FPGA,在2022年以500亿美元的价格收购了全球最大的FPGA厂商赛灵思,跃升为FPGA龙头。2023年6月27日,AMD宣布推出AMD Versal Premium VP1902自适应SoC,容量和连接性大幅提升。 (3)谷歌:TPU不断迭代,TPUv4性能优秀 TPU持续迭代,性能大幅提升。谷歌自2015年发布TPU v1以来,不断迭代升级,在TPU v2时已经可以支持训练。其在2021年Q2发布的TPU v4通过光互连实现可重配置和高可拓展性,采用 7nm 工艺,峰值算力达275TFLOPS,性能大幅提升。根据谷歌发布的论文《TPU v4: An Optically ReconfigurableSupercomputer for Machine Learning with Hardware Support for Embeddings》,使用TPU v4芯片进行嵌入训练时,相比于使用TPU v3芯片,可以获得2.7倍的性能提升。 图表7:历代TPU参数和性能 TPUv4性能不逊于英伟达A100。与英伟达的A100相比,TPUv4和英伟达A100的MLPerf结果都可扩展到4000多片芯片的规模,TPUv4与A100相比亦具有一定的性能优势: MLPerf基准测试性能:芯片数量规模相似的情况下,对于自然语言处理BERT模型,TPUv4的速度是A100的1.15倍;对于图像分类模型ResNet,TPUv4的速度为A100的1.67倍。 功耗方面,TPUv4运行的功率更低。从MLPerf基准测试时测量的功率来看,A100平均功率是TPUv4的1.3–1.9倍。 (4)英特尔:提升FPGA推新频率,Gaudi2性能强 英特尔今年预计提升FPGA推新频率。英特尔早在2015年就167亿美元的价格收购了当时全球第二FPGA厂商的Altera,并将其并入可编程解决方案事业部。由于今年以来,下游需求旺盛,英特尔加快了产品推新速度,2023年计划推出15款新FPGA。我们预计,未来AMD和英特尔在FPGA领域的军备竞赛将再次升级。 ASIC方面,Gaudi2性能在某些方面亦超越了英伟达的A100。英特尔2022年发布AI ASIC芯片Gaudi 2,性能表现出色。根据2023年6月27日MLCommons公布的最新MLPerf测试结果,英特尔的Gaudi2(ASIC)在Bertx8、Bertx64、ResNetx8、Unetx8等4个模型训练中的性能表现超过了英伟达的A100(GPU)。7月12日,浪潮信息联合英特尔发布了新一代AI服务器,其支持8颗OAM高速互联的Gaudi2