美国倒逼国产算力替代加速,国产厂商积极抢占国内份额。英伟达中国市场特供版芯片H20性能进一步阉割,国产AI发展受阻,商用互联网企业加速拥抱国产芯片。目前,包括百度、科大讯飞、360等公司表示已采购华为昇腾910芯片,此外寒武纪思元590、海光深算3号等产品也处于积极推进。此前英伟达等海外厂商凭借强大研发实力以及生态护城河壁垒,国产厂商难以望其项背,但在出口管制新规下,H20为国内能够采购的最高端芯片,难以迭代,国产芯片目前虽在集群性能上较海外仍有差距,但未来持续更新,单卡算力逐步提升,将有望超越英伟达H20性能效果,完善国产算力基础建设。 受益垂类应用逐步成熟以及开源模型降低AI门槛影响,推理端需求快速提升,国产厂商加速追赶。目前从全球看,海外Llama以及国内如书生·浦语InternLM等开源模型性能优异对标GPT3.5,开源且支持商用,下游企业可调用修改,能够满足中小企业、科研机构和个人开发者的应用和迭代需求,有效降低AI门槛,提高AI整体水平。此外叠加Sora等垂类模型成熟,应用端需求将快速提升,带动推理算力增长。在推理卡方面,国产与海外性能差距较小,有望较训练卡更快实现国产替代。 算力是AI的底层土壤,仍是AI最确定方向。我国算力需求大、国产化率极低,替代空间广阔。我国目前超过30个城市正在建设或提出建设智算中心,根据工信部发言,2024-2025年我国算力规模规划增长将超100EFLOPS,对应AI算力芯片市场规模超2600亿元,其中智能算力将成为主要增量部分。赛道空间巨大但国产化率极低,目前GPU国产化率不足10%,互联网等商用AI芯片几乎完全依赖进口。面对美国出口管制进一步升级,国产芯片替代的紧迫性提升,国产算力厂商迎历史性机遇,有望加速进入发展新篇章。 随NV禁令升级,国产替代进程大大加速。我们认为2024年将是国产算力芯片业绩释放元年,市场需求大+国产替代产品导入将推动国内公司业绩快速释放,持续看好国产算力0-1突破带动产业链历史机遇: 1)海外算力产业链:沪电股份、工业富联、通富微电、香农芯创、赛腾股份等; 2)国产算力:寒武纪、海光信息、高新发展等。 风险提示:行业需求不及预期的风险、下游技术迭代不及预期、存在行业技术迭代速度不及预期从而对需求造成影响的风险。 一、大模型发展带动硬件升级,需求与政策利好国产替代 1.1、国产算力规模大、国产化率低,空间广阔 算力是未来经济发展基石。算力对国家经济发展影响深远,据IDC《2021-2022全球计算力指数评估报告》数据,平均算力每提高1点,数字经济和GDP将分别增长3.5‰和1.8‰。算力作为数字经济时代的关键生产力要素,已经成为推动数字经济发展的核心支撑力和驱动力。当一个国家的计算力指数达到40分/60分以上时,对GDP增长的推动力将提高1.5/3倍。从下游细分来看,人工智能计算和边缘计算成为市场增长重要力量,将引领算力进入新一轮快速增长通道。 图表1:算力与经济增长模型 我国算力市场空间大,国产化率有望快速提升。政策面,我国陆续出台《全国一体化大数据中心协同创新体系算力枢纽实施方案》、《算力基础设施高质量发展行动计划》、《“十四五”数字经济发展规划》等一系列文件推动算力基础设施建设。此外,国家推动多地智算中心建设,由东向西逐步扩展。当前我国超过30个城市正在建设或提出建设智算中心,此外据科技部出台政策要求,“混合部署的公共算力平台中,自主研发芯片所提供的算力标称值占比不低于60%,并优先使用国产开发框架,使用率不低于60%”,国产AI芯片渗透率有望快速提升。据IDC数据我国智能算力未来将快速增长,2021年到2026年期间中国智能算力规模年复合增长率达52.3%。 图表2:2022-2023我国部分智算中心项目情况 FLOPS(Floating Point Operations Per Second)即每秒浮点运算次数,代表浮点运算速度。浮点计数是利用浮动小数点的方式,使用不同长度的二进制来表示一个数字,一般采用4个字节即32位二进制来表达一个数字,因此FP32/FP64/FP16分别代表单精度、双精度、半精度。 FP64常用于对精度要求高的科学计算或超算,AI深度学习主要用FP32或FP16。 图3:不同应用下的常见数据格式 图4:不同数据格式的构成与应用 TF32是英伟达提出代替FP32的单精度浮点格式。TF32(TensorFlow-32)是英伟达A100安培架构GPU中的新数据类型,采用了与半精度(FP16)数学相同的10位尾数位精度,这样的精度水平远高于AI工作负载的精度要求。同时,TF32采用与FP32相同的8位指数位,能够支持与其相同的数字范围,在性能、范围和精度上实现了平衡。借助于NVIDIA函示库,用户无需修改代码,即可使其应用程式充分发挥TF32的各种优势。TF32 Tensor Core根据FP32的输入进行计算,并生成FP32格式的结果。通过降低精度让TF32新单精度数据类型代替了FP32原有的单精度数据类型,从而减少了数据所占空间大小在同样的硬件条件下可以更多更快地运行。 图表5:不同格式浮点表示 2024-2025年我国算力规模规划增长将超100EFLOPS,对应AI算力芯片市场规模超2600亿元。2023年10月,工业和信息化部、中央网信办、教育部、国家卫生健康委、中国人民银行、国务院国资委等六部门联合印发《算力基础设施高质量发展行动计划》,从计算力、运载力、存储力以及应用赋能四个方面提出了到2025年发展量化指标,提出“到2025年,中国算力规模超过300EFLOPS,智能算力占比达到35%。”根据23年8月,工业和信息化部部长金壮龙表示全国算力总规模达到197EFLOPS,未来两年我国算力规模增长将超100EFLOPS,假设其中智能算力占比达50%,对应FP32算力约等于256万张A100,市场规模将超2600亿元。 图表6:国内AI芯片市场规模测算 我国AI芯片市场规模约占全球市场三分之一。我国半导体产业呈现市场规模大,国产化率低的特点,其中高端数字芯片最为典型。从整体来看,根据灼识咨询统计,中国AI芯片市场规模约占全球AI市场规模30%~40%;英伟达是全球GPU龙头厂商,以其财报为例,我国是英伟达主要收入来源地。中国大陆在英伟达2023财年营业收入达到58亿美元,占总收入的21.45%,而在2003财年中国大陆营业收入只有2.4亿美元,占总收入的比例仅为13%。我们认为随着中国人工智能产业的持续发展和应用场景的不断扩大,未来国内AI芯片市场将持续增长。 图表7:英伟达2023财年分地区收入占比 GPU市场马太效应显著,目前我国国产化率仍不足10%。由于中国芯片产业起步较晚,且高阶芯片的技术突破不可通过简单累积实现,目前国内芯片技术显著落后于美国,在高端芯片领域市占率较低。从全球范围来看,据华经产业研究院统计,在独立GPU竞争市场上,英伟达处于垄断地位,市占率高达88%,马太效应显著;从国内GPU市场上来看,根据云岫资本《2023中国半导体投资深度分析与展望》统计,尽管国内GPU市场广大,但目前国产化率不到10%亟待提升,国产AI芯片厂商空间广阔。 图表8:全球独立GPU竞争格局 1.2、美禁令持续升级,国产算力替代加速 美国AI禁令再升级,GPU成管制焦点,倒逼国产化提速。美国商务部工业和安全局(BIS)于2023年10月17日发布新规,旨在进一步遏制中国等国家的芯片与人工智能发展,主要包括收紧高算力芯片出口、扩大半导体制造管控、在实体清单中增加更多中国GPU企业。具体内容包括: 1)芯片出口:使用三个标准来规定禁止向中国出口的芯片,包括芯片的总算力(TPP)、性能密度(PD)以及芯片的设计或销售是否用于数据中心。该禁令使得A800、H800等曾经的中国特供版GPU无法再出口至中国,甚至影响到消费类GPU:RTX 4090。 2)制造管控:扩大对半导体制造设备的管制如DUV光刻机,以及扩大代工厂审查芯片设计文件的地域限制等。 3)实体清单:在“实体清单”上新增13家中国企业,主要包括壁仞科技、摩尔线程等GPU公司,为这些公司制造芯片需要BIS的许可。 美国连续多年出台相关法规禁令来限制中国大陆半导体发展,包括定点打击、本国补贴、出口管控等各类措施,此次禁令便是对2022年8月芯片禁令的升级,英伟达A800、H800均为当时禁令后推出的中国特供版GPU,降低了算力和互联带宽,但如今亦被限制。 图表9:美国202310 17芯片禁令图解(粉色区域禁售、黄色区域需提前25日申请、绿色区域无限制) 英伟达中国市场特供版芯片性能进一步阉割,国产AI发展受阻。针对美国新一波禁令限制,英伟达试图开发符合美国政府政策且不需要许可证的新数据中心产品,将推出H20、L20等型号。根据腾讯科技新闻,H20目前公布的参数规格,其单卡算力为0.148P(FP16),大约为A100的50%/H100的15%,配6颗HBM3e,96G容量,NVLink提升到900G/s。 单卡算力的大幅下降,对国产AI厂商而言,相较A/H800,需采购更多数量的H20以满足模型训练要求。此外,H20单卡算力较低,可能难以满足千亿参数级LLM模型训练,将更适用于垂类模型的训练及推理。我们认为单卡性能的不足以及资本开支的上升,将倒逼国产AI下游厂商加速国产替代。 图表10:海外主流芯片性能(蓝底为符合美最新出口管制新规) 受禁令影响,英伟达2023年四季度中国大陆收入环比大幅下滑。受出口管制影响,英伟达在中国市场收入逐渐萎缩,23年三季度英伟达在中国大陆收入达40.3亿美元,环比增长47%,四季度仅为19.5亿美元,环比下滑52%。四季度中国大陆占英伟达总营收8.8%,创历史新低,此外官方预期下季度占比将保持这一区间。 图11:英伟达23Q3地区收入占比 图12:英伟达23Q4地区收入占比 近年来国产AI芯片进展可观,本次美国芯片禁令以及国内大模型发展需求为国产替代增添新动力。目前国内领先AI芯片厂商包括华为海思、寒武纪、海光信息、壁仞科技、燧原科技、沐曦集成电路、摩尔线程、天数智芯等,部分国产旗舰级产品在算力方面已对标英伟达A100等国际领先产品,在内存与互联等方面也接近国际先进水平。据路透社,英伟达H20在某些关键领域的FP32性能表现不如华为昇腾910B产品,但在互连速率方面会比910B更具优势。 凭借优异的产品性能,国产芯片厂商逐步获下游客户认可。据中国基金报报道,百度为200台服务器订购了1600片昇腾910B。截至23年10月,华为已向百度交付了超过60%的订单;科大讯飞在2023Q3业绩说明会表示,公司已于23年初与华为昇腾启动专项攻关,华为发布的昇腾910B能力已经基本做到可对标英伟达A100。除华为昇腾外,寒武纪思元590、海光深算3号等产品也处于积极推进。我们认为在美方对华制裁压力下,H20为红线内国内能够采购的最高端芯片,国产芯片持续迭代将有望超越其性能效果,完善国产算力基础建设。 二、推理需求快速增长,ASIC大有可为 机器学习主要包括训练(training)和推理(inference)两个步骤,通常需要不同类型的AI芯片来执行。训练是指通过大数据训练出一个复杂的神经网络模型,通过大量标记过的数据来训练相应的系统,使其能够适应特定的功能;推理是指利用训练好的模型,使用新数据推理出各种结论。 1)训练芯片:通过大量的数据输入,构建复杂的深度神经网络模型的一种AI芯片。需要较高的计算性能、能够处理海量的数据、具有一定的通用性,以便完成各种各样的学习任务,注重绝对的计算能力。目前主流训练芯片包括英伟达H100、A100等; 2)推理芯片:推断芯片主要是指利用训练出来的模型加载数据,计算“推理”出各种结论的一种AI芯片,注重综合指标,侧重考虑单位能耗算力、时延、成本等性能。目前主流推理芯片包括英伟达L40、T40等; 训练芯片在单卡算力、存储容量