ChatGPT有望带动数据快速增长,AI运算贯穿云-边-端。根据IDC预计,全球数据总量预期2026年将超过221,000 exabyte,2021-2026年年复合增长率达到21.2%,其中非结构化数据占每年创建数据超过90%;透过云、边、终端架构,以数据为中心将算力资源前置,在更靠近数据源的地方为用户提供低时延服务。 云端芯片:AI模型训练核心,计算参数指数级增长重点受益。人工智能的模型自2012年AlexNet问世以来,模型的深度和广度一直在逐级扩升;大规模预训练模型成了一个新的技术发展趋势。根据TrendForce数据,截至2022年统计AI服务器年出货量占整体服务器比重近1%,随着大型云端业者开始大量投入AI相关的设备建设,AI服务器2022~2026年复合成长率有望达到10.8%。 边端芯片:云端与终端的中继站,满足AI轻量化部署需求。根据IDC预测,2025年64%的数据将在传统数据中心之外创建,意味着更智能的处理将在设备上完成,边缘服务器具有体积较小、环境适应性更优、支持多种安装方式、快速前维护和统一管理接口等技术特点。全球边缘AI处理器市场规模近30亿美元,快速响应需求增加有望带动市场规模快速增长。 终端芯片:AIGC应用多点开花,终端AI SoC迎来升级变革。AIGC生成的内容种类越来越丰富,而且内容质量也在显着提升,随着AIGC模型通用化水平和工业化能力提升,有望降低内容生产和交互的门槛和成本。SoC涵盖声音、影像、AI处理,为智能化场景提供完整解决方案,随着终端朝向AI应用发展,SoC成为为智能终端的算力主控。 存储芯片:大数据同步算力提升,AI需求推动市场增长。DRAM方面AI运算需足够的内存带宽,智能化有望带动内存需求提升;NAND方面发展垂直方向堆栈3D NAND层数,新技术注入成长动力。 建议关注: 云端AI相关企业:寒武纪、海光信息(天风计算机覆盖)、龙芯中科、紫光国微、复旦微电、安路科技等。 边/终端AI相关企业:瑞芯微、晶晨股份、恒玄科技、全志科技、乐鑫科技、富瀚微、中科蓝讯、炬芯科技、兆易创新、中颖电子、芯海科技等。 存储相关企业:江波龙(天风计算机联合覆盖)、澜起科技、聚辰股份、北京君正、普冉股份、东芯股份、佰维存储等。 AI应用端相关企业:工业富联、大华股份、海康威视等。 风险提示:下游需求不如预期、库存去化不如预期、研发与技术升级不如预期、宏观环境变动带来的风险 1.ChatGPT有望带动数据快速增长,AI运算贯穿云-边-端 全球数据总量2021-2026年CAGR达到21.2%,其中以非结构化数据为主。根据IDC预计,全球数据总量预期2026年将超过221,000exabyte,2021-2026年年复合增长率达到21.2%。 数据包括结构化和非结构化数据,但非结构化数据占每年创建数据超过90%。非结构化数据包括视频、照片和图像、语音以及文档等,应用场景包含流媒体、游戏、物联网等应用,其中娱乐和非娱乐图像数据生成占非结构化数据超过56%以上;而处理这种非结构化数据需要更强的计算基础设施。 图1:全球数据总量预期(单位:Exabytes) 云、边、终端混合部署,运算效率有望提升。随着海量数据与运算需求大幅提升,计算能力和连接设备积累了大量数据,透过云、边、终端架构,以数据为中心将算力资源前置,在更靠近数据源的地方为用户提供低时延服务。整体产业链分为上、中、下游:1)上游包括由云服务商和硬件设备厂商,如谷歌、亚马逊、微软、阿里、腾讯等;2)中游主要包括运营商、边缘计算运营和管理的服务提供商;3)下游主要为智能终端和应用。边缘计算产业联盟认为边缘计算是在靠近物或数据源头的网络边缘侧,满足行业数字化在敏捷联接、实时业务、数据优化、应用智能、安全与隐私保护等方面的关键需求。 图2:云-边-终端架构(以数据为中心就近部署算力) 边、终端数据创建占比预计25年达到60%以上,AI需求下沉扩大市场空间。根据IDC预测,2025年64%的数据将在传统数据中心之外创建,意味着更智能的处理将在设备上完成,而5G将使来自边缘丰富的数据实时地与其他设备和云共享。互联智能边缘的出现正在加速应用创新的需求,高通预计未来十年内公司潜在的市场扩大七倍多,达到7000亿美元。 云计算与边缘计算需要通过紧密协同才能更好地满足各种需求场景的匹配,从而最大化体现云计算与边缘计算的应用价值。 图3:高通预计运算需求下沉,有望带动公司潜在市场空间增加7倍 2022年全球AI芯片市场规模169亿美元,预计未来年复合增长率近30%。根据Precedence Research数据,2022年全球人工智能AI芯片市场规模估计为168.6亿美元,预计2030年达到1351.8亿美元,2022年至2030年的复合年增长率为29.7%;按照类型可以分为GPU、ASIC、FPGA、CPU等,每种芯片类型皆有不同功能;基于处理类型,边缘处理类型细分市场主导AI芯片市场,并在2022年产生超过75%的收入份额,由于边缘处理在接近数据实际位置的地方进行计算,最大限度地提高了运算效率。 图4:全球AI芯片市场规模(亿美元) 2025年中国AI芯片市场规模预计超过250亿美金。随着大算力中心的增加以及终端应用的逐步落地,中国AI芯片需求也持续增加。根据亿欧智库预测,2021年中国AI芯片预计达到427亿人民币(按6.9汇率测算,约61.8亿美金),预计市场规模将于2025年达到1780亿元(按6.9汇率测算,约258亿美金)。 图5:中国AI芯片市场规模(亿人民币) AI芯片中以GPU为主,ASIC、FPGA同步持续增加。根据IDC数据,2021年上半年中国人工智能芯片中,GPU占有90%以上的市场份额,而ASIC、FPGA、NPU等其他非GPU芯片也在各个行业和领域被越来越多地采用,预计到2025年加总的占比有望超过20%。CPU处理复杂的逻辑运算,主要应用于传统的数据中心服务器;GPU具有优秀的图形处理能力,主要应用于图像分类、平安城市、自动驾驶等领域;FPGA可以根据算法逻辑实现特定场景下的计算。因此,FPGA主要应用于深度学习、大数据分析等场景;ASIC主要用于数据推理、辅助驾驶等。 表1:CPU GPU ASIC FPGA性能与应用 云、边、终端AI芯片,满足不同算力的应用场。人工智能技术在云端、边缘端和终端设备中均有广泛应用,但都需要由核心芯片提供计算能力支撑。云、边、端三种场景对于芯片的运算能力和功耗等特性有着不同要求,由于云、边、端应用场景尚无标准划分界限,我们以寒武纪招股说明书中自主研发技术体系的数据为例,云端主要需求为高计算密度,因此主流算力大于30 TOPS;终端应用于AIoT场景,主要需求为高效率与低功耗,因此主流算力小于8 TOPS;边缘端应用场景与主流算力介于云端与终端之间。 表2:云、边、终端算力与应用场景(1TOPS代表每秒处理一万亿次人工智能基本运算) 1.1.云端芯片:大模型训练投入提升,算力指数级增长 预训练模型与参数的提升,带动服务器基础设施需求大幅增加。人工智能的模型自2012年AlexNet问世以来,模型的深度和广度一直在逐级扩升,以2018年的时候BERT-Large(基于BERT和transformer结构的模型)产生之后,兴起了一波模型规模和参数激增的热潮。从BERT模型出现到GPT-31750亿参数规模的千亿级大模型,大规模预训练模型成了一个新的技术发展趋势。根据CNBC报道,以微软Bing为例,基于OpenAI的ChatGPT模型或需要8个GPU才能在不到一秒的时间内响应问题,按照这个速度测算需要超2万台8-GPU服务器,按照Nvidia DGX A100(八个A100 GPU协同工作的系统)建议售价近2万美元测算,需要40亿美元的基础设施支出。 图6:近十年主流模型计算量与参数量 图7:NLP模型参数呈指数级增长 浮点与大量数据并行计算需求,加速卡成为云端AI处理基础配置。随着智能化程度日益提高,所需的数据处理量正在呈指数级增长;CPU的核心是将其较少数量的核心集中在单个任务上快速完成,擅长逻辑控制、串行的运算;而GPU提供了多核并行计算的基础结构,拥有更高的浮点运算能力且可支撑大量数据的并行计算;因此GPU主要是作为加速某些CPU执行起来效率较低的数据处理任务。以技嘉科技服务器G190-G30为例,除了Intel Xeon E5-2600 v3/v4系列处理器外,另搭载4张支持NVLink内联架构的NVIDIA Tesla P100或V100加速卡。 图8:技嘉科技G190-G30高效能服务器 AI服务器需求量有望快速增长,预计2022-2026年CAGR 10.8%。根据TrendForce数据,截至2022年统计AI服务器年出货量占整体服务器比重近1%,随着大型云端业者开始大量投入AI相关的设备建设,AI服务器2022~2026年复合成长率有望达到10.8%;2023年全球服务器出货量预计1443万台,同比增长1.31%,AI服务器出货量增速有望高于全球总服务器出货量。我们以浪潮服务器配置为例,通用服务器 NF5280M6 是基于全新一代英特尔至强第三代可扩展处理器打造,单CPU最高拥有40个内核及80线程,最大支持TDP 270W CPU最高主频3.6 GHz;AI服务器 NF5688M6 是浪潮为超大规模数据中心研发,同时拥有高性能,高兼容,强扩展的新一代NVLink的AI服务器。AI优化服务器NF5280M5 是专为全新AI应用优化的2U双路机架高端产品,支持第二代智能英特尔至强可扩展处理器,在2U机箱内支持4片GPU加速卡,其高品质、高可靠的表现,适用于一系列高要求的AI应用。 表3:浪潮服务器产品配置 全场景的AI解决方案能使模型训练高效化。人工智能训练随着模型的规模和复杂性不断增加,训练时间相应增加,导致生产力降低和成本增加,完整的解决方案可显著加速AI训练,从而加快模型探索、显着节省成本,因此除了算力以外,核心架构、功耗、内存等参数也是重要的配置指标。此外在运算能力方面,单位TFLOPS (teraFLOPS)为每秒一万亿(=10^12)次的浮点运算;TOPS为处理器每秒钟可进行一万亿次(10^12)操作。 表4:云端AI芯片公司与产品参数(不完全统计) 1.2.边端芯片:云端与终端的中继站,满足AI轻量化部署需求 边缘计算具备实时、灵活、降本等特性,数据采集量增加也会提升模型准确性。AI模型可分为两个阶段:1)训练:需耗费大量的运算能力、内存、储存空间等,通常只能放在服务器或是大型工作站进行多次的迭代运算,模型训练完成后可以得到模型的最佳权重;2)推理:当边、终端有新的数据被抓取进来,可以直接通过已训练好的模型进行推论。边缘AI的优势包含灵活性、实时洞察、降低成本、增加隐私、高可用性等特性,去中心化使得处理数据不需要互联网访问,这为关键任务、生产级AI应用程序带来了更高的可用性和可靠性。此外AI模型在训练更多数据时会变得越来越准确。当边缘AI应用程序遇到它无法准确处理的数据时,它通常会上传数据,以便AI可以重新训练并从中学习,模型在边缘生产的时间越长,也会使得模型就越准确。AI算法能够理解语言、视觉、声音、气味、温度、面部和其他非结构化信息的仿真形式,相较于结构化数据更能贴近现实世界,随着神经网络、计算基础设施、物联网设备逐步成熟,催生出边缘AI相关需求。 图9:AI模型训练与推理示意图 边缘AI泛指靠近用户部署轻量服务器,降低数据中心的网路流量与延时。深度学习的训练过程通常在数据中心或云端运行,因为训练准确的模型需要大量数据,而且需要数据科学家协作配置模型;训练结束后,模型即成为推理引擎。在边缘AI部署中,推理引擎在工厂、医院、汽车、卫星和家庭等地区的某种计算器或设备上运行。当AI遇到问题时,数据会上传到云端,以进一步训练原始AI模型,这个反馈回路在提高模型性能方面起着重要