前言 •伴随着ChatGPT的爆红,AIGC产业链受到广泛关注,大模型的发展正推动AI算力市场进入新的发展阶段,强大的AIGC算力基础设施正在构建当中。大模型训练是复杂系统工程,AIGC产业的算力也对应是系统化的建设,基于此,甲子光年智库特此展开AIGC的算力研究,输出《中国AIGC产业算力发展报告》,在瞬息万变的AIGC产业发展过程中,试图捕捉到AIGC产业算力的发展变化。 本次报告探讨的问题 •明晰概念:从需求出发,探究决定AIGC产业基础设施 (infrastructure)——算力,包括哪些关键决定因素? •产业分析:AIGC的算力产业链剖析,从芯片发展到云服务方案,”云边端“算力供应商的角色作用是什么? •需求探讨:中国AIGC产业发展是否缺乏算力,还是缺乏针对企业的“高性价比”及“可落地”的AIGC算力解决方案? •实践指南:针对当下国内的“百模大战”与企业对于AIGC应用落地 的需求,目前AI算力领域有哪些解决路径及方案? •趋势可能:AIGC的算力爆发是否可持续?未来对AIGC的算力提出哪些层面的要求? AIGC时代已来,算力作为推动产业发展的关键资源,决定了产业的发展速度及 AI算力不止于训练,同时支持AI多场景应 用,在多细分场景上具有潜力 AI技术(算法、模型)与算力的融合催生 更多产品及服务模式 AIGC的爆发会重新改变负载AI技术的算力发展 www.jazzyear.com 甲子光年重点关注企业——AIGC产业算力领域的领航者 “基于大模型自身实践与服务客户的专业经验,浪潮信息发布大模型智算软件栈OGAI(OpenGenAIInfra)‘元脑生智’,OGAI以大模型为核心技术的生成式AI开发与应用场景,提供从集群系统环境部署到算力调度保障和大模型开发管理的全栈全流程的软件,从而降低大模型算力系统的使用门槛、优化大模型的研发效率,保障大模型的生产与应用。” “应用产生数据、数据训练算法、算法定义芯片、芯片赋能应用”是云天励飞一直坚持的人工智能发展之路。基于此,云天励飞构建了业界 领先的算法、芯片、大数据全栈式AI能力,同时拥有大量创新应用和落地场景,横跨人工智能基础层、技术层和应用层。” “UCloud优刻得是中立、安全的云厂商,拥有超10年的公有云技术沉淀并积累了全面的系统工程能力,具备从数据中心、计算平台,到管理平台、网络服务、应用服务、生态接口等一站式产品和解决方案。凭借技术及工程能力沉淀,UCloud优刻得可在AIGC领域构筑强大的算力底座,通过优化网络和存储带宽提升大模型训练效率,并持续提供快速、高效、可控及安全的AI推理环境。” “凭借存储与计算物理融合的架构优势,存内计算能够为神经网络模型指数级增长的算力需求提供强大基石。知存科技凭借率先量产商用存内计算芯片的产业积累,将继续推进存内计算架构创新,由3D存内计算架构向高速互联存内计算架构演进,实现产品“端-边-云”侧算力全面覆盖。” “BoCloud博云形成了系列产品以创新云技术支撑企业核心业务,构建数字化高效IT系统。公司自主研发的多项软件产品,包括边缘计算平台、企业级容器平台、统一云管平台、虚拟化产品等,已在金融、电力、石油、政务、IDC、航空等行业领域的生产系统中落地实施,为国有电力公司、股份制银行、大型支付机构等标杆行业客户的重要生产系统提供服务。” “亿铸科技在全球率先利用ReRAM(RRAM)的特性着手使用先进异构封装的方式来实现系统级的芯片优化方案,并且在2023年3月,亿铸科技正式公布了存算一体超异构芯片的创新理念——以存算一体(CIM)AI加速计算单元为核心,同时将不同的计算单元进行异构集成,以实现更大的AI算力以及更高的能效比,同时提供更为通用的软件生态,开创大模型时代的AI算力发展新方向。 Part01产业基石,算力是AIGC产业的催化剂 目录Part02软硬兼得,AI新世代呼唤工程化导向的算力支撑 Part03层见叠出,商业浪潮下的算力选择思考 Part04实践真知,AIGC产业算力实践的新范式 Part05来日正长,AI技术的翻涌带来无限可能 AI的新时代,生成式AI技术重新塑造AI技术的开发及应用 •随着2023年大模型的热潮,AIGC早已超越内容生产的概念,而突出生成式AI(GenerativeAI)的概念,即如何通过生成式AI的技术思路解决以往决策式AI难以完成的问题,尤其在数据或者内容生成上实现“质的突破”。 AIGC •新的AI时代则是AIGC产业全面进击的时代,随着生成式对抗网络(GenerativeAdversarialNetwork,GAN)等的演进及迭代,生成式AI可以延展到流程、策略、代码、蛋白质结构等多种形式,即意味着凡是可以使用数字内容形式的产业,生成式AI均可以涉及。 AI的新时代:更关注如何利用生成式AI技术在涉及数字内容的诸多领域实现改变及突破,生成式AI实际上扩大了“内容”的含义,凡是可以数字化的内容形式均为生成对象,而非传统意义下媒体环境的内容。 AIGC产业:新一代AI技术和理念,以“生成式AI”为代表技术的开发及应用产业,即如何利用资源发挥新的AI技术的应用,通过商业价值推动AI第三次浪潮的发展。 第一次浪潮 卷积神经网络 (CNN) 第二次浪潮 第三次浪潮 双向编码表示 (BERT) 生成预训练变压器(GPT) “应用”&“技术”&“资源”实现飞轮增长 技术 递归神经网络 (RNN) 蒙特卡洛树搜索 (MCTS) 代表具有里程碑的 受限玻尔兹曼机 (RBM) 多层感知机 (MLP) 非线性激活 深度玻尔兹曼机 (DBM) 长短期记忆 (LSTM) 生成对抗网络 (GAN) 注意力机制 (Attention) RNN改进 Attention& Transformer 深度强化学习 (DQN) 残差网络 (ResNet) GPT3 AlphaFold2AlphaFold chatGPT (GPT3.5) MT-NLG资源 应用 关键创新 反向传播(BP)概率模型高维词向量 AlexNet&Dropout 1900年-1980年 1980年-1990年 1990年-2000年 2000年-2010年 2010-2020年 2020年-至今 www.jazzyear.com 纵观AI发展,算法的发展及迭代极大地拉动了算力的需求 •机器学习的训练计算大概可以分为三个时期,2015-2016年左右开启了大模型时代,整体的训练计算量较之前的时期大2到3个数量级。 •从2022年底,随着ChatGPT成功带来大规模参数通用大模型相继发布。这些大模型的训练需要千亿、甚至万亿级参数,以及上千GB的高质量数据,大模型的训练迭代将极大地拉动了智能算力的需求。 训练算力(FLOPS)需求与深度学习发展关系图(2000-2022年) 大模型 深度学习时期之前,训练计算算力需求缓慢增长,算力翻倍需要21.3个月 2010前 2010-2022 深度学习不断取得进展,算力翻倍仅需要5.7个月,所需算力量级由TFLOPs增至EFLOPs 训练算力需求FLOPS 训练算力(FLOPS)需求与人工智能发展关系图(1952-2022年) N=121 训练算力需求 FLOPS 2016-2022 2015年开始逐渐出现大规模(更大参数量)模型,算力 需求直接提升约两个数量级。 深究AI开发,“量变”的算法、数据可以带来“质变” “量变” 应用 “质变” 模型训练涉及的基础资源提升在方向上(理论上)能够决定模型训练的效率和结果 参数规模 充足的能耗 数据质量 数学理论 分布式计算效率 …… 实际上可以看作“必要不充分条件”:难以明确的直接因果关系 调参过程实际上类似于“实验”:“调参”的结果与以往人工智能方式相比,具有更多的不确定性,需要进行多次的反复训练,模型训练中,模型即是训练结果,中间的过程则无法完全复制。 训练的过程呈现“黑盒”性质 模型调参 收集数据及数据准备 特征工程模型选择模型训练模型评估模型调优模型部署和 包括数据收集、预处理、存储;数据的质量和梳理对算法效果至关重要 从原始数据提取有代表性、可解释的特征 自开发实现模型使用现成的框架 无监督学习监督学习强化学习 …… 根据分类、回归、聚类等各种问题有相应评估指标 网络搜索、随机搜索、贝叶斯优化、梯度优化、集成方法等选取最优参数组合,提高模型性能 模型封装后, 导入环境进行 推理API部署 边缘部署 集成部署 容器化部署 批处理部署 算力:提供底层动力源泉 www.jazzyear.com 资源“三剑客”中,算力承接算法及数据,成为AIGC产业发展基石 •在现代人工智能领域,算力扮演着推动创新、实现突破的核心驱动力。算力、算法、数据和系统架构等多个方面的综合优化对于大规模模型训练的成功至关重要。从技术层面看,在大模型的研发过程中,预训练、微调和模型推理等环节是核心关键因素和主要计算特征。 算法 跨模态融合 数据 数据巨量化 算力 内容创造力 AIGC 数据层面 算力层面 硬件算力 算法层面 核心技术突破 多模态认知计算 感知+交互 数字孪生虚拟现实 全息立体应用场景 高精度训练集 大数据语料库 投喂 大参数 大算力 大数据量 模型类型 1750亿 3640(Pflops-day3)/上万块V100 GPU组成gao带宽集群算力 超过万亿单词的人类语言数据集 多模态预训练模型结合人类参与强化学习 多模态预训练模型 174万亿(与人脑中 突触数量媲美) “海洋之光”超级计算机(国产超 算) 中文多模态数据集 M6-Corpus 10万亿 512块GPU 1.9TB图像292GB文本 万亿 腾讯太极机器学习平台 五大跨模态视频 检索数据集 千亿 鹏城云脑Ⅱ和全场景AI计算 框架MindSpore,2048块 GPU 40TB训练数 据 10亿 16块GPU 数百G级别不同领 域的高质量语料 5300亿 280块GPU 3390亿条文本数据 2600亿 鹏城云脑Ⅱ(2048块CPU)和百度飞桨 纯文本和知识图谱的4TB语料库 2457亿 4095(Pflops-day)/2128张GPU 5000GB高质量中文数据集 100亿 商汤AIDC,峰值算力 3740Petaflops3 -- 300亿千亿 昇腾AI基础软硬件平台 基于万条小规模数据 集 百亿 复旦大学超算中心 -- 企业 OpenAI 清华大学等1 阿里腾讯 华为云 澜舟 微软和英伟达百度和鹏程实验室 浪潮信息 商汤科技等 商汤科技 中科院自动化 所 复旦大学 大模型 GPT3.5 “八卦炉”(脑级AI模型) M6 “混元”HunYuan_tvr 盘古系列大模型 孟子 Megatron-Turing ERNIW3.0Titan 源1.0书生(INTERN+) 某视觉模型 紫东太初 MOSS 本地化 当下的时代机遇:大规模模型的摩尔定律-单模型参数量每年增长10倍 实时算力 训练标注 计算 任务 云计算 智能交互 边缘计算 NLP大模型NLP大模型NLP大模型计算机视觉模 型 计算机视觉模 型 图、文、音三模态对话式大型语言模型 www.jazzyear.com AIGC的突破依赖于算力的“暴力美学”,应用依赖于算力在场景中的释放 •AI技术在实际应用中包括两个环节:训练(Training)和推理(Inference),AIGC的算力需要考虑训练及推理两个方面。 •训练是指通过数据开发出AI模型,使其能够满足相应的需求,一般为AI技术的研发。因此参数量的升级对算力的需求影响大。 •推理是指利用训练好的模型进行计算,利用输入的数据获得正确结论的过程,一般为AI技术的应用。推理部署的算力主要在于每个应用场景日数据的吞吐量。 模型参数数值基本确定,随着应用场景、适用人群数量增加,导致推 训练理数据量及模型数量增多,进而使推理算力需求井喷发展 模型数量 训练阶段