迈向智能世界白皮书2023 计算 算力为基,共建智能新生态 目录 01趋势一:AI能力出现拐点,从预测推断走向内容生成 02趋势二:百模千态,AI加速覆盖千行百业 03趋势三:AI生态加速收敛,为国内AI生态带来新的机遇和挑战 04趋势四:操作系统面向AI持续演进 05趋势五:ARM逐步成为行业数字化算力主流选择 1 •2015年CV类视觉识别超过人类,可部分替代人眼/耳,主要用于物体识别和发现,催生了千亿级智能安防产业。 •2022年底基于NLP的ChatGPT学会思考会学习,用于理解和生成,GPT-4已初步具备自主学习和思考能力,在文本/图像/音频/视频/ 代码等脑力劳动场景中已达到人类80%的水平,可替代较高端脑力劳动工作。 随着NLP领域的突破,AI的内容生成成为新的增长热点 AI技术 里程碑 控制论 NLP CV深度学习 GAN AI4S ChatGPT GPT4 Gemini… AI产业 发展浪潮 AI重点事件里程碑 专家系统 安防-视觉 互联网-推荐 内容生成、知识传递 2C:社交、消费 2B-通用:办公、编程、搜索、营销、设计 2B-行业:医疗咨询、网络自治、智能风控、结构化感知、大数据分析、舆情分析、新 闻采编、内容剪辑、智能教学 1956年 达特茅斯会议 1997年 “深蓝”战胜人类 2015年 视觉识别超过人类 2022年 ChatGPT 2023年…. GPT-4具备自主学习能力 2 模型架构向Transformer收敛,AI应用落地越来越简化 •Transformer结构在图、文、音多个领域表现优异,大模型的基础架构向Transformer结构收敛,大量基于Transformer结构的大模型涌现。 •AI大模型技术快速发展,AI算法与应用的开发、上线部署与业务发放等过程均大幅简化,有大量开源可用的开源大模型,有丰富的大 模型微调算法,主流框架均支持低代码的开发构建大模型的能力,业界主流厂商联合发布大模型的一体机。 AI能力落地越来越简单 模型架构趋于收敛 大模型基础架构向Transformer结构收敛大模型创新全流程使能 小模型 Yolo、ResNet、Bert、Openpsoe、CenterNet、RepVGG… 收敛 CNN、LSTM、GAN、RNN、DBN… 等多种架构 大模型 GPT、PalM、LLaMA、BLLOM… Transformer架构 结构扩展性好,统一多模态计算架构 预训练大模型 开发套件 微调算法 大模型一体机 丰富的开源可用大模型 高效构建大模型 低参微调获得场景模型 AI应用行业落地 GPT|LLaMA|T5|BLOOM|Swin|ViT|GLM|RWKV … Transformer网络结构大模 型开发套件 支持低代码构建大模型 LoRA、Prefix-Tuning、LowRankAdaper、BitFit、… 主流AI框架 3 •ScalingLaw尚未见顶,万亿多模态大模型是新的热点,模型表现强烈依赖于模型规模,随着计算量、数据量和参数量提升而提升;相同参数下,更深的模型拥有更好的性能。 •多模态数据成为大模型训练主要数据,对于算力需求是文本数据的百倍,大模型算力需求6个月翻一番的趋势,预计至少持续到2030年。 模型的参数量仍在扩大,大模型算力需求6个月翻一番 ScalingLaw尚未见顶MOE万亿参数大模型是新的热点 大模型算力需求6个月翻一番的趋势预计至少持续到2030年 •模型表现强烈依赖于模型规模 •相同参数下,更深的模型拥有更好的性能。 ~1028 模型 模型结构 参数量 激活参数量 ChatGPT Dense-Decoder 175B 175B GPT-4 MoE-Decoder 1.8T 112.5B GaLM MoE-Decoder 1.2T 96B 盘古Sigma MoE-Decoderonly(RRoE) 1.08T 38B Switch-C MoE-Encoderdecoder 1.5T 1.5B … … … … ~1022 EPOCH预测:《ProjectingcomputetrendsinMachineLearning》 4 1 目录 01趋势一:AI能力出现拐点,从预测推断走向内容生成 02趋势二:百模千态,AI加速覆盖千行百业 03趋势三:AI生态加速收敛,为国内AI生态带来新的机遇和挑战 04趋势四:操作系统面向AI持续演进 05趋势五:ARM逐步成为行业数字化算力主流选择 •人工智能在各个行业的渗透率持续提升,随着AI算法的突破,AI可以覆盖的业务场景快速扩充,从之前以视觉识别为主,到现在的内容推荐、人机互动、创意创作、科学研究等方方面面。 •国内头部企业正在积极围绕大模型进行战略布局,主要集中面向三类产品与服务,提前构筑新竞争优势和市场格局:第一种是服务内部,提升自身业务效率与感知;第二是面向中小企业提供AI模型服务,也就是Maas(ModuleisService),通过模型开发服务,来深度切入行业;第三种是面向AI创业者/企业提供算力服务,比如政企、运营商及云厂商等。 头部企业积极围绕大模型加速布局产品与服务 国内头部企业在战略布局大模型机会 1对内提升自身业务效率与感知 2面向中小企业提供AI模型服务 3面向AI创业者/企业提供算力服务 •与自身行业、业务特点和需求等深度结合 •做好迎接产业格局剧烈变革的准备,提前构筑新产品竞争优势,提升用户体验 •通过API/三方插件吸引更多应用及数据 •通过提供模型开发服务,深度切入行业, 掌握行业经验和数据 •抓计算业务负载重心向AI转移的趋势 •满足企业AI算力需求,构筑数字基础设施格局 百度 阿里 腾讯 商汤 华为 讯飞 文心一言,千亿参数 通义千问,千亿参数 混元助手,千亿参数 SenseChat,千亿参数 盘古,千亿参数 星火认知,千亿参数 搜索引擎、小度、百度云等 搜索、钉钉、天猫精灵、电商等电商、搜索、推荐、游戏 … 编程、咨询、PDF助手,模型服务 代码生成、手机/流程IT助手 AI学习机、多语种翻译 6 AIGC持续扩展业务领域和专业知识,正在快速进入业务全流程节点,快速融入各行业核心应用;如办公应用中文字生成极大提升公文,邮件,新闻等编辑效率;软件开发中代码生成可提升开发人员的工作效率,多媒体设计中图像、视频生成类功能已嵌入主流设计软件。 大模型应用加速进入行业生产系统,未来2年将深入50%+行业核心场景 2C现象级应用 公开数据集 通用2B应用 行业通用场景数据 文档摘要 办公 场景化2B应用 行业生产场景核心数据 网络自治 智能客服 智能风控 运营商 金融 AIGC 大模型 智能对话 短文创作社交 模型基础能力 图片生成 消费 文档写作 代码开发 网站制作编程 模型能力开放 精准获客 营销 调研报告 平面广告设计 量化交易 医疗咨询 辅助诊断医疗 行业知识结合 结构化感知城市 城市大脑 大数据分析 2023 视频生成商业文案 内容搜索搜索 内容剪辑传媒 新闻采编 OpenAI最新研究(arXiv:2303.10130) 3~6个月 内容推荐 6~12个月 分子生成生物 智能教学 智能问答教育 12~24个月 7 1 目录 01趋势一:AI能力出现拐点,从预测推断走向内容生成 02趋势二:百模千态,AI加速覆盖千行百业 03趋势三:AI生态加速收敛,为国内AI生态带来新的机遇和挑战 04趋势四:操作系统面向AI持续演进 05趋势五:ARM逐步成为行业数字化算力主流选择 •大模型技术逐步收敛,生态走向聚合,模型更收敛、框架更归一。 •开发更高性能的AI大模型需要更强的算力平台,算力底座技术门槛提高,未来训练核心拼集群系统能力。 生态走向聚合,算力底座技术门槛提高 技术逐步收敛,生态走向聚合算力底座技术门槛提高,未来训练核心拼集群系统能力 大模型 模型更收敛框架更归一 基础大模型10~20个Pytorch框架占95%+ 万级参数时代亿级参数时代万亿参数时代 PF级平台单服务器,8卡 节点内卡间互联 TB级存取 -服务器硬盘 百TF级平台 1张GPU卡 无互联 GB级存取 -服务器硬盘 EF级平台 AI集群,~万卡 超节点+网络互联 PB级存取 -高并发多级存储 计算X10倍X1000倍 需求 网络N/A 需求 X100倍 小模型 数万小模型 字节有上万个自研模型 PyTorch、TensorFlow, 需求 Caffe,飞桨等存储 X100倍 X1000倍 11 userid:414195,docid:144563,date:2023-11-01,sgpjbg.com 高性能的算力平台,需要解决3大挑战 •高性能AI大模型对算力的需求指数级增长,AI算力平台从单机走向集群。 •超大规模AI集群的建设面临着跨域协同、液冷和可靠性3大关键技术挑战:AI集群的液冷大规模商用存在工程挑战;AI集群建设是个 系统工程;AI大模型训练依赖AI集群高可用。 开发更高性能的AI大模型需要更强的算力平台 大规模集群的3大挑战 模型参数 GPT-6 50K~100K卡 集群规模 液冷挑战跨域协同挑战可靠性挑战 GPT-3 2K卡 *10天 ChatGPT 6K卡 *10天 GPT-4 16K卡 *10天 GPT-5 20K~50K卡 *10天 *10天 AI算力云服务化 精准液冷 芯片到节点、模组到柜级/机房级按需供给 超大规模组网跨 工程化部署 降低部署/安装/维护成本,提升性价比 域 高性能存储协 同 集群是全机大应用,涉及器件 数百万/千万级 单器件故障 触发集群训练中断 GPT-2 8卡 *10天 2019 20202021 2022 Now 20232024 20262028 优 液冷高可靠 水电隔离、漏液关断等,保障系统安全可靠 大规模并行计算化 集群管理软件 全流程长,跨域故障根因定位定界复杂 故障处理时间长, 严重拉低大模型训练效率 12 1 目录 01趋势一:AI能力出现拐点,从预测推断走向内容生成 02趋势二:百模千态,AI加速覆盖千行百业 03趋势三:AI生态加速收敛,为国内AI生态带来新的机遇和挑战 04趋势四:操作系统面向AI持续演进 05趋势五:ARM逐步成为行业数字化算力主流选择 AI赋能操作系统更智能 操作系统使能AI更高效 14 高效算力 •异构算力多维调度 •推理并发提升 广泛的大模型支持 GLM、LLAMA、BaiChuan •辅助编程 •辅助运维 操作系统面向AI持续演进 随着人工智能成为全球各国新的科技热点,人工智能基础设施建设也成为重要抓手与着力点,在开源打造方面,业界应加速推进融入AI 的基础设施布局落地。 •AI赋能操作系统更智能。操作系统可以使用基础大模型,基于大量操作系统自身代码和数据,训练出操作系统自身的助手模型,实现代码辅助生成、问题智能分析、系统辅助运维等功能。以前需要多个领域专家协同解决的问题,未来都可以交给助手模型。 •操作系统使能AI更高效。操作系统通过异构资源统一管理和调度,实现CPU和XPU的深度融合,以更全局、更均衡和更精细化的视角统筹内存和算力,充分挖掘空闲资源,提升有效利用率,进而提升AI训练和推理性能。 AI赋能开发者 •自然语言交互 •打通领域知识 超大容量 •PB级异构内存管理 •训练效率提升 1 目录 01趋势一:AI能力出现拐点,从预测推断走向内容生成 02趋势二:百模千态,AI加速覆盖千行百业 03趋势三:AI生态加速收敛,为国内AI生态带来新的机遇和挑战 04趋势四:操作系统面向AI持续演进 05趋势五:ARM逐步成为行业数字化算力主流选择 •随着自动驾驶,云游戏等应用兴起,数据中心侧,传统单一架构难以满足要求,端-边-云协同成为趋势,ARM算力是从最初的端侧起步,目