新一代人工智能基础设施 白皮书 中国智能算力产业联盟 人工智能算力产业生态联盟 1 商汤科技智能产业研究院 编委会 指导单位 中国信息通信研究院云计算与大数据研究所、中国科学院计算技术研究所、中国智能算力产业联盟、人工智能算力产业生态联盟 指导委员会 何宝宏中国信息通信研究院云计算与大数据研究所所长 张云泉中国科学院计算技术研究所研究员 安静中国智能算力产业联盟秘书长 杨帆商汤科技联合创始人、大装置事业群总裁 陈宇恒商汤科技联合创始人、大装置事业群副总裁 鸣谢 王婉秋、李兆松、成功、杨松、宾佳丽、孙振邦、苏立宇、刘武、贾海刚、刘雅婧、代继、何聪辉、曹阳、张雯、许伟军、杨学燕、蒋慧、王进、谭覃、何茜、刘沛、张琛 编写组 王月中国信息通信研究院云计算与大数据研究所数据中心部副主任周彩红中国信息通信研究院云计算与大数据研究所数据中心部工程师程大宁中国科学院计算技术研究所特别研究助理 刘亮商汤科技智能产业研究院战略研究主任杨燕商汤科技智能产业研究院战略研究主任田丰商汤科技智能产业研究院院长 2 “商汤成立之初,我们认为AI产业在未来一定会形成分化。在分化的过程中,整个AI基础设施上的各个要素,以一种更加高效、低成本的方式,被提供给更多的人使用,从而降低AI基础设施的构建成本和使用门槛。” —杨帆,商汤联合创始人、大装置事业群总裁 3 目录 关键发现6 导语:AI新基建开启“三浪变革”8 一、大模型、生成式AI推动AI2.0时代到来12 1.生成式AI推进产业规模化,AI无处不在愿景加速实现13 2.产业链成熟分化,基础设施成为AI产业发展基座和保障16 二、AI2.0时代对AI基础设施提出了全新要求19 1.传统计算基础设施无法满足大模型、生成式AI的新要求19 2.数据质量和效率决定大模型的高质量发展之路22 3.大模型需要全新的AI平台服务模式23 三、新一代AI基础设施的定义、特点和价值25 1.新一代AI基础设施的主要特点27 2.新一代AI基础设施创造社会价值29 3.新一代AI基础设施赋能企业享受生成式AI红利31 四、新一代AI基础设施厂商格局与评估33 1.云计算、AI原生、硬件系统三类厂商塑造市场格局33 2.评估体系:产品能力、战略愿景与市场生态36 3.商汤科技评估结果:新一代AI基础设施市场领导者39 4.SenseCore商汤大装置技术发展优势41 5.SenseCore商汤大装置业务布局优势45 五、新一代AI基础设施实践案例48 1.大模型训练48 2.生成式AI应用51 3.AI专家服务54 4.智算中心建设与运营55 六、建议59 结语:新一代人工智能基础设施的“经济规律”61 关键发现 1.2023年是人工智能产业发展的分水岭,以大模型、生成式AI为发展里程碑的技术革新,推动着人工智能发展进入全新的2.0时代,人工智能由之前点状、创新应用,逐步规模化发展赋能企业业务流程各个环节,并逐步向产业深水区发展,推动产业链分化成熟,需要全新的基础设施来实现更好的支撑。 2.大模型和生成式的发展对算力、算法平台、数据提出全新要求,传统以CPU为中心的云计算基础设施已无法满足。不仅需要大规模、高性能、高稳定性算力资源,智能化数据管理流程,以及高效普惠AI开发平台;还要打造体系化工程系统保证基础设施面向大模型训练、生成式AI应用落地的新目标。 3.ModelasaService(MaaS)成为新一代AI基础设施的核心,其本质是通过云服务向开发者和企业提供更高效的大模型服务。MaaS加速了AI应用部署的周期,提升了创新的迭代速度,降低了企业应用大模型服务的多方面成本,推动了AI与各行业的深度整合。通过纳入开源和闭源大模型,MaaS还助力于构建成熟的生态系统,促进生成式AI应用的规模化落地。 4.新一代AI基础设施不是传统云的AI化,两者具有明显定位和发展路径的差别。新一代AI基础设施主要面向产业用户,为大模型训练、区域行业及应用孵化创新提供AI基座。新一代AI基础设施跟随产业布局,采用“大中心 +节点”模式,构建起覆盖整个区域的算力网络,并通过建(设)运(营)联动促进区域经济的一体化和智能化发展。 5.新一代AI基础设施为政务服务、产业升级和科研创新等领域带来了前所未有的社会价值。将原本分散、碎片化的政务应用,通过“一模通办”为政务服务提质增效。将加快推进传统产业上下游各个环节的智能化转型,催生新业态、新模式的不断涌现。加速科学实验的自动化和智能化,激发人工智能驱动科学研究(AIforScience)的新范式。 6.本白皮书提出业界首个“新一代人工智能基础设施评估体系”,通过产品技术、战略愿景、市场生态三大维度、十二个评估指标,对AI基础设施厂商进行定性和定量的全面评估。SenseCore商汤大装置,成为市场领导者,在各个评估指标的得分超过厂商平均分,并在市场响应、市场认知、产品战略、工程化建设四个评估指标拿到满分。 7.SenseCore商汤大装置在产品服务能力呈现出较强的产品实力和技术积累,不仅超前布局了算力基础设施,还通过布局MaaS平台,在自身大模型业务的加持下,形成了整套AI基础设施产品架构,满足客户大模型训练、生成式AI应用的大规模落地需求。 8.新一代人工智能基础设施将会通过支持大模型的爆发式发展,带来知识工程的生产力变革,重构软件生态,颠覆原有数字经济霸主,并随着本身的技术革新和突破,实现边际成本持续下降,边际效益持续增长等特征,进而实现AI算力成本的持续下降,真正带来普惠AI。 导语:AI新基建开启“三浪变革” 第一浪是“知识生产力变革”,大模型是知识工程的生产力变革,天然具有跨领域知识的连接性。上一次知识革命是11世纪的毕昇发明的泥活字印刷术、 15世纪的古登堡发明的铅活字印刷术,让人类千年历史中积累的庞大知识工程 通过印刷书籍形式推广传承,知识从手工抄写到活字印刷速度提升了118倍,自此浩瀚的知识源源不断地从印刷作坊以令人惊叹的速度向全球传播,堪称中世纪的“知识互联网”。在比尔盖茨的《未来之路》中提到,在谷登堡印刷革命之前,整个欧洲大陆大约只有3万册书,几乎都是圣经或圣经评注性著作,而到了 1500年,各类题材的图书猛增到900多万册。各种传单和其他印刷物影响了政府、宗教、科学以及文学。宗教精英圈子以外的人士第一次有机会接触到书面信息。据多方研究数据表明,大型语言模型显著提高知识学习速度、知识检索速度、知识传播速度、知识推荐准确性,具有跨语言、跨学科领域、跨信源的独特优势。在人机协同模式下,大型语言模型将人类科学论文的阅读时间缩短40%,知识搜索时间缩短20%,而这仅仅是ChatGPT出现一周年的“起点”,鉴于大型语言模型远超人类的超高速学习能力,预计将在2026年学习完所有人类历史上的高质量文本数据1。人类的知识革命大幕刚刚开启,高新科研、三大类产业、公共服务的知识型工作范式正在遵循“计算->数据->模型->服务”链条重构。 第二浪是“软件变革”,每次软件大革新,都会诞生新的超级平台,颠覆原数字经济霸主,从Windows、AppStore到GPTs都不例外,当前智能编程助手改变代码生产流程,大语言模型成为新一代AGI服务入口、软件调度枢纽。 1EpochAIResearch研究机构预测,大模型对数据的需求正在飞速增加,人类历史上可用于训练的高质量文本将在2026年“耗尽”。 20世纪90年代,未来学家雷·库兹韦尔发现指数级发展的规律:“一旦技术变 得数字化,即被编辑为0和1表示的计算机代码,它就能够脱离摩尔定律的舒服,开始呈指数级加速发展。”所以数字经济中每一代超级平台企业都是软件创新型企业。中国程序员人数位居全球第二,世界上最好的开发语言应是中文,例如商汤科技发布的“代码小浣熊”Raccoon智能编程助手,覆盖软件需求分析、架构设计、代码编写、软件测试等环节,支持中文、英文注释生成代码、跨编程语言翻译、单元测试用力生成、代码修正(改Bug)、代码重构、编程技术知识问答,在Python、Java、C、C++、Go、SQL等30多种主流编程语言,以及VSCode、IntelliJIDEA等主流集成开发环境(IED)上,提升开发者编程效率超过50%,并在以71%的一次通过率刷新HumanEval测试集成绩(GPT-4一次通过率67%)。从此人类程序员将80%的代码量交由语言大模型编写,人类开发专家的时间和精力逐步转移到更具创新性和高价值的工作中,商汤称其为软件2.0时代的“新二八定律”(见图1)。 另一方面,多篇权威论文显示,大型语言模型能够面对复杂任务,灵活自动实现多软件串行、多模型协同组合,例如AIAgent、MoE架构 (Mixture-of-Experts)、综合型智能客服、GitHubCopilot等,能在日常使用中跨模型共享成果、快速学习迭代、增强安全性与伦理性保障。在庞大AI算力规模、训练数据集基础上,新一代AI原生软件应用,导致“传统软件智能化,智能软件枢纽化”全面普及,尤其是那些能满足目前还难以预知需求的新工具,新一代青少年将在新兴AI软件与MaaS模型化创新思维逻辑上成长起来,并将新型生产力软件带入办公室与家庭。 图1:大语言模型智能编程助手,赋能软件开发提效降本 第三浪是“AI计算变革”,在大型语言模型的ScalingLaw(规模定律)指数级算力需求,与线性增长的区域基建投入矛盾下,AI算力基础设施将迎来大量技术工程创新,持续降本增效,普惠优势让AI真正成为赋能千行百业的通用型基础设施,同时“百模大战”变为AI产业专业化分工。据AINow《计算能力和人工智能》报告指出,早期AI模型算力需求是每21.3个月翻一番,而2010年深度学习后(小模型时代),模型对AI算力需求缩短至5.7个月翻一番,而2023年,大模型需要的AI算力需求每1-2个月就翻一番,摩尔定律的增速显著落后于社会对AI算力的指数级需求增长速度,即“AI超级需求曲线”遥遥领先传统架构的AI算力供给,带来了AI芯片产能瓶颈、涨价等短期市场现象。CSET(CenterforSecurityandEmergingTechnology)在《AIandCompute》报告中预测:“在计算价格没有任何变化的情况下,尖端模型成本预计将在2026 年6-11月超过美国GDP(见图2)。”未来学家雷·库兹韦尔认为,从1890年到现在,人类计算设备的(单位时间)的运算能力一直在成倍增强,每当一项指数型技术(例如符合摩尔定律的芯片技术)的实用性达到极限时,就会有另一项 10 技术取而代之。所以,针对大模型高昂的训练成本、有限的GPU供应量、芯片间通讯瓶颈的核心挑战,各国均采用大规模智能基建资源投入,并在AI芯片、智能算力集群、大模型架构、专用模型加速等技术栈环节创新突破,相信在未来3年通过一系列基础设施的技术革新,持续降低AI计算整体成本(采购、建设与运营),释放出各行各业的生成智能全民应用创新能力,尤其是推理算力成本下降,对中国AI2.0的大市场、大用户量至关重要。同水电煤等平价公共服务一样,人人用得起AI算力,人人训得起AI数据,人人做得好AI模型。 图2:大模型算力的成本压力(来源:CSET) Note:Thebluelinerepresentsgrowingcostsassumingcomputeperdollardoubleseveryfouryears,witherrorshadingrepresentingnochangeincomputecostsoradoublingtimeasfastaseverytwoyears.TheredlinerepresentsexpectedGDPatagrowthof3percentperyearfrom2019levelswitherrorshadingrepresentinggrowthbetween2and5percent. 一、大模型、生成式AI推动AI2.0时代到来 2023年是人工智能发展的分