您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国联通]:新一代AI计算基础设施白皮书() - 发现报告
当前位置:首页/行业研究/报告详情/

新一代AI计算基础设施白皮书()

2023-06-15-中国联通小***
新一代AI计算基础设施白皮书()

中国联通 新一代AI计算基础设施白皮书 中国联通研究院2023年6月 版权声明 本报告版权属于中国联合网络通信有限公司研究院,并受法律保护。转载、摘编或利用其他方式使用本报告文字或者观点的,应注明“来源:中国联通研究院”。违反上述声明者,本院将追究其相关法律责任。 目录 一、AI计算基础设施的发展简介3 (一)AI计算基础设施是人工智能快速发展的实现基础3 (二)人工智能产业对AI计算基础设施的算力需求激增4 (三)国家产业政策积极鼓励发展新型AI计算基础设施5 二、运营商应积极布局新一代AI计算基础设施5 (一)运营商建设新型AI计算基础设施的需求5 (二)新一代AI计算基础设施的功能架构简介6 三、新一代AI计算基础设施发展的关键技术突破点9 (一)高性能计算能力9 1.处理器性能9 2.并行协同策略10 3.分布式通信11 (二)异构并行计算能力13 (三)安全可信能力14 (四)资源弹性调度能力16 (五)绿色低碳计算能力18 四、AI计算基础设施商业模式简析18 五、展望未来19 参考文献21 缩略语23 前言 人工智能是当今世界发展的重要领域之一,对推动人类科技经济发展起着加速作用。人工智能产业化落地也是推动我国战略新兴产业实现融合集成、促进我国科技高水平自立自强、提振数字经济高质量发展的重要推动力。随着新技术的不断演进,人工智能发展呈现出应用场景多元化拓展、数据体量爆发式增长、算法模型参数量指数级增加的发展态势,这对支持大规模AI计算的基础设施提出更高的性能要求。高性能的AI计算基础设施应支持大规模、多任务的算法模型训练与推理部署,满足高并发、高弹性、高精度的计算需求;具备兼容异构底层硬件的生态对接能力以实现上层应用和底层硬件的解耦;还需提供安全可信的计算环境以保障数据隐私;并且能够合理地分配计算资源以实现绿色低碳目标。 中国联通作为数字信息基础设施运营服务国家队,携手产业链凝聚共识,突破AI计算基础设施的发展瓶颈,为AI服务于千行百业提供灵活高效的计算基座发布此《中国联通新一代AI计算基础设施白皮书》。白皮书分析了当前AI计算基础设施的发展趋势以及规模化部署面临的挑战,系统性地介绍了AI计算基础设施的发展背景、总体架构、关键技术、商业模式和未来展望,呼吁产业链携手共建标准化的、开放的AI算力生态,加快输出具有中国经验的标准化体系。 -1- 编写组成员(排名不分先后): 叶晓煜、郭熹、程新洲、贺鸣、马瑞涛、王鑫、李贝、徐乐西、赵慧英、谢志普、秦守浩 一、AI计算基础设施的发展简介 (一)AI计算基础设施是人工智能快速发展的实现基础 人工智能(ArtificialIntelligence)起源于20世纪五六十年代,历经符号主义、连接主义和行为主义三次浪潮的相互交织发展,到如今作为一项新兴的通用技术,正推动着社会生活与各行各业的巨变。数据、算力、算法是人工智能发展的三要素,也被誉为数字经济时代发展的三驾马车。其中,数据是生产资料,海量优质数据是驱动算法持续演进的基础养料;算法是生产关系,是处理数据信息的规则与方式;算力是生产力,体现为数据处理与算法训练的速度与规模[1]。 作为人工智能三大基础要素之一,算力是决定AI产业变革的关键承载基础。回顾人工智能的演进历程,就曾多次遇到因基础设施运算能力不足而无法突破技术瓶颈的案例,例如深度学习早在上世纪80年代就已被人工智能专家提出,由于训练深度学习模型需要循环迭代上千次,当时的计算机的运算性能不足以支撑上千次的迭代,导致深度学习模型的发展经历数年寒冬。直到21世纪高性能计算硬件的出现,加速了人工智能的训练迭代速度,使得大规模的数据训练效率大大提升,才极大地促进了人工智能的快速发展。 现阶段AI基础设施的概念已不仅仅是承载计算的硬件设备,其范围已经扩展到高速互联网络、资源管理与调度、分布式策略、计算框架、训练/推理相关应用等一套完整的AI基础服务体系。大力发展 新型的AI计算基础设施可以有效推动技术资源向创新领域集聚,助力实现智能产业化与产业智能化协同并进。中国联通作为数字信息基础设施运营服务的国家队,需要在构建新一代AI计算基础设施方面找到着力点,联合产业链各方一同推动AI计算基础设施的自主创新。 (二)人工智能产业对AI计算基础设施的算力需求激增 近年来,人工智能产业对AI基础设施运算能力的需求更是显性化激增,具体表现在以下三个方面:一是AI场景的复杂多样化提升了对AI计算基础设施算力通用性的需求。人工智能技术正在加速与千行百业的融合并因此创造出了丰富的行业应用场景,据国际数据公司(IDC)测算,我国人工智能行业应用不断深入,已有58%的企业在使用人工智能,远远高于全球平均水平[2],领跑全球。而复杂多样的AI场景落地必将依托AI基础设施提供的通用性运算能力;二是5G、AI、大数据、云计算、物联网等技术的加速发展将会带来大量的数据。预计到2025年,中国的数据量将达到486万亿亿字节[3],海量数据的计算分析必然离不开高性能的AI计算基础设施;三是AI模型越来越庞大,模型的参数规模也在快速增长,随着量级从千亿级到万亿级的发展,模型的结构也将越来越复杂。OpenAI发布的一份关于AI算力增长趋势的分析报告显示自2012年以来,AI训练所需算力每3.5个月增长一倍(对比摩尔定律翻倍需要18个月),自2012 年以来,该指标已增长30万倍以上[4]。由此可见,在复杂场景、海 量数据、超大模型的需求背景下,各个行业对于AI计算基础设施算力的需求迫切增长。 (三)国家产业政策积极鼓励发展新型AI计算基础设施 在2021年底,中央网络安全和信息化委员会印发《“十四五”国家信息化规划》,着重提出要着力夯实数字基础设施建设水平,部署了建设泛在智联的数字基础设施体系任务,适度超前部署下一代智能设施体系,深化公共设施数字化、智能化转型升级。2022年底,中共中央、国务院印发了《扩大内需战略规划纲要(2022-2035年)》,也再次明确前瞻布局创新基础设施。支持有条件的地方建设区域性创新高地,适度超前布局建设重大科技基础设施,强化共性基础技术供给。由此可见,数字经济时代,作为产业智能化底座的AI计算基础设施方面的竞争力予国家和产业的战略价值。截至2022年我国算力总规模达到180EFlops[5],全球占比约33%,保持50%以上的高速增长,远超全球平均水平。面向AI计算基础设施的智能算力占比由2016年的3%提升至2020年的45%[6],预计未来新增算力中AI算力规模增速将进一步扩大。 二、运营商应积极布局新一代AI计算基础设施 (一)运营商建设新型AI计算基础设施的需求 2022年11月,OpenAI基于大规模预训练模型GPT-3.5和自然语言生成技术发布了大模型ChatGPT,实现多轮对话问答。据估 算,GPT-3训练一次的成本约为140万美元,对于一些更大的大型语言模型(LLM),训练成本介于200万美元至1200万美元之间。 在推理方面,以ChatGPT在2023年1月的独立访客平均数1300万来计算,其对应芯片的需求量大约为3万多片英伟达A100GPU[7]。面对大模型发展带来的算力需求,建设面向AI的新一代计算基础设施成为关键的一环。 电信运营商作为ICT基础设施算力的建设者和运营者,拥有全国跨域网络互通、云网融合统一纳管的资源优势,也担当着使能全社会数智转型主力军的重任,因此在人工智能产业飞速发展的过程中,也应抓住新机遇加快构建新一代AI计算基础设施,为千行百业提供高性能的智能算力。运营商未来在构建新一代AI计算基础设施时,将通过引入异构计算的方式,打造高性能并行、异构兼容、安全可信、绿色低碳能力的新架构,满足用户高并发、高算力的需求。重点考虑:对大规模算力集群的组网,需满足超高带宽、超低时延、超高稳定性的网络质量要求;对硬件资源的整合,实现异构AI芯片的融合,并根据业务场景的需求灵活调度计算资源;针对对大规模模型的分布式训练,可根据任务选择所需资源类型和算力规模,创建集群组网并匹配相应的并行计算模式。 (二)新一代AI计算基础设施的功能架构简介 新一代的AI计算基础设施,可以分为AI-IaaS层、AI-PaaS层 以及AI-SaaS层,总体架构如图1所示。 图1新一代AI计算基础设施功能架构 AI-IaaS层主要包括异构AI算力资源、云化管理和网络互联功能,为上层的AI-PaaS以及AI-SaaS层提供计算能力、数据处理能力以及超大模型的训练和推理能力。异构AI算力资源包括通用算力CPU以及不同种类的智能算力如GPU、NPU等。由于传统的CPU计算基础设施无法承载AI大模型完成高性能计算,而智能算力芯片有大量计算单元和超长流水线,更适合处理大量类型统一的数据并行计算,因此多元异构AI芯片成为提升算力的关键要素。云化管理主要完成对于异构AI算力的虚拟池化、集群调度以及容错容灾管理。网络互联旨在为构建大规模智能算力集群提供高性能算力网络,基于远程直接数据存取(RDMA)、IPv6、智能ECN(明确的拥塞通知)、高 精度拥塞控制(HPCC)等技术构建超大带宽、超低时延和高稳定性的无损网络,实现数据、模型、应用服务等多要素的共享、流通与调度。 AI-PaaS层是AI计算基础设施的中台联动层,包括了集合通信、异构资源管理、异构并行训练引擎、分布式策略和兼容多种计算框架等能力。集合通信提供了跨不同类型加速设备的通讯支持,完成异构算力节点之间的数据交换,能够发挥所有芯片的效能。异构资源管理实现了异构计算芯片的融合,完成了资源的统一调度和监控。异构并行训练引擎根据业务场景的需求灵活调度计算资源,实现异构算力集群环境下高效的并行分布式训练。分布式策略实现根据任务所需资源和算力资源情况,自适应选择并行计算策略。AI计算框架向下调用底层AI芯片、向上承载算法模型,是执行计算任务的关键部分,AI-PaaS层支持Pytorch、TensorFlow、PaddlePaddle、MindSpore等多种计算框架,实现计算统一的标准接口和工具包,集成算法的封装、数据的调用以及计算资源的使用。 AI-SaaS层是具体的服务应用层,包括可视化的用户服务界面、各类应用的开发和管理界面等,用户在AI-SaaS层也可以对底层AI-IaaS进行可视化的纳管,同时还包括面向人工智能应用的在线开发、并行训练、迁移学习、联邦学习、模型仓库、模型压缩、AutoML、MLOPs等功能。面对人工智能算法开发场景,具备从在线开发、并行训练功能的基础上引入自动机器学习和迁移学习等技术解决模型 的设计和重训练等问题,加快并优化模型的学习效率,降低AI技术的应用和迁移成本。通过联邦学习解决计算节点之间的数据差异,数据不出域即可实现基于全局数据的模型训练,发挥数据资产的最大效能以赋能生产。通过MLOPs、模型仓库、模型压缩实现工具体系、开发流程、模型管理全生命周期的高效耦合,赋能企业更高效地利用AI创造价值。 三、新一代AI计算基础设施发展的关键技术突破点 新一代AI计算基础设施应具备以下五项关键能力:高性能计算能力(HighPerformanceComputing)、异构并行计算能力 (HeterogeneousComputing)、安全可信能力(SecuredandTrusted)、资源弹性调度能力(ElasticResourceScheduling)以及低碳绿色计算能力(GreenComputing)。 (一)高性能计算能力 1.处理器性能 现阶段主流方案都采用AI加速芯片来处理深度学习的模型训练任务。相较于CPU,GPU拥有大量的算术逻辑单元(ALU)和带宽,并支持半精度、单精度或双精度的浮点运算,在各种精度下都可实现更高的FLOPS(每秒浮点数运算次数),从而提升深度学习模型的训练的速度和精度[8]。NPU采用“数据驱动并行计算”的架构,专门为深度神经网络计算而设计,具有更高的性能和更低的能耗。此外, AI加速芯片都配有独立的内存,由比系统总线更