OpenCOCA白皮书 (2023) 主编单位 中国移动云能力中心 参编单位(排名不分先后) 云计算开源产业联盟、深圳云豹智能有限公司、上海燧原科技有限公司、上海云脉芯联科技有限公司、昆仑芯(北京)科技有限公司、锐捷网络股份有限公司、中科驭数(北京)科技有限公司、上海壁仞科技股份有限公司、中兴通讯股份有限公司、华为技术有限公司、新华三技术有限公司、珠海星云智联科技有限公司 、瀚博半导体(上海)有限公司 目录 1.算力基础设施发展现状与挑战1 1.1发展现状与趋势1 1.2应对机遇与挑战3 2.COCA软硬一体片上计算架构打造国家级自主可控算力基础设施5 2.1COCA-DPU重构计算架构6 2.2COCA-GPU融通算力生态12 2.3COCA-HPN提供海量AI算力15 3.从COCA走向OpenCOCA,业内首个开放式的软硬一体片上计算平台21 3.1能力共享,激发行业活力21 3.2行业共治,规范行业标准22 3.3协作共赢,创造行业价值23 4.展望与倡议23 4.1布局开放式智算生态,带动国内智算产业成熟发展23 4.2共建产业联盟,自主掌握云计算技术标准23 4.3联创高精尖技术,引领云计算市场下一个黄金十年24 缩略语列表25 参考文献28 1.算力基础设施发展现状与挑战 1.1发展现状与趋势 当前,以云计算、人工智能、大数据为代表的新一代信息技术蓬勃发展,传统产业与新兴技术加速融合,推动数字经济的快速增长。算力基础设施作为各行业信息系统运行所依赖的核心能力,在经济社会运行中不可或缺。近年来,我国对算力基础设施的重视程度不断提升,国家发展和改革委员会在2020年4月明确定义"新基建",即基于新一代信息技术演化而成的基础设施,其中包括以数据中心和智能计算中心为代表的算力基础设施。 在狭义上算力基础设施指以算力资源为主体的基础设施,自下而上包括底层设施、算力资源、管理平台和应用服务等,覆盖超算中心、智算中心等多样化算力体系。在广义上算力基础设施指一体化ICT服务,包含融算力生产、算力传输和IT能力服务。 作为新基建的核心组成部分,算力基础设施在我国数字经济发展过程中扮演着重大支撑角色。一方面,通过互联网、大数据、人工智能等新兴技术的深度应用,传统基础设施转型升级形成融合基础设施;另一方面,通过对科学研究、技术开发和产品研制的持续支持,算力基础设施驱动技术革新和产业应用创新。 超算智算成为算力规模增长主驱动 算力作为一种新型生产力,主要包含信息计算力、数据存储力等要素,通过算力基础设施向社会提供服务。 在数据存储力方面,根据IDC数据统计,最近5年全球数据每年以两位数速度持续快速增长。同时,国家互联网信息办公室发布的数据显示,我国数据资源规模快速增长,2022年我国数据产量达8.1ZB,同比增长22.7%,全球占比达10.5%,位居世界第二,预计到2025年数据总量将跃居世界首位,占比达到全球总量的三分之一。 在信息计算力方面,随着云计算服务的日趋成熟,算力发展呈现单要素向多要素融合转变。随着“十四五”规划持续推进,截止到2022年底,我国算力总规 模达到180EFLOPS,排名全球第二,其中,通用算力规模为137EFLOPS,智 能算力规模为41EFLOPS,超算算力规模为2EFLOPS,近五年来,我国整体算 力规模保持近30%的增长速度。 随着算力规模持续扩大,智算和超算逐渐成为新的算力增长引擎。智算方面,根据ICPA智算联盟统计,截至2022年底,全国已投运的人工智能计算中心有20余家,在建的也超过20家。地市企业依托智能计算中心的算力服务,结合本地产业特色,加快人工智能应用创新,聚合人工智能新业态。例如武汉人工智能计算中心陆续孵化出紫东太初、武汉LuoJia等大模型[1]。超算方面,2023年6月发布的最新全球超级计算机TOP500榜单中,中国以134套上榜数量位居全球第二,占26.8%。 应用创新促进数据中心融合升级 近年来随着HPC(HighPerformanceComputing)、人工智能和大数据等应用的蓬勃发展,原来的传统数据中心已无法满足新型应用的承载需要,新型应用以集群式服务为载体,具有超大规模并行计算的特征,往往依赖数十TB的高质量数据集、数十万CPU核和上万块GPU,以及节点间高效率的集合通讯,需要算力、算法、数据多要素的融通协同,迫使传统数据中心向新型数据中心演变。新型数据中心不仅是某些设备的集合,而且是包含计算、存储、通信能力以及环境、安全等配套能力,可通过内部设备传递、处理、展示数据信息,最终服务于客户的数据服务系统,具备高技术、高算力、高能效、高安全的特点,具体表现在算力规模与密度的逐步提高、“绿色低碳”新技术应用逐步扩大、本地或跨域智慧化运维管理逐步升级、信息技术与运营技术的一体化安全得到保障。 从我国总体算力供需格局来看,东西部算力供需失衡,东部地区算力应用需求大且资源紧张,而西部地区算力资源相对宽裕,通过国家“东数西算”战略构建布局合理的新型数据中心将成为推动未来社会数字化发展、促进社会产业化变革乃至重构全球竞争格局的关键举措。随着人工智能和物联网技术的发展,新型数据中心算力整体需求结构逐渐发生变化,基础算力所占比重逐步降低,智能算力与超算算力比重正快步攀升。 (1)智能计算中心 智能计算中心是指基于最新人工智能理论,采用领先的人工智能计算架构,提供人工智能应用所需算力服务、数据服务和算法服务的公共算力新型基础设施。智能算力主要是基于GPU(GraphicsProcessingUnit)、FPGA(FieldProgrammableGateArray)、ASIC(ApplicationSpecificIntegratedCircuit)或其他加速器支撑的高 并行、高密集计算能力的异构算力。近年新推出的大语言模型(LLM,LargeLanguageModule)所使用的数据量和参数规模呈现“指数级”增长,带来智能算力需求的爆炸式增加。智能计算中心主要应用于多模态数据挖掘、智能化业务高性能计算、海量数据分布式存储调度、人工智能模型开发、模型训练和推理服务等场景,所产生的大规模生产算力将为智慧医疗、智慧城市、智慧交通等领域的应用提供基础支撑。 (2)超级计算中心 超级计算中心是指配备高性能计算设备和软件,拥有超级数据存储和处理能力,且能够提供超级计算服务的综合产业化基地。超级计算指利用超级计算机的集中式计算资源来处理极端复杂和数据密集型的问题。超算芯片以CPU为主,可含部分GPU加速器,主要提供双精度浮点数(64位)计算能力,其中每秒千万亿次的运算被称为“P级”超算,每秒百亿亿次的运算被称为“E级”超算。近年来,我国超算中心发展迅猛,目前已拥有14所国家级超级计算中心。超算中心主要运用于尖端科研、国防军工、产业升级和重大社会问题等大科学、大工程、大系统中,是国家科研实力的体现,也是国家科技发展水平和综合国力的重要标志。超算中心所提供的算力将广泛应用于石油气勘探、生物医药、海洋工程、气象预测和智慧城市等众多领域,深刻影响着国家产业和人民生活。 新算力和新技术相互促进协同发展 一方面,基础设施计算技术加速演进,异构计算成为智算/超算中心的主流架构。在摩尔定律放缓、颠覆技术尚未成熟的背景下,以AI大模型为代表的多元应用创新驱动算力技术加速进入智能计算新周期,进一步带动计算产业的发展。智能计算时代,搭载各类计算加速芯片的AI服务器将成为智能算力的主要来源。另一方面,先进计算体系化创新活跃,创新模式和重点发生了转变,呈现出软硬融合、系统架构创新的特征。技术创新持续覆盖基础工艺、硬件、软件、整机不同层次,互联持续高速化、跨平台化演进,异构融合加速超级计算和智能计算协同发展。 1.2应对机遇与挑战 2023年10月8日,六部委重磅发布《算力基础设施高质量发展行动计划》, 从计算力等四个方面提出了到2025年发展量化指标,提出到2025年算力规模超 过300EFLOPS,智能算力占比达到35%[2],算力基础设施的高质量发展面临如下挑战。 随着摩尔定律的放缓,传统以CPU为中心的数据中心体系存在性能瓶颈、成本压力等问题,一方面,带宽性能增速比失调,通用CPU的性能增长已无法满足新型算力基础设施的数据增长需求;另一方面,云服务商的TCO(TotalCostofOwnership)急剧增加,百Gbps的高性能网络就需要12颗以上XeonCPU的核。因此,数据中心的体系架构需要从“以计算为中心”转向“以数据为中心”,即将“CPU处理效率低下、GPU处理不了”的虚拟化计算、网络、存储等负载卸载到专用DPU(DataProcessingUnit),提升整个计算系统的性能、降低系统的TCO。 AI(ArtificialIntelligence)场景各厂家GPU芯片技术碎片化[3]、大模型需要激发AI芯片性能,AI推理场景下GPU资源的利用率较低。多样化的GPU生态导致用户使用不同GPU芯片时增加了迁移成本;其次,模型的参数及数据量的倍增要求智算中心具备高效的训推套件来提升效率;最后,整卡或固定比例的GPU算力资源的分配方式,使得在推理场景下资源的利用率较低且算力资源调度不灵活。 大模型运算中,通信是一个重要组成部分,部分GPU进行运算,运算完成后还需要与其他GPU之间交互数据。一方面,通讯带宽越大,数据同步越快,GPU的使用率就越高。另一方面,大模型对时延和丢包要求也很高。因为,多个GPU运算同一个任务,花费时间最长的GPU运算完,才算完成一个运算任务。丢包对GPU训练的影响明显,在极端情况下,丢包甚至会导致GPU训练失败。 XPU(eXtremeProcessingUnit)算力资源从体系结构设计到指令集架构再到接口设计,都是相对封闭的,相互之间不兼容,且难以修改或进行普适性扩展。整合多种异构算力资源并采用统一编程框架对现有计算平台来说复杂度高,需要一套标准化且能高效管理异构算力资源的开放平台。 为了应对上述挑战,中国移动提出COCA(ComputeonChipArchitecture)软硬一体计算架构。其中,COCA-DPU模块,针对数据中心场景,通过计算、存储、网络、安全和管控五大引擎实现云化加速;COCA-GPU模块,用于提高GPU训练推理效率和提升GPU资源利用率;COCA-HPN(HighPerformanceNetwork)模块,用于提供大带宽、低延时及零丢包的高性能网络服务能力,释放AI集群性能。 既是挑战也是机遇,为了实现构建更宏大的算力、更高效的连接和更可靠的算力体系愿景,秉承“开放+共赢”理念,中国移动同步孵化OpenCOCA(OpenComputeonChipArchitecture)开源项目,包含DPU、GPU和HPN三个模块,用于共建XPU产业联盟,联创高性能技术,破解算力体系生态封闭难题,同时布局国产化智算生态,带动国产化智算产业成熟发展。 2.COCA软硬一体片上计算架构打造国家级自主可控算力基础设施 COCA以构建普惠的高性能算力为核心目标,以打造自主可控的高性能算力基础设施为宏伟愿景,助力数字中国建设。 遵循“软件定义,硬件加速”的理念,COCA主要由COCA-GPU模块、COCA-DPU模块、COCA-HPN模块组成。其中,COCA-DPU模块,围绕计算、存储、网络、安全、管控形成“五大卸载引擎”,基于软硬一体重构算力基础设施的数据中心;COCA-GPU模块围绕AI抽象、AI加速、AI池化技术,拉通GPU产业上下游,共同化解不同GPU平台“碎片化”的问题;COCA-HPN模块,针对大规模集群一方面需要海量的GPU算力,另一方面也将面临更为严重的网络拥塞问题的特点,提升算效突破算力互联瓶颈。 COCA以DPU为基础,通过HPN与国产GPU生态的深度融合,重构算力基础设施,联创高性能网络技术,共建自主DPU+GPU产业联盟,带动国产化智算产业成熟发展。 图2-1COC