您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[亿欧智库]:2022中国算力服务发展研究报告 - 发现报告

2022中国算力服务发展研究报告

信息技术2022-09-02亿欧智库机构上传
2022中国算力服务发展研究报告

Part1.算力服务市场及行业发展现状 Part2.算力服务面临的挑战与痛点 Part3.算力服务综合价值力评价 Part4.行业趋势与建议 定义及分类:国内算力规模高速增长,以基础算力、智能算力、高端算力为三大代表类别 u算力指通过CPU、GPU、FPGA、ASIC等各类计算芯片设备处理数据,实现特定结果输出的计算能力,可以通过每秒可处理的信息数据量来衡量算力的强弱。现阶段,根据使用设备和提供算力强度的不同,算力可分为基础算力、智能算力与高端算力三大类,本报告中算力服务研究范围以智能算力、高端算力为主。 u2020年我国算力总规模达到135EFlops,全球占比约为31%,保持55%的高速增长,高于全球增速约16个百分点,未来我国算力规模仍将持续扩大,三类算力服务的结构也将继续发展优化。 亿欧智库:算力服务分类及介绍 内涵:主要基于CPU芯片的服务器提供的计算能力 内涵:主要基于GPU、FPGA、ASIC等芯片的加速计算平台提供的人工智 应用领域:电子邮箱、数据存储等 内涵:主要是基于大规模集群提供高密度计算 能训练和推理的计算能力 应用领域:气象、生物信息、石油物探、工业仿真等 应用领域:人工智能训练、推理计算 背景:数字经济持续增长、数据要素喷涌而出,对算力供给提出更高要求,算力服务作为供给形态之一应运而生 u中国数字经济规模持续增长:国务院在“十四五”数字经济发展规划中明确提出,“到2025年,数字经济核心产业增加值占GDP比重达10%”。 同时据机构预测,2025年中国数字经济规模有望超过60万亿。 u中国生产数据要素喷涌而出:据报告数据,2018年中国产生了约7.6个ZB的数据,2025年这一数字将增至48.6ZB,且数据生产量约占世界数据总量的28%,或将超越美国成为世界第一大数据生产国。由此可见,未来数据的收集、存储、管理、使用的难度及价值均会呈现质的飞跃。 u数字经济的蓬勃增长与海量数据的管理使用,对算力供给提出更高要求。智能计算中心、一体化大数据中心等算力基础设施纷纷出现,而算力服务作为核心供给形态之一应运而生,成为数字时代的核心信息新底座。 亿欧智库:2018-2025E中国数字经济规模(万亿元) 亿欧智库:算力与经济增长紧密相关 现状:算力服务依托东数西算及一体化算力网络体系,旨在解决资源分配不均等问题,推动东西部数字经济协同高质量发展 u2022年开局定调,国家发改委、中央网信办、工业和信息化部、国家能源局联合印发通知,同意在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏等8地启动建设国家算力枢纽节点,并规划了10个国家数据中心集群,“东数西算”工程正式全面启动。 u“东数西算”工程将通过有序引导东部算力需求到西部,促进资源有效配置,形成规模集聚优势,逐步搭建起新型一体化算力网络体系,推动东西部数字经济协同高质量发展。 现状:各领域的算力需求持续扩展,普惠、弹性、高效的算力服务需求迸发 u从底层算力融合释放,到软硬一体的全栈能力加持,以及性价比兼具,才能真正推动普惠算力。目前使用高端及智能算力用户可分为三大类:前沿算力用户,中小微用户及具有鲜明特色的部分用户。第一类用户工作可对接高端计算中心完成,后两者的需求受制于对接门槛与算力类型,难以与传统计算中心匹配;如自建机房与数据中心,效率及性价比相对低。因此,合适、优秀的算力服务平台,成为了提升效率的最优选。 u此外,人工智能领域的大模型训练对算力依赖较强,开发者及企业对算力的多样性、易用、经济、效率有较高要求,同时建议配备专业的运维团队。因此,平台服务的形式相比自建要更适宜,可以让更多人以高效简洁的方式使用到匹配的算力。 现状:脱胎于“云”的算力服务更为弹性灵活,随用随取,更匹配当下大量用户的任务型计算需求 u在实际研发生产中,用户对算力可扩展性与灵活性提出了更高要求。如企业算力用量并不平均,时高时低,存在突发高峰需求;科研院所受研发周期等限制,则会出现暂时不需要算力,只能闲置服务器的情况。 u而脱胎于“云”的算力服务,可以通过弹性方式灵活调度算力资源。对用户而言,可以按需购买使用,同时能享受即时服务,提升开发者的使用体验,也是更省心省力的选择。 亿欧智库:某半导体设计企业月度算力实际用量曲线(18个月) 亿欧智库:云计算辅助下省时、省心、省钱的算力服务 通过算力集群的规模化,降低单位算力成本 算力资源的弹性调度与分配 不仅科研平台,还有一些生产应用企业,对我们的算力要求会更高。无论是安全性,可靠性,还是稳定度,甚至很多。根据用户实际的应用,或者实际的需求出发,会出现大的一些突发性的情况。曾经有某个领域用户,因为其业务需要,一下给我们同时提交了几十万级别的作业…… 数据与调研显示:无论是用户端还是供给端,都表明实际生产中易产生突发性算力需求。因此算力供给方的弹性调度能力、即时服务能力对于用户而言十分重要。 现状:算力服务集资源、应用、服务、运维为一体,为用户专注自身研究,提供无后顾之忧的平台支撑 u做好算力基建,发展算力技术,从而把算力转化为生产力才是最重要的目的。 u亿欧智库基于专家访谈与调研,认为算力服务应有能力聚合跨区域计算中心的软硬件资源,并通过建设高端计算资源共享与支撑平台,向不同领域用户提供匹配需求的算力服务,同时兼顾经济性和长期运维迭代能力,为用户提供全生命周期服务。 挑战痛点一:算力资源分布不均、数据传输难度大、各地计算中心间缺乏任务协同与资源流通 u从资源调度视角来看,呈现出明显的算力资源分配不均与供需不平。首先区域间算力资源供需还未平衡,尽管地方积极布局算力基础设施,但目前供需矛盾还较为突出。其次海量数据传输困难,算力的即时调度难度大,各算力中心间也缺少任务协同和资源流通共享,导致跨广域数据交互效率低。 基础资源分布不均,跨区域传输难度大,加剧算力融合服务化难度 区域资源分布不均,加大基础资源调度难度: 东部地区大规模数据中心大,但能耗指标紧张、电成本高;西部地区可再生能源丰富,但网络宽带小、跨省数据传输费用高,无法有效承接东部需求,在资源分布侧加大了算力调度难度。 大型算力数据传输依靠传统运输方式,算力即时调度与应用难度大: 面临数据时延不敏感、单通道传输带宽有限、通道宽带数量有限等问题,导致算力传输延迟,传输费用高昂等问题。 例如石油勘探行业,具有数据量大、并行任务较多、网络体系复杂等特点,对于勘探数据的精确度和丰富度需求相当之高,同时要求高精度承载力的网络和设备,对于不少计算中心而言都难以独立供给。 大多数中小型企业缺乏专有算力平台: 平台用户间算力资源衔接较难,缺少标准化、体系化。为了保证科研机构、国家项目等的执行优先级,算力中心对市场用户关注度不足。 挑战痛点二:缺乏统一的跨网技术标准与服务标准,算力资源度量衡的标准化滞后,导致多样算力与多元场景匹配充满挑战 u从顶层设计视角来看,目前算力领域标准化的进程相对较慢。 u技术侧,尚未对算力度量、算力感知、算力路由、算力编排、算力分发、作业需求等形成统一共识,导致精确判断、匹配需求难度大,易造成资源的错配或浪费。服务运营侧,亦需在用户管理、策略管理、定价策略等层面搭建标准化运营运维团队,方能实现算力服务的标准化发展。 缺乏统一的技术标准与服务标准,导致算力调度与按需分配难度较大 挑战痛点三:异构计算作为“多样复杂计算任务处理”的底层支撑,面临着融合管理等关键性技术难点 u从技术架构视角来看,随着算力需求不断攀升,单一计算类型与架构处理器无法应对多类型、多样性数据处理任务,异构计算应运而生,在提升计算性能同时降低功耗成本。 u异构计算的优势较为显性,但目前待突破的技术瓶颈也不少。尤其是在未来在多个数据中心或智算中心互联互通的场景下,如何实现计算架构间的有机融合至关重要。 异构计算的复杂性,给融合管理带来难度;面对不同架构、指令集也给开发者编程带来诸多难题 Ø异构芯片适配标准还未统一,异构计算芯片产品除了要在芯片设计层实现突破,还面临芯片制造和封装过程中不同结构的适配与升级问题Ø面对不同的系统架构、指令集和编程模型,也给开发者带来了更多难度,同时多核环境下应用的可移植性及性能也成为目前亟待解决的问题 Ø统一的异构算力管理也并不容易,涉及各种加速芯片的加载、抽象、虚拟化、挂载、删除等一系列生命周期管理工作,也需要较长时间的磨合与流程优化 不同开发框架,体系结构复杂导致编程困难 开发者在复杂环境中的高学习成本 全生命周期的管理困难 挑战痛点四:基于软硬件融合的异构计算产业面临生态合力、生态兼容挑战,商业化之路道阻且长 u从生态开放视角来看,异构计算绝不是硬件的物理叠加,真正要释放其全部能力,最终依赖着从硬件到软件的整体式设计,生态链建设的重要性不言而喻。 异构计算生态建设与商业化进程推进阻力较大,创新不易,亟需生态链的建设与完善 Ø对于上下游厂商:异构系统所涉环节多而复杂,每一步创新都需要上下游厂商共同发力。实现商业化,还需多个领域专家相互配合,除了通用的算法、硬件和软件专家,还要有应用领域专家参与。厂家自身的创新、上下游的配合,标准的建立都是目前面临的难题。 Ø对于开发者:大部分顶层的开发者不需要关注太多的底层细节,因而异构编程生态圈较小。其次,生态链的建设不全,兼容难、硬件复杂度高、无法同步更新框架,都影响着开发者的开发效率。 目前异构生态圈小,硬件行业偏碎片化发展,亟需生态链的建设与完善 软件生态技术应用相对薄弱,芯片百花齐放,做好系统之间的兼容实属不易 各家芯片百花齐放,协同生态支撑弱,应携手业界积极推动开源的异构编程标准厂商之间的联标准,,互 硬件架构的不断细分,在考虑兼容性等性能的条件下厂商做出设计上的改变不易 助推匹配软件生态的建设,避免异构开发套件过度碎片化 应用层面、管理层面和软硬件开发者未能实现互相交谈,整个异构计算的生态面还未建立好,造成许多产业割裂、创新无法融合问题 挑战痛点五:算力复合型人才稀缺,人才培养体系不完善,在需求高速增长下,给算力服务向精细纵深发展带来压力 u从人才视角来看,算力服务商需建设专业复合型人才团队,为即时、深度的算力服务供给保驾护航。此外,高端计算中心的运营和产品服务矩阵设计需要大量的专业人才进行支持管理;算力发展的技术难题攻克也需要软硬件、新技术、新架构相关人才的加入。 u当前中国的高端算力供给存在显著缺口,专业人才的培养体系也尚不完善,对比日益倍增的算力需求,压力显而易见。 复合型专业人才培养体系不完善,需要更多相关新技术、新架构的专业人才参与 亿欧智库:中国IT相关行业人才供需缺口情况 整体来看,算力产业高速发展的同时,相关人才短缺与人才培育问题也日益凸显 人才体系培养不完善问题: 校企双方暂未形成成熟的计算人才培养体系,缺少对人才软、硬技能双管齐下培养: 高校端,仅有少数高校开设算力相关专业课程,整体教育资源分布不均。 2022年将超过25万人 亿欧智库:2021中国AI(人工智能)技术人员供需比例 企业端,缺少内部人才培训机制,在职人员难利用业余时间学习前沿技术,不易取得进一步复合型发展。 2023年将扩大至30万人 基于需求与痛点,行业参与者逐步发展算力服务整体解决方案,一站式算力服务平台应势而起 u站在用户视角,业务的运行不仅需要标准化的平台,还需要定制的存储网络,同时专业深度的服务团队也尤为重要。基于需求与痛点,行业玩家正在逐步发展推动算力服务整体解决方案,一站式算力服务平台应势而起。 行业参与者:四类厂商特点各异,优劣势并存,ICT厂商占据优势地位 u算力服务尚处于发展初期,行业竞争格局暂未完全定型。目前来看,算力服务市场主要包含四类参与者:云厂商、ICT厂商、算力代理商、国家高端计算中心。 u基于企业基因与行业沉淀不同,四类参与者各存在长处及短板。目前看以ICT厂商所孵化出的,曙光智算、华为云占据优势地位。 综