版权声明 本白皮书版权属于分布式存储产业方阵,并受法律保护。转载、摘编或利用其它方式使用本白皮书文字或者观点的,应注明“来源:分布式存储产业方阵”。违反上述声明者,本方阵将追究其相关法律责任。 编制说明 牵头编制单位: 分布式存储产业方阵 主要参与编制单位: 中国信息通信研究院、华为技术有限公司、新华三技术有限公司、曙光信息产业(北京)有限公司、戴尔(中国)有限公司、联想凌拓科技有限公司、国际商业机器(中国)有限公司、中移(苏州)软件技术有限公司、中电信数智科技有限公司、北京星辰天合科技股份有限公司、浪潮电子信息产业股份有限公司、联通数字科技有限公司、安超云软件有限公司、深圳市杉岩数据技术有限公司、深信服科技股份有限公司、中电云数智科技有限公司、华瑞指数云科技(深圳)有限公司、北京焱融科技有限公司、天翼数字生活科技有限公司、深圳市泛联信息科技有限公司、云宏信息科技股份有限公司、南京道熵信息技术有限公司、京东科技信息技术有限公司、极道科技(北京)有限公司、上海霄云信息科技有限公司 主要编制组成员: 栗蔚、陈屹力、马飞、闫丹、焦辉、毛馨纬、王旭东、丁江波、张震、刘德华、孙建国、沈玉良、张天洁、张玉君、张委、杨利锋、吕磊、何营、刘飞龙、过晓春、陈学伟、孙翠锋、刘翰超、陈侃、舒坦、隋成龙、张文涛、汤杰皓、朱敏健、程少锋、许刚、王丽华、成思敏、殷康龙、胡晓宇 前言 在数字化时代的浪潮中,数据已经变成了推动社会进步的核心驱动力。每一次网络互动、每一笔交易、每一帧画面,背后都隐藏着海量的数据。对这些数据的存储、管理和分析在现代社会中已变得不可或缺。存储是数据的载体,分布式存储作为其中的一种重要形态,已经成为大数据、AI等数据智能技术深化发展的重要基石,正持续地为各行各业提供着稳固、高效、可靠的数据支撑。 中国分布式存储市场保持着稳健的增长态势,尤其在中东部区域和关键行业中,数字化转型正在推动存储市场的蓬勃发展。与此同时,AI大模型、大数据湖仓一体、数字化病理、量化交易、数据网络等新兴应用场景也在不断地扩展,为分布式存储带来更多的机遇和挑战。分布式存储产业方阵积极响应产业需求,联合产学研用多方力量,共同推动分布式存储的技术标准研制、生态体系建设、应用推广等工作,在2022年白皮书基础上,围绕新的应用场景、发展趋势,为读者提供一个清晰、系统的分布式存储产业全景,支撑政府、金融、教育、制造等各行业数字化转型,推动我国分布式存储产业健康发展。 希望通过这本白皮书,读者可以更好地理解分布式存储的价值和未来,同时也为相关行业和研究者提供有价值的参考和启示。 目录 版权声明1 一、数据智能,引领分布式存储创新发展1 (一)大模型快速崛起,开启海量数据应用新时代1 (二)算力发展需要互联互通,加速数据流动需求2 二、产业解析,纵观分布式存储产业进展4 (一)步入稳定增长阶段,筑稳非结构化数据底座4 (二)供需应用更加多元,上下游生态合作更加紧密7 (三)介质协议加速升级,全闪与融合形态快速发展10 三、场景解读,指引分布式存储新兴应用12 (一)AI大模型12 (二)大数据湖仓一体15 (三)数字化病理18 (四)生物信息分析21 (五)量化交易23 (六)边缘计算25 (七)数据网络28 四、技术透视,展望分布式存储发展趋势31 (一)架构方面,向融合负载、更高密度、更快网络发展31 (二)功能方面,向场景化无损压缩、多活容灾发展34 (三)硬件方面,向全闪存化、高效节能发展36 (四)生态方面,向云存开放对接、存储直通发展38 五、共建共赢,推进分布式存储生态发展42 图目录 图12019~2022年分布式存储市场规模4 图22022年中国各省市新增分布式存储容量5 图3分布式存储垂直行业增长表现6 图4分布式存储典型应用场景7 图5分布式存储产业生态图景9 图6分布式存储在AI大模型场景应用13 图7大数据进入湖仓一体新阶段15 图8分布式存储在数字化病理场景应用19 图9分布式存储在生信分析场景应用22 图10分布式存储在量化交易场景应用24 图11单框多节点架构示意32 图12传统TCP/IP数据传输过程33 图13RDMA数据传输过程34 图14分布式液冷存储示意图38 图15GPU直通存储示意40 一、数据智能,引领分布式存储创新发展 (一)大模型快速崛起,开启海量数据应用新时代 大模型的快速发展让大模型的训练效率引起了业界的广泛关注,大模型训练一方面对互联带宽提出了新的挑战,另一方面也对数据存储、流动的效率提出了更高的需求。从2018年谷歌发布BERT开始,业界开启了预训练大模型之路。2023年出现了第一个杀手级应用ChatGPT,由OpenAI公司在2022年11月推出,到2023年1月已经达到1亿月活用户。2023年3月英伟达在GTC大会上也表示AI的iPhone时刻已经到来,标志着大模型快速崛起,进入应用阶段。 大模型在训练过程中所需数据量庞大。模型的深度学习网络层数多、链接多、参数复杂,以及训练所用数据集种类复杂,数据量大。在深度学习算法刚刚诞生时,主流模型只有几百万参数,而BERT发布时模型参数就已经过亿,将深度学习推进到了大模型阶段。到了ChatGPT阶段,主流模型已经有几千亿参数,甚至业界已经开始规划万亿模型。几年时间里,AI模型的参数提升几千倍,如此庞大的数据与模型都需要进行存储,这就成了大模型爆发给存储的第一大考验。 大模型的另一个显著特点是对非结构化数据的高度依赖。目前会广泛提到AI大模型采用了全新的模型结构,因此对非结构化数据会有更好的吸收效果与鲁棒性,这对于AI最终效果非常重要,但也 带来一个衍生问题:如何妥善处理存储和调用海量的非结构化数据。比如,2023年9月OpenAI宣布ChatGPT开启多模态输出模式,ChatGPT在升级后加入了识图、语音识别等多模态能力,因此其训练数据也需要在文本基础上加入大量图片、语音,再比如自动驾驶车辆,每天要将大量实地测试视频存储起来作为模型训练依据。这些非结构化数据,带来了AI相关数据的海量增长,也带来了存储和处理这些数据的难题。据统计,当前全球新增数据有80%都是非结构化数据,年复合增长率达到38%,应对多元化的数据激增,已经成为大模型时代必须克服的困难。 大模型对存储的性能和安全性也提出了更高的要求。大模型往往需要频繁读取和调用数据,ChatGPT的数据访问使用量达到单月 17.6亿次,平均响应速度在10秒以内,并且AI模型的工作流程包括采集、准备、训练、推理四部分,每个阶段需要读写不同类型的数据。因此,大模型对存储性能也带来了要求。此外,围绕ChatGPT展开的一系列数据主权、数据保护争议,也提醒我们AI大模型带来了数据安全方面新的风险。试想一下,如果不法分子攻击数据库,从而令大语言模型生成错误信息欺骗用户,其危害结果既严重且隐蔽。 (二)算力发展需要互联互通,加速数据流动需求 2023年10月,工信部等六部门联合印发《算力基础设施高质量 发展行动计划》,行动计划提出到2025年,我国存储总量将超过1800EB,为我国数据存储产业提供了巨大的增长空间。行动计划重点任务部署强调探索构建我国算力互联网,促进海量数据要素高效流动。 在此背景下,实现算力统一调度和高速互联已经成为刚需,算力发展进入互联互通时代,数据流动作为算力互联互通的关键组成部分,是释放算力资源价值的基础,也是解决数算协同问题的关键环节。面对数据搬运成本高、数据安全合规、跨云跨域数据流动难等挑战,信通院联合用户和产业单位共同启动数据流动标准研究工作,期望通过标准建设助力构建开放、互联互通的算力生态系统,推动算力的协同和整合,为我国数字经济发展和创新提供更大的助力。算力互联网快速发展,数据流动是支撑算力互联互通的关键能力。云和存储对接、多云数据流动需求迸发,促进分布式存储向支撑上层多云数据管理方向演进。 二、产业解析,纵观分布式存储产业进展 (一)步入稳定增长阶段,筑稳非结构化数据底座 分布式存储市场呈现稳健增长,软硬一体比重持续上升。2022年,经过中国信息通信研究院与分布式存储产业方阵的深入分析,中国的分布式存储市场规模预计为205亿元,年复合增长率达到15%,随着经济回暖,市场增速未来将持续保持增长。其中,软硬一体的存储解决方案占据了市场的91.3%,厂商如华为、新华三及曙光等纷纷推出相应的新产品,旨在满足AI大型模型和大数据湖等场景下的非结构化数据需求。 来源:IDC、中国信息通信研究院 图12019~2022年分布式存储市场规模 中东部数字经济发达,分布式存储发展强劲。从2022年各省新增分布式存储容量规模可以看出,我国分布式存储的发展与各区域数字经济发展呈正相关。区域集中度较高,北京、广东、上海、山东、江苏、浙江六省市作为数据生产大省,容量规模新增5.6EB,占 全国新增一半以上。其中,北上广新增达3.9EB,约占全国新增容量 规模的38%。东部、中部地区城市分布式存储发展势头强劲。 来源:IDC、中国信息通信研究院 图22022年中国各省市新增分布式存储容量 随着各行业数字化转型的持续推进,应用规模持续增长。根据2021年和2022年的数据对分布式存储在各行业的市场空间进行的观察,中国分布式存储市场的前五大应用行业为政府、电信、金融、教育和制造。2022年,这五大行业在市场中的份额已占据了69%,特别是在电信、金融、教育、传媒和交通等数字化进展较快的行业,其增长态势尤为显著。 来源:IDC、中国信息通信研究院 图3分布式存储垂直行业增长表现 新兴场景应用已渐成规模,分布式存储典型应用场景规模逐步均衡。根据中国信息通信研究院和分布式存储产业方阵的市场调研及分析,分布式存储应用场景发展迅速,已经由过去典型的五个传统场景向更多的新兴应用场景发展。虚拟化/云计算、电子票据影像、医疗影像、非线性编辑、视频监控五个传统应用场景正随着分布式存储技术创新应用稳步增长。同时随着非结构化高价值数据快速增长,非结构化数据分析、数据挖掘成为生产决策流程,AI大模型、高性能计算、大数据分析、海量数据备份归档、工业互联网等新兴场景应用已经逐渐成规模,并快速扩大应用。 来源:IDC、中国信息通信研究院 图4分布式存储典型应用场景 (二)供需应用更加多元,上下游生态合作更加紧密 2022年2月,分布式存储产业方阵联合产、学、研、用各界共同发起编制国内首个分布式存储产业生态图景,2022年6月,产业生态图景(V1.0)完成编制工作。2023年10月产业生态图景 (V2.0)刷新,生态图景共有五个维度,自下而上分别是:关键部件、产品形态、服务类型、应用场景、应用行业,旨在为分布式存储产业链企业及最终用户提供清晰的分布式存储生态图景,梳理产业发展脉络,呈现不同领域的典型企业,展现分布式存储生态格局。 从分布式存储全产业链发展的角度来看,无论是位于上游的IT基础设施提供商、存储关键部件提供商,还是面向客户和行业的解决方案提供商、系统集成商,在以分布式存储为核心的生态圈中均呈现规模增长。与此同时,不同企业在提供产品或服务时,基于各家战略定位、商业决策以及运营模式的差异化,最终面向市场和用户的产品形态及服务类型呈现多元化态势。此外,分布式存储的细分赛道发展及不同行业的实际落地情况是分布式存储产业生态成熟的标志,不同领域生态伙伴的密切合作将成为连接产业供需双方的重要纽带。 图5分布式存储产业生态图景 (三)介质协议加速升级,全闪与融合形态快速发展 1、分布式全闪存储 分布式全闪存储,作为分布式存储的一种新形态,完全采用闪存技术,固态硬盘(SSD)作为主要存储介质。得益于闪存性能、高速无损RDMA网络、压缩软件栈等全闪存化设计,能够提供稳定的亚毫秒级访问性能。在过去一年间,业界多个厂商发布了自己的分布式全闪存储新产品,并且已经在不同行业用户中落地应用。可以看到,随着闪存价格的下降,分布式存储正在向匹配的应用场景快速发展,作为一种新形态,分布式全闪存储已经开始进入加速