金融存力基础设施发展研究报告 北京金融信息化研究所(FITI) 2023年12月 本报告版权属于北京金融信息化研究所有限责任公司,并受法律保护。转载、编摘或利用其他方式使用本报告文字或观点的,应注明来源。违反上述声明者,将被追究相关法律责任。 主任: 潘润红 副主任: 黄程林、庄文君 编委会成员(排名不分先后,按姓氏拼音排序): 包国强、陈大伟、方策、苟飞、黄建坤、李辉、毛梦非、庞鑫、王豪迈、王君、卫剑钒、巫建刚、吴晓晔、谢凯、杨雨阳、张有才、钟祝君 编写组成员(排名不分先后,按姓氏拼音排序): 鲍思佳、曹智华、从平平、高坤、谷文宽、李君鹏、刘朝阳、吕磊、潘磊、祈金华、裘方佳、邵志杰、苏东明、涂畅、王俊林、王培峰、王帅强、王爽、王伟、谢晶、徐子晨、杨嘉、于鹏佳、张剑、张晶晶、张兆营、赵义斌、周璇 参编单位: 北京金融信息化研究所国家开发银行 中国农业发展银行 中国工商银行股份有限公司 中国邮政储蓄银行股份有限公司招商银行股份有限公司 平安银行股份有限公司华夏银行股份有限公司渤海银行股份有限公司恒丰银行股份有限公司 上海农村商业银行股份有限公司华泰证券股份有限公司 国泰君安证券股份有限公司泰康保险集团股份有限公司 中国太平洋保险(集团)股份有限公司华为技术有限公司 浪潮集团有限公司 北京星辰天合科技股份有限公司(支持单位) 在新型算力基础设施建设中,数据存储作为新型生产力的基础性、支撑性地位不断凸显,存力基础设施的转型创新已成为目前关注的重点。在金融信息化发展、数字化转型过程中,金融存力基础设施持续进行技术演进,并根据金融业务特点和安全稳定运行的需要,不断丰富存储架构、加大技术创新和应用,存储规模、存储能力都取得显著成效。面对存储技术快速演进、信息技术供应链安全形势变化、数字化转型创新和绿色节能要求,金融存力基础设施在确保支持核心业务安全稳定运行的同时,还要积极应对分布式数据库、云原生、大数据、AI大模型等新技术应用提出的新要求,在存算分离架构、组网架构、分布式存储、集约绿色全闪存储、存储安全容灾、自主可控能力及智能化运维等不同方面加大创新应用、实现稳步发展,助力新一代金融IT基础设施建设,支持金融业务创新发展。 一、概述1 二、金融存储发展现状2 (一)金融业务与存储协同发展成效明显2 (二)金融业实现了多种存储架构和技术应用4 (三)国内外产品应用情况16 三、金融存力基础设施发展演进分析17 (一)多种新技术应用对数据存储提出更高要求17 (二)不同存储介质加快技术创新、新老替换27 (三)金融存储组网模式更加高效31 (四)金融存储逐步构建主动、协同的安全防护体系32 (五)金融存储备份容灾更加高效、智能及多元34 (六)绿色节能存储技术逐步加快应用37 (七)金融存力基础设施运维智能化水平不断提升40 (八)供应链安全风险加剧42 四、金融存力基础设施发展展望43 (一)双模态体系需要不同存储架构和新技术支持43 (二)存算分离架构支持构建“以数据为中心”的未来算力基础设施44 (三)全闪存加快应用提升绿色节能水平45 (四)RoCE和NVMeoverRoCE的组网模式趋势明显45 (五)金融存储加快新一代安全和备份容灾体系建设46 (六)金融存储供应链安全防范展望46 (七)金融存储智能化水平不断提升47 图1存储系统软件架构示意图5 图2分布式存储架构示意图6 图32022年金融行业存储类型占比示意图11 图4全闪存存储各行业占比示意图11 图5外臵存储高性能高可靠示意图19 图6数据库存算分离架构主备双集群容灾部署示意图20 图7HDD被两端替代示意图29 图8全生命周期绿色存储技术全貌图38 图9云-管-端协同的AI管理架构示意图42 在金融信息化、数字化创新发展中,存储历来是构建金融信息基础设施的关键环节。特别是当前金融业数字化转型快速发展、数据量爆发式增长、数据要素价值充分释放,作为核心资产的金融数据对存储提出了更高的稳定性、可靠性、安全性、技术先进性及绿色节能要求。近期,国家多部门联合发布的《算力基础设施高质量发展行动计划》提出:算力是集信息计算力、网络运载力、数据存储力于一体的新型生产力,主要通过算力基础设施向社会提供服务。存储的基础性、支撑性地位不断凸显,数据存力已成为一种新的生产力。 经过多年发展,目前金融存力呈现介质持续演进、架构不断丰富、高可靠、高可用等特点,助力构建新型金融算力基础设施。随着技术快速演进、数字化发展提速、国际形势复杂多变引发的IT转型持续推进,金融存力需要不断加大转型升级力度,推动构建新一代智能、安全、绿色的金融存力基础设施。 为此,金融信息化研究所组织金融机构、专业厂商开展金融存力基础设施研究,编写《金融存力基础设施发展研究报告》,全面总结了金融存储发展总体情况及不同存储技术应用情况,接着从技术演进、安全防护、绿色发展、安全可控等不同视角分析金融存储技术演进变化,并从多角度展望金融存力基础设施发展趋势,最后,通过典型案例展示金融机构存储发展成果。研究成 果为主管部门、金融机构、存储产业等各方提供参考。 (一)金融业务与存储协同发展成效明显 金融业信息化程度高、数据重要性与业务连续性强,业务创新发展与存储技术演进相辅相成。 从上世纪50年代至今,全球存储产业发展经历了酝酿期、成长期、成熟期至目前的创新期。不同阶段的存储技术产品有效支持业务发展,并持续进行迭代升级。当前,数字金融成为主流,实时交易、海量数据、持续创新的金融服务模式,不断催生具有金融业特点的存储技术,实现金融业务与存储产业的互相促进、共同发展。比如银行结账业务每天需要花费4小时,催生了存储虚拟快照功能的产生;银行系统开发过程需要模拟真实数据读写验证应用,催生了快照的实体化,即存储卷克隆功能;业务连续性的要求催生出控制器软件在线升级;业务数据激增催生出卷扩容功能;在系统组件出现亚健康状态时,需要保证业务连续,催生了在线热插拔技术等。这些技术更好地满足了金融业务快速发展带来的数据量迅速增长、业务处理时效性、数据安全性、业务连续性等需求。 目前,金融机构的数据量普遍达到PB级,其中数据量增长较快的大型金融机构数据量超过100PB,且未来5年年均增幅预计达到24.33%,呈现快速增长态势,金融机构需要持续加大存 储系统建设投入。其中,国有大型银行的集中存储规模均已达到百PB级;分布式存储规模也均达到几十PB级,甚至百PB级。2022年,中国金融存储市场规模达到11亿美元,增速13.2%,超过存储市场的平均增速7.8%。超过65%以上的市场需求来自银行业,其中国有银行、股份制银行和城商行等3大子行业占银行业需求的75%以上。 另外,不同金融业务场景存储应用具有不同的特点和需求,比如渠道交易类系统随着数字化转型的快速推进,线上化、移动化成为主流,对存储提出敏捷、弹性、大容量等需求。金融核心系统的持续稳定运行是刚需,从而对存储的时延和可靠性提出更高要求,其中传统“稳态”核心系统要求存储具备高可靠、低时延、高扩展的系统架构,包含丰富的数据服务特性和数据保护特性,保障极强的业务连续性和极高的服务质量水平,一般使用外臵高端存储;而分布式“敏态”核心系统容器平台需要容器持久化存储的快速自动化发放,以及金融级的灾备保护,使用外臵NAS存储或者分布式存储较多。票据影像系统的文件、语音、图像、视频等多种类型数据增速快、数据规模大,且监管要求长期保留,需要将票据影像索引和文件进行统一部署管理。经营分析业务需要将不同类型业务场景的海量数据融合互通、进行数据免迁移高效存储分析,需要结构化和非结构化数据的统一存储,以及多种非结构化SMB、NFS、S3、HDFS等多协议互通。数据备份归档场景需要满足大容量、易保管、易恢复、安全可靠等特性。 AI大模型应用需要大容量、大带宽、高性能的存储支撑。 (二)金融业实现了多种存储架构和技术应用 1.存储体系架构不断演进 经多年发展演进,金融业的存储体系架构出现了传统集中式、分布式和超融合三种架构,既确保了传统业务的持续稳定,也有效支持了金融业务创新发展。 (1)集中式存储 集中式存储即传统存储,也有主存储、磁盘阵列、统一存储、全闪存阵列等称谓,涉及硬件架构和软件架构两方面。硬件架构主要由存储控制器(或控制器组)、盘框和前后端口组成。存储系统运行在控制器上,控制器与盘框之间通过背板或高速线缆连接实现双环路级联控制,负责整个存储的运行控制、数据调度和对外IO访问。所有硬件部件采用冗余、双控或四控的一体化整机设计。 存储软件系统整体架构逐步走向统一存储架构,即存储系统能同时提供传统结构化SAN(块)存储和非结构化NAS(文件)存储服务。存储软件架构中,控制器的工作状态架构设计也是决定整体系统性能的一个关键设计要求,从控制器的处理前端到I/O业务上,存储系统前端软件架构主要有Active-Active架构 (简称“A-A”架构)、AsymmetricLogicalUnitAccess架构 (简称“ALUA”架构)及Active-Passive架构(简称“A-P”架构),如图1所示。整体上来讲,“A-A”架构由于采用了全局 负载均衡的设计,性能更优,高端存储普遍采用“A-A”架构,主要使用在核心业务场景。中端存储普遍采用“ALUA”或“A-P”架构,在一般业务系统中使用广泛。 图1存储系统软件架构示意图 集中式存储以技术成熟、功能完善、高可靠、高性能的特点,高度匹配金融交易类关键业务需求,在数据库、虚拟机等场景应用普遍,在金融领域目前仍超过50%的市场占比。 (2)分布式存储 分布式存储采用去中心化的分布式架构,基于以太网对相同的硬件节点进行互联,通过部署于各个节点的存储软件整合资源、提供存储功能服务。分布式存储使用多副本或纠删码等方式,代替传统存储的RAID冗余模式,组建高可用、高性能、可灵活扩展的大容量存储资源池,普遍支持块存储(iSCSI)、文件存储 (NFS、SMB、CIFS)、对象存储(S3、Swift)、大数据存储(HDFS)协议等。 分布式存储由多层结构组成,包括硬件层、软件层、服务层、接口层、管理层、网络层等。分布式体系架构如图2所示。 图2分布式存储架构示意图 分布式存储架构还分为全对称分布式架构和非对称分布式架构两种。全对称分布式架构支持通过横向扩展硬件节点线性增加系统容量与性能,无需复杂的资源需求、迁移规划,已经成为市场主流产品架构。分布式存储访问协议在支持块、文件、对象访问协议的基础上,基于大数据分析、AI等业务场景的需求,衍生出多种访问协议融合互通技术,支持文件、对象和大数据三种非结构化数据存储服务的融合互通,按需使用,实现一份数据可以被文件、对象和大数据三种非结构化服务共享访问。 在产品交付形态上,目前市面上的分布式存储产品种类众多,交付形态各异,主要有纯软件产品交付、软硬件一体机交付、云 上服务交付。纯软件产品交付便于升级、扩容和迁移改造,但是 可能存在兼容性、性能优化、售后责任分工不明确等问题。软硬件一体机交付实现软件层和硬件层解耦,便于升级、扩容和迁移改造,可灵活配臵资源,避免依赖特定硬件厂家导致的供应链风 险。云上服务交付以分布式存储作为云平台IaaS层的组成部分, 集成在云平台内交付给用户,无需单独部署和组网。 分布式存储以易扩展、大容量的特点更适合海量非结构化数据存储,如大数据、云平台、视频监控、票据影像等场景,在金融行业的使用比例逐步提高。 (3)超融合存储 超融合存储(HCI,HyperconvergenceInfrastructure)基于分布式架构,将服务器、虚拟化、SDN、软件定义存储等技术有机融合,屏蔽底层的技术和架构差异,在一套产品中整合了计算资源池、存储资源池、虚拟化和网络管理能力,以及统一的集成管理软件,提供“开箱即用”的一体机产品。可以规模化快速部署标准化的云化IaaS平台,部分超融合产品还可以提供PaaS层平台服务能力,有效简化部署和调试过程,减少了信息系统和网络建设