北京金融科技产业联盟2023年11月 版权声明 本报告版权属于北京金融科技产业联盟,并受法律保护。转载、编摘或利用其他方式使用本白皮书文字或观点的,应注明来源。违反上述声明者,将被追究相关法律责任。 编委会 主编:聂丽琴编委: 刘承岩张学利沈健 执笔: 王鑫沈震宇杨晓峰王启宇黄明飞陈文斌郭建强赵真孙传明杜冲邓德源刘继江张乾海阚立宸杜建成 参编单位: 北京金融科技产业联盟秘书处中国工商银行金融科技研究院深圳云豹智能有限公司 北京火山引擎科技有限公司 前言 党的二十大报告提出,要增强国内大循环内生动力和可靠性,提升国际循环质量和水平。这既离不开金融对资源配置的引导优化,也离不开科技创新在激发市场活力方面的重要作用。“十四五”时期,我国开启全面建设社会主义现代化国家新征程,数据成为新的生产要素,数据技术成为新的发展引擎,数字经济浪潮已势不可挡。2023年2月,中共中央、国务院印发《数字中国建设整体布局规划》(以下简称《规划》),指出建设数字中国是数字时代推进中国式现代化的重要引擎,是构筑国家竞争新优势的有力支撑。加快数字中国建设,对全面建设社会主义现代化国家、全面推进中华民族伟大复兴具有重要意义和深远影响。《规划》明确了数字中国建设将按照“2522”的整体框架进行布局,“2522”中的第一个“2”即夯实数字基础设施和数据资源体系“两大基础”。数字中国建设是数字金融发展的重要契机,对金融行业的数字化发展指出了明确的方向,也契合了我国促进数字经济高质量发展的总体规划。在云计算、大数据、5G、人工智能等技术的蓬勃发展下,金融云也迎来了发展的契机。金融云依据自身特点对云计算基础设施建设提出了更加严苛的要求,提供高效、安全、高容灾和高可用的云基础设施是金融云发展的重要关切点。 中国工商银行高级金融科技专家刘承岩谈到:“以云计算为 核心的数据中心,是金融机构数字化转型的核心基础设施。与公 有云不同,金融行业在追求计算多样化、高性能的同时,更加注重系统的安全可靠、绿色高效和开放兼容。当前,软件定义的云计算架构主要依靠CPU算力进行相关云资源的抽象,而随着计算规模和网络带宽的增大,用于云管控和IO处理的CPU开销越来越大,以CPU为核心的云计算架构正在向软硬协同的新型架构演进。从业界实践来看,以数据加速处理为核心,具备通用可编程能力的DPU处理器是支撑软硬协同云计算架构的关键。通过将云平台的控制面和数据面卸载至DPU,并根据金融场景进行定向优化,实现更低的单位算力成本,更高的IO性能,以及更灵活安全的云管控,将是更加云原生的计算架构。然而,当前DPU、服务器、云操作系统之间的生态并不完善,制约着金融云架构的演进,需要产业侧和用户侧共同推进构建良性、开放的生态,以促进云原生金融云算力的全行业落地”。 面向云基础设施的通用数据处理器(DataProcessingUnit, 以下简称DPU)是连接算力资源和网络资源的关键节点。DPU要解决的不仅是云基础设施“降本增效”的问题,也要解决现有云计算应用中网络资源与算力资源发展不协调的问题。随着各种应用在云环境中部署的复杂度持续增高和规模的不断扩展,数据交换不再仅仅是简单的服务器之间的数据搬运,还需要对数据进行有效的智能化处理。传统网卡(NIC)及其后续的智能网卡 (SmartNIC)由于自身技术结构的限制,无法在飞速发展的云计算应用中满足数据交换和智能化处理的需求,正在被DPU这种通 用数据处理器所取代。DPU作为通用的数据处理器,不是对NIC或SmartNIC的简单替代,而是对网络基础架构的本质改变。DPU本身所具有的通用可编程特性、低时延网络、统一资源管控以及持续发展的加速卸载特性,使得DPU正在促进云计算应用从架构上实现优化和重构。DPU作为通用数据处理的基础部件,主要聚焦当前应用中消耗CPU、GPU算力资源的网络、存储、安全以及和应用相关的数据处理任务。DPU将这些任务从CPU、GPU中卸载下来,释放CPU、GPU的算力,支撑CPU、GPU发挥更大的效能。针对金融云的发展需求,DPU本身具有的特点和能力,能很好地促进金融行业的数字化转型。 本白皮书分析了金融行业在云部署中的发展趋势及面临的 行业挑战,概述了DPU的技术演进历程、生态发展和典型案例,系统阐述了DPU技术在促进金融云绿色低碳发展方面的重要作用和应用实践,加快助力金融行业构建开放共享、稳定可靠、高效绿色、自主可控的金融级安全云平台。 目录 一、云原生浪潮下金融行业云基础设施的发展趋势和挑战1 (一)发展趋势1 (二)行业挑战5 二、DPU发展与趋势11 (一)DPU历史演进11 (二)DPU生态发展17 (三)DPU典型案例19 三、基于DPU构建绿色低碳金融云24 (一)统一部署弹性调度25 (二)计算实例高可用28 (三)加速云原生网络29 (四)加速云原生存储31 (🖂)加速微服务应用33 (六)加速云原生安全34 (七)加速大模型训练35 (八)提升计算资源利用率36 四、DPU在金融云的应用分析41 (一)弹性裸金属41 (二)零信任安全43 (三)高性能扁平化容器网络45 (四)人工智能大模型47 五、DPU在金融云平台发展中的展望50 六、结语52 插图附录54 缩略语55 一、云原生浪潮下金融行业云基础设施的发展趋势和挑战 (一)发展趋势 在云原生技术快速发展、经济与商业模式正发生深刻变化的背景下,金融云平台作为金融行业数字化转型的依托,在金融行业生态格局中扮演着非常重要的角色。金融云包含平台基础设施 (IaaS)、应用平台(PaaS)和金融生态(SaaS)3个层面(如图1所示),其中基础设施是构建体系完备、规模超大、自主可控和灵活高效的金融云平台的基石。 图1金融云平台 1.绿色计算与低碳发展 在碳达峰碳中和的双碳背景下,金融机构也在绿色转型和数字化转型升级中寻求突破,促进绿色计算和数字低碳技术创新。 有数据显示,我国数据中心年用电量在全社会用电量中的比 重正在逐年升高,为确保实现碳达峰碳中和目标,就需要在数据中心建设模式、技术、标准和可再生能源利用等方面进一步挖掘节能减排潜力。近年来,云计算发展迅猛,其本身就是一种绿色技术,提高了CPU的整体利用率。通过聚集计算资源和转移工作负载,云的资源利用率持续得到提高。 推动数据中心绿色可持续发展,加快节能低碳技术的研发应用,提升能源利用效率,降低数据中心能耗,从而实现绿色计算与低碳的发展目标。 2.部署模式多样化 金融领域云计算部署模式主要包括私有云、团体云以及由其组成的混合云等。在实际的落地部署中,不论是采用私有云建设方式,还是采用与第三方合作的公有云建设方式,亦或混合云建设方式,越来越多的金融企业都在尝试利用云计算技术来降低运营成本,促进产品创新。当前,越来越多的金融机构开始尝试将IT业务搭建在云上,而未来这一趋势还将不断深化。 私有云或者混合云的建设模式在传统银行、证券等企业中得到青睐,而公有云模式则成为大量新兴互联网金融企业的选择,通过与第三方公有云厂商合作,得以实现自身业务的快速扩展,业务快速上线。金融业务上云呈现多样化的趋势,不同的金融企业也正在根据自身情况选择适合自身发展的建设模式。 3.稳定与敏捷并存 当前金融业务的发展中,既有针对稳态业务的高稳定性、高 可靠性、高安全性要求,也有针对大数据、人工智能、区块链等新数字化技术业务的敏捷支持要求。随着金融业务规模的不断扩大,以及面向互联网业务场景的不断丰富,传统金融行业的信息管理系统已经严重制约了金融行业向数字化转型的发展。一方面,越来越多的用户通过互联网进行经济活动(例如查询信息、购物和理财等)。另一方面,金融行业也正在借助与互联网技术的结合推出更多业务,增加用户量及用户黏性。因此对未来的金融云平台提出了新的需求。在资源利用上,需要对资源进行池化管理,解耦计算、存储、网络和安全,从而实现对计算、存储、网络和安全资源的统一高效调度管理,进而实现透明、按需供给的资源管理模式。在安全上,不仅是现有的应用层数据需要安全监控和管理能力,随着金融业务的不断变化,虚拟化层的引入以及基于云原生的容器、微服务的应用部署也需要依赖整个云原生平台的安全监控和管理能力。总体上,需要在实现安全和高效的前提下,保证具有高容灾和高可用性。 4.安全可信与可控 随着金融业务上云的不断深化,经济活动安全越来越受到国家和监管部门的重视。金融行业对于数据的安全性和合规性要求非常高,金融云需要提供高度安全的数据存储和传输机制,确保客户敏感信息的保护和隐私安全。因为金融业务中涉及大量的资金、交易、用户隐私信息等敏感数据,所以对数据和隐私保护有更高的安全要求,这直接关系到国家的经济安全,同时也影响着 老百姓生活的方方面面,使得金融云服务的安全可靠、可信、可控成为其发展必须满足的条件。当前,金融云发展所面临的安全问题并没有完全有效解决,已成为阻碍金融云发展的障碍之一。对数据加密性要求最高的金融行业将整体系统上云之后,建设更高的安全、可信、可控的金融云平台是未来的必然趋势。 5.高可用需求 金融行业对规划、建设和运维的专业性要求也非常高,从规划、建设到各个系统的迁移和管理,都与其他行业的云服务有着很大的不同,在行业和系统内部都有着严格的规范要求。针对高可用性,规范就要求云计算平台应具备软件、主机、存储、网络节点、数据中心等层面的高可用保障能力,能够从严重故障或错误中快速恢复,保障应用系统的连续正常运行,满足金融领域业务连续性要求。 由于金融行业的特殊性,高可用是金融云基础设施建设中需 要重点关注的问题。随着金融应用数量和类型的不断增加,以及对网络复杂度的要求也越来越高,高可用性成为金融云持续发展的重要保障。 6.数据分析和AI能力支撑 随着AI的发展,金融行业越来越多地使用数据分析和人工智能来优化业务决策和风险管理。因此,金融云通常会提供数据分析和AI训练推理的能力。此外,通用人工智能(AGI)所取得的成果使人们看到了一种可能性,即依托基础大模型的训练结果, 针对垂直领域特定场景和行业进行精细化模型训练,使AI在垂直领域实现落地应用,提高生产率。金融云平台在这个层面也在逐步加大投入,为AI训练提供网络和算力的基础设施支撑。 总体而言,在金融云基础设施向云计算架构的发展过程中,需要着力打造具有快速响应、弹性伸缩、高可用、低成本和安全的云计算环境。在整体的演进过程中,也面临着诸多挑战需要一一克服,这些挑战主要体现在以下方面。 (二)行业挑战 1.资源利用率低 为支撑应用平台(PaaS)和金融生态(SaaS)的服务功能,在基础设施(IaaS)层需要对计算、网络以及安全等基础资源进行优化和管理。目前在PaaS和SaaS层,金融云的应用有着向以微服务为主,采用容器、K8s集群、ServiceMesh等管理框架实现管理和部署的趋势。这种“容器+微服务”的方式将基础设施的计算资源释放给上层使用,容器技术拥有自身独特的优势,尤其是在金融云平台的生产环境中得到了广泛应用。然而容器技术的发展却对基础设施的资源管控提出了新的挑战,通过微服务,将复杂系统拆分为易于开发和维护的服务单元,从而实现敏捷性开发,例如Kubernetes,Istio等框架和方案都是这种思想的应用和实践。但是,随着各种应用程序组件分布在不同的服务器和虚拟机之中,带来了东西向流量业务激增。这些激增的东西向流量主要是来自不同虚拟机之间、不同容器应用之间的通信流量。 这种微服务架构带来了分布式系统的复杂性,每个服务需要进行管理、调度和监控,这些管理组件的引入,无疑加重了额外的资源管理开销。随着容器和微服务部署规模的扩大,Kubernetes、Istio组件消耗的主机HOST算力资源的比重将逐渐增大,最终将导致云计算平台无法提供有效的算力资源给容器和微服务应用,极大降低了金融云平台对计算资源的有效利用。 2.部署模式的挑战 在云计算技术金融用规范的要求中,明确金融云平台在实际的部署过程中,首先必须秉持安全优先、对用户负责的原则