金融业分布式信息系统运维技术研究报告 北京金融科技产业联盟2023年7月 版权声明 本报告版权属于北京金融科技产业联盟,并受法律保护。转载、编摘或利用其他方式使用本白皮书文字或观点的,应注明来源。违反上述声明者,将被追究相关法律责任。 I 编制委员会 编委会成员: 王长江聂丽琴赵开山 编写组成员: 杨利进 吴声 陈鹏 刘智俊 宋凌杰 王蕴 周静 吴建兰 宋韬 包旭利 荣翔 周斌峰 张小翠 徐行 钟瑞 蔡文 陈凌云 袁振青 王文春 白杨 蒋维杰 于永恒 阚广稳 谭翔 韩鹏 赵明明 陈明 刘欣 吴嘉瑜 蓝国平 姜险峰 陆碧波 王月凡 李铮 彭晋 郑焱 李培 范泽芳 袁云飞 孙玥 熊彤磊 林科 蒋玉芳 编审: 黄本涛周豫齐吴声陈鹏 参编单位: 北京金融科技产业联盟秘书处中国工商银行股份有限公司浙江网商银行 腾讯云计算(北京)有限责任公司华为技术有限公司 蚂蚁科技集团股份有限公司北京百度网讯科技有限公司新华三技术有限公司 杭州谐云科技有限公司 摘要 金融业正处于向数字化转型发展的关键时期,而信息系统作为数字化转型的基础支撑正加速向全面分布式架构转型。分布式信息系统规模庞大,技术栈复杂,对传统运维模式提出了严峻的挑战,迫切需要构建新的运维模式。本报告在充分调研业界广泛实践探索的基础上提炼总结,研究金融业分布式信息系统运维架构规划和落地建设的体系化方法,以期更好地指导分布式信息系统运维体系的建设。 本报告建立了金融业分布式信息系统运维能力框架,强化以 “服务业务”为核心的运维理念,基于业务视角定义生产运维的各项能力水平,给出了运维管理保障方面的优化方法,并详述了运维技术能力建设的体系化方案。一是围绕监控、应急、容灾、变更、性能容量等主要运维场景,构建运维数据驱动的自动化服务和风险管控框架。二是夯实运维服务和运维数据“两个基础平台”,形成运维互联互通能力和面向场景的服务支撑能力,全面提升运维自动化水平。三是阐述了IT架构向多地多中心及单元化演进的运维配套能力建设路线。报告最后分析了运维技术的发展趋势。 关键词:金融业分布式信息系统、运维架构、运维管理保障、 运维技术能力、IT基础架构 目录 一、研究背景1 (一)金融业信息系统加速向分布式架构演进1 (二)金融业分布式信息系统运维能力不足1 (三)政策引导高质量建设分布式信息系统运维保障能力2 (四)金融业分布式信息系统运维技术研究目标4 二、金融业分布式信息系统运维能力框架4 (一)运维目标4 (二)运维架构规划5 (三)运维管理保障7 三、金融业分布式信息系统运维技术能力建设10 (一)监控发现10 (二)应急管理18 (三)变更管理26 (四)性能容量管理37 (🖂)运维技术平台48 (六)单元化架构及运维配套能力建设55 四、金融业分布式信息系统运维发展趋势展望62 参考文献65 一、研究背景 (一)金融业信息系统加速向分布式架构演进 金融业信息系统过去主要采用以IOE为代表的集中式架构,建立了较为规范的运维模式。随着移动互联网及大数据时代的到来,面对业务需求的快速增长以及多样化的计算场景,集中式的处理模式越来越显得捉襟见肘。另一方面,分布式计算的理论和实践逐渐走向成熟,分布式系统能快速地进行系统容量的扩缩以及系统性能的扩展,同时又因其多节点架构提升了系统的可用性以及容错性,不同节点之间可根据各自功能划分进行相互协作,整体上统一对外提供服务。分布式架构在其经济性、自主性、灵活性、扩展性层面较集中式架构有较为突出的优势。金融业正处于向数字化转型发展的关键时期,信息系统作为数字化转型的基础支撑正加速向全面分布式架构演进。以工商银行为例,从2015年开始持续推进分布式架构转型,目前已构建了金融业规模最大的分布式信息系统,承载银行核心业务。 (二)金融业分布式信息系统运维能力不足 为支持各类不同的应用场景并提供不同级别的高可用性、高性能、可扩展性、一致性等,分布式信息系统通常具有极高的复杂度。在复杂的生产环境中运行时,分布式系统往往伴随着各种无法预料的突发故障,导致系统服务响应延时、数据计算出错、不一致或丢失,甚至服务崩溃等问题,从而带来无法估量的损失和灾难。另外,随着微服务化、云原生、敏捷开发的快速普及, 快速支持迭代业务需求、高效提供全流程的模块交付变更、保证资源的合理使用,也成为了业务发展的核心诉求。因此,探索如何提高分布式系统在异常情况下的稳定性,避免因为各种故障带来的风险,建设全流程的服务交付体系,完善整体业务的资源管理方案,进而为用户提供高稳定、高品质服务,成为金融业分布式信息系统运维至关重要的内容。 当前金融行业的运维架构与分布式技术架构协同不足。一是既有的运维平台缺乏统一规划,新技术在运维工具中的沉淀不足。二是配置管理不适应分布式架构调用关系复杂的特性。三是监控与应急手段较难支撑分布式架构下的故障快速定位及处置。四是变更灰度及性能容量管控能力不足等。为应对上述挑战,迫切需要构建新的运维模式,具备信息系统高可靠运行保障以及赋能业务创新的高度自动化运维能力。 (三)政策引导高质量建设分布式信息系统运维保障能力 为加强企业IT系统风险管理,提高业务连续性管理能力,保障国家安全和人民生命、财产安全,国家对各行业的软件质量及系统稳定性提出了更高的标准和更严的要求,如国务院公布的 《关键信息基础设施安全保护条例》指出“建立健全监测预警制度、明确网络安全事件应急处置要求”,中国人民银行印发的《金融科技发展规划(2022—2025年)》强调高质量推进金融数字化转型,原中国银行保险监督管理委员会印发的《关于银行业保险业数字化转型的指导意见》提出建立能够快速响应需求的敏捷研 发运维体系,证监会科技监管局组织编写的《证券期货业科技发展“十四五”规划》强调遵循的第一项原则即为“稳字当头、稳中求进”等,相关政策法规列于表1。由此观之,政策要求各行业的运维团队培养良好的系统稳定性保障观念,做好风险管控,提升运维效能。 表1国内推动信息系统运维保障的相关政策 时间 机构 政策名称 相关政策 2021年4月 国务院 《关键信息基础设施安全保护条例》 建立信息共享机制、建立健全监测预警制度、明确网络安全事件应急处置要求。 2022年1月 中国人民银行 《金融科技发展规划(2022—2025年)》 强调高质量推进金融数字化转型。 2022年1月 原中国银行保险监督管理委员会 《关于银行业保险业数字化转型的指导意见》 提出“建立能够快速响应需求的敏捷研发运维体系”。 2021年11月 原中国银行保险监督管理委员会 《关于银行业保险业支持高水平科技自立自强的指导意见》 坚持风险可控。统筹发展与安全,完善风险控制机制,提升科技金融风险管理能力。 2021年10月 中国证监会科技监管局 《证券期货业科技发展“十四五”规划》 强调遵循四项原则,其中第一项为“稳字当头、稳中求进”。 2011年12月 原中国银行保险监督管理委员会 《商业银行业务连续性监管指引》 商业银行应当将业务连续性管理纳入全面风险管理体系。 (四)金融业分布式信息系统运维技术研究目标 以大型银行为代表的金融机构在推进其信息系统向分布式架构转型的过程中,在运维方面积累了大量的经验教训,进行了广泛的探索实践,取得了一定的成效,但是缺乏统一的认知和框架指导,成效参差不齐。本报告的研究目标是提炼总结业界成功实践,为金融业分布式信息系统运维架构规划和落地建设提供指导,推进金融业运维架构转型,为分布式信息系统高可靠稳定运行及赋能业务创新提供运维保障。 二、金融业分布式信息系统运维能力框架 (一)运维目标 金融业信息系统运维的本质是服务金融业务,总体目标为“生产安全稳定”以及“服务重质高效”(如图1所示),即在保障业务连续性的同时支持业务快速创新,并提升运维效能。 在生产安全稳定方面,持续将风险规避在架构设计、系统分析、开发、测试、变更等活动前,需要技术能力、架构成熟度、风险意识、组织建设等稳步提升。运维目标包括及时发现定位故障、快速解决故障、降低变更差错、防范容量突发风险等。 在服务重质高效方面,支持应用快速交付、基础环境供应效能和运维效能提升,以及运维服务互联互通。 通过运维架构目标的梳理及运维业务场景的分解,进而明确运维架构规划的主题。 图1运维目标梳理 (二)运维架构规划 运维架构规划遵循如下重点原则。 一是强化以“服务业务”为核心的运维理念,基于业务视角定义生产运维的各项能力水平。 二是加强运维体系的整体设计,夯实运维服务和运维数据“两个基础”,形成运维互联互通能力和面向场景的服务支撑能力,全面提升运维自动化水平,同时重点围绕主要运维场景,构建运维数据驱动的自动化服务和风险管控框架。 三是明确运维规范标准和评价体系,实现研发与运维、业务与技术、运维架构与技术架构之间的协同发展。重视分布式技术架构和云原生技术栈的运维能力建设,如流量调度、资源弹性、运行状态监测、故障自愈,以及分层分级灰度等。 图2运维架构规划 在运维业务场景层面,提炼并规划八大主题场景,基于场景 进行管控流程内聚和能力组合,形成各自独立、相互支撑的运维产品。本报告规划重点为监控、应急、演练、变更、性能容量等 基于上述原则,并提炼金融业分布式信息系统运维实践,形成如图2所示的运维架构规划。 主题。安全管控、运营分析、资源/资产不在本报告研究范围内。在运维技术平台建设层面,以“平台化、服务化”为核心理 念,提供“运维服务”“运维数据”两大平台,融汇PaaS、IaaS及其他专业技术工具和数据,形成一站式运维基础支撑。实践中,也可以合并成一个平台提供服务和数据两类功能。 (三)运维管理保障 1.优化运维组织管理 (1)基本组织结构 金融业分布式信息系统的运维组织架构是在传统信息系统运维组织结构的基础上演变形成,按照基础设施、技术支撑、业务单元三层人员体系分别对系统设备网络、通用技术支撑平台、各领域业务系统开展运维工作,建立如图3所示的具备“横、纵、专”特性的矩阵制运维组织结构,并适配一体化向研发、质量等科技体系上下游延伸。 图3运维组织建设 横向上,在层次内部,集成应用实体、平台实体的单元化运维团队,一个领域由一个团队负责。 纵向上,以业务场景为边界,围绕监控、应急等运维核心工 作开展链路化运维管理,强化信息系统对业务发展的价值贡献。专项上,针对信息系统运维的关键领域建设技术团队,实现 新技术的迭代和系统的持续发展。 (2)业务运维单元组织管理 随着业务运营监测感知需求的提高,分布式系统架构下,以单体应用为运维管理粒度的运维模式无法满足高效排查处置问题和风险管控的生产运维要求,需按照业务运维单元优化组织管理,强化端到端的面向业务视角的运维价值输出。 业务运维单元是结合金融主体业务领域划分及生产运维实际,围绕端到端的一组业务场景定义的用于承接版本研发、应用部署、运维分工、风险管控、应急处置等运维工作的单元。分布式系统在运维架构、制度规范、平台支撑、组织体系等方面,需基于业务运维单元构建运维能力。 在金融业分布式业务单元组织构成下,通常会根据最小业务单元的维度配置相应的技术角色,每个角色通常至少配备2人进行主备。 (3)运维专业领域组织管理 SRE(SiteReliabilityEngineer,站点可靠性工程师)是金融业务中非常特殊且有代表性的角色,根据运维对象的区别分为业务SRE、平台SRE、基础SRE,分别承担业务单元、技术支撑平台、基础设施领域的运维工作。SRE角色不仅仅负责信息系统线上的基本运维工作,同时负责利用运维专业领域的技术与平台, 从性能容量、变更管控、应急定位、监控发现、资金核对、演练管理等专业领域,系统化、体系化保障信息系统在线上的系统稳定性及业务可用性,通过技术化、平台化手段不断提升信息系统线上运行时的保障水平,同时通过演练等方式,确保运维工具与流程等持续有效。 面向SRE使用的运维专业领域技术与平台,需要配备专业的关键角色(通常有运维架构