SRE研发运营系统可靠性与连续性工程标准权威解读 尚梦宸 中国信息通信研究院云计算与大数据研究所审计与治理部工程师 AIOps国际标准编辑人,从事DevOps,AIOps、系统稳定性等发展研究与行业标准制定工作,是《研发运营一体化(DevOps)能力成熟度模型》系列标准, 《云计算智能化运维(AIOps)能力成熟度模型》系列标准,《企业IT运维发展白皮书》、《中国AIOps现状调查报告(2022)》等的编写成员之一。 2023DevOps国际峰会·北京站暨BizDevOps企业峰会 2023DevOps国际峰会·北京站暨BizDevOps企业峰会 01.SRE研发运营系统可靠性与连续性工程编制背景 02.SRE研发运营系统可靠性与连续性工程实践 03.SRE研发运营系统可靠性与连续性工程标准内容介绍 04.SRE研发运营系统可靠性与连续性工程评估介绍 信息化系统的重要性突显,系统稳定性面临着新的挑战。互联网等数字原生企业为提升数字能力、满足用户需求,不断扩大系统规模,引入敏捷开发流程,导致信息系统复杂性直线上升,稳定性风险点增多。同时运维理念随技术需求也在不断演进。 可靠性、可维护性和可扩展性 将软件工程的原则和运维的实践结合,通过自动化、监控、 故障注入等手段提高系统的可靠性、可维护性和可扩展性。 快速部署、持续集成、交付和部署 研发和运维是紧密协作的一体化团队。使用自动化工具和 流程实现快速部署、持续集成、持续交付和持续部署 (CI/CD)。 中国信息通信研究院 自动化服务器配置与部署流程 采用自动化工具和脚本减少手工操作。通过配置管理工具 自动化服务器配置和部署流程,减少手工错误和提高一致性。 文档化人工维护与更新 应用程序的开发、测试、部署之后,由运维负责部署、监 控和维护。在这个阶段,操作流程和文档以人工方式维护和更新。 系统可靠性SRE大运维阶段研发和运维协同DevOps阶段 自动化运维阶段 手工运维阶段 外部环境与需求变化促进运维(Ops)理念不断演进 运维的需求与环境发生巨大变化:随着数字技术的更新, 中国信息通信研究院 2023DevOps国际峰会·北京站暨BizDevOps企业峰会 构建新时代稳定、高效、精细、安全的大运维体系 围绕软件研发运营生命周期-需求、设计、开发、测试、运维5个维度;聚焦运维目标、组织、团队管理以及服务和工具能力5类基础保障;结合稳定性、高效能、精细化、安全运维4大工程实践,共同构建稳定、高效、精细、安全的大运维体系。 稳定性保障 高效运维 精细化运维 安全运维 SRE 工程实践 BCM AIOps 技术运营可观测性 算法模型服务化 FinOps 态势感知 4大实践 资源运营 威胁防御 ··· ··· ··· ··· 2023DevOps国际峰会·北京站暨BizDevOps企业峰会 中国信息通信研究院 大运维 稳定、高效、精细、安全 需求 设计 开发 测试 运维 5个维度 基础保障 运维目标管理 运维组织管理 运维团队管理 运维服务能力 运维工具能力 中国信息通信研究院 5类保障 通国信息 2023DevOps国际峰会·北京站暨BizDevOps企业峰会 中 中国信息通信研究 院 究 院 信研 智能化运维(AIOps)能力成熟度模型 第1部分:通用能力要求 面向智能运维整体能力建设: 关注整体能力建设情况,从感知、分析、决策、执行、知识更新五个维度考察各场景的智能运维能力效果,包括运维人员对系统工具的使用,运维人员对智能运维的理解程度,以及最终的效果。 从不同角度考察当前智能运维建设情况,从L1-L5给出指导的建设路径。帮助企业了解当前AIOps建设现状,明确改进目标和未来发展方向。 第2部分:系统和工具技术要求 面向智能运维系统和工具能力: 关注AIOps系统和工具功能能力,从基础功能、高级功能等功能性要求角度考察AIOps系统和工具应具备的相关能力,用以支持企业AIOps能力建设。 帮助企业了解并明确AIOps系统和工具需要具备的功能要求,对标行业领先实践,结合业务模式持续完善AIOps系统和工具的场景应用。 根据系统平台及工具满足的能力要求项数量将其分为三个级别:全面级(一级)、优秀级(二级)、卓越级(三级),且三级为最高级。 标准编制组成员单位 以下为参与编写《云计算智能化运维(AIOps)能力成熟度模型第1部分:通用能力要求》与 《云计算智能化运维(AIOps)能力成熟度模型第2部分:系统和工具技术要求》的成员所在单位(部分),涉及银行、证券、保险、互联网、通信等众多行业领域。 截至2023年4月,共有15家企业30个项目通过了AIOps系统和工具评估,代表行业领先水平。 2023DevOps国际峰会·北京站暨BizDevOps企业峰会 中国信息通信研究院 中国信息通信研究院 智能化运维(AIOps)能力成熟度模型第3部分:可观测性能力要求 面向可观测性能力建设:定义了智能运维领域的可观测性能力要求,包含智能运维可观测性系统应具备的体系结构、技术要求和能力要求,可用于指导基于可观测性的智能运维平台的规划、设计与实现,为相关企业选择可观测性系统工具提供选型依据,也可供自身建设基于可观测性的智能运维平台作为参考。 追踪 (Tracing) 调用链+日志 可观测 度量 (Metrics) 指标+日志 日志 (Logging) 调用链指标 + 构建可观测性能力全方位获取内部数据信息、打通指标、日志、调用链数据,把握内部数据关系、掌握系统内部情况,随后根据不同应用场景使用智能化方法,满足软件质量、效能、感知等多方面的观测需求。 FinOps指导企业IT资源的变革管理 IT资源财务运营(FinOps)是Financial与Operations的结合,这是将财务、业务与IT整合在一起的变革,从企业内部管理需求出发,打通IT、财务、业务之间的视角差异,推动IT资源高效管理,实现降本增效的目标。 FinOps从组织变革、团队协作、能力建设三方面指导企业开展IT资源精细化管理 以标准为抓手,聚焦企业FinOps能力建设 中国信息通信研究院 云资源财务运营(FinOps)平台能力要求 IT基础设施资源运营能力成熟度模型 2023DevOps国际峰会·北京站暨BizDevOps企业峰会 中国信息通信研究院 FinOps产业推进方阵持续发挥平台优势,促进产业发展 2020年12月2021年7月 在2020IT新治理领导力论坛上成立正式与FinOps基金会签署战略合作协议 2021年9月 举办国内首届FinOps主题沙龙 2022年7月 超50家产业单位共建行业生态 2023DevOps国际峰会·北京站暨BizDevOps企业峰会 01.SRE研发运营系统可靠性与连续性工程编制背景 02.SRE研发运营系统可靠性与连续性工程实践 03.SRE研发运营系统可靠性与连续性工程标准内容介绍 04.SRE研发运营系统可靠性与连续性工程评估介绍 全球宕机事件频发,系统稳定性成为行业热点 2023DevOps国际峰会·北京站暨BizDevOps企业峰会 2023DevOps国际峰会·北京站暨BizDevOps企业峰会 “运营者依照本条例和有关法律、行政法规的规定以及国家标准的强制性要求,在网络安全等级保护的基础上,采取技术保护措施和其他必要措施,应对网络安全事件,防范网络攻击和违法犯罪活动,保障关键信息基础设施安全稳定运行,维护数据的完整性、保密性和可用性。” 中国信息通信研究院 中国信息通信研究院 保障关键信息系统平稳运行,受到高度重视 《关键信息基础设施安全保护条例》 中华人民共和国国务院令(第745号):《关键信息基础设施安全保护条例》已经2021年4月27日国务院第133次常务会议通过,自2021年9月1日起施行。 中国信息通信研究院 中国信息通信研究院 信息系统稳定性面临的新环境和新挑战 2023DevOps国际峰会·北京站暨BizDevOps企业峰会 通信大数据行程卡运营,作为系统稳定性相关工作的重要基础 2023DevOps国际峰会·北京站暨BizDevOps企业峰会 中国信息通信研究院 中国信息通信研究院 行程卡系统于2020年2月底上线至2022年12月13日正式下线,累计查询量超过800亿次。2022年初阶段因多地疫情形势严峻,行程卡单日查询量维持在3亿次以上,其使用量随着各地疫情变化波动,不断为当地乃至全国疫情防控贡献重要力量。 分布式系统稳定性实验室(Stability&Resilience,STAR) 为助力我国各领域信息系统稳定性提升,中国信通院于2021年启动稳定性相关工作,依托1个实验室, 面向3类角色,形成6条工作主线 2023DevOps国际峰会·北京站暨BizDevOps企业峰会 中国信息通信研究院 1个实验室 3类角色 中国信息通信研究院 供给侧机构监管机构应用侧机构 6条工作主线 产品 工具 服务商 系统自身 灾备 保障体系 2023DevOps国际峰会·北京站暨BizDevOps企业峰会 中国信息通信研究院 分布式系统稳定性实验室:领域专业平台 实验室定位: 打造行业平台,汇聚系统稳定性相关各方智慧,共同定义、梳理、研究、推广系统稳定性相关工作及成果 成立时间:2021年4月 中国信息通信研究院 牵头单位:中国信息通信研究院技术专家:48位 对外窗口:“CAICT数字化治理”公众号活动内容: •技术沙龙举办:不定期举办 •技术标准编制:覆盖稳定性技术、建设、应用 •研究报告撰写:完成多本,见后文 中国信通院分布式系统稳定性实验室往期标准工作简介 评测情况: 2023DevOps国际峰会·北京站暨BizDevOps企业峰会 中国信息通信研究院 集产学研多方力量,聚焦信息系统稳定性(STABILITY)&韧性(RESILIENCE)研究。完成技术标准4个,研究报告2个,19家机构参与过基于标准的评测工作。 标准 《分布式系统稳定性保障能力要求》 《系统稳定性保障技术平台能力要求》 《分布式数据产品稳定性测试规范》 《数据系统灾备能力成熟度模型》 中国信息通信研究院 研究报告 《信息系统稳定性保障能力建设指南》 《混沌工程实践指南》 2023DevOps国际峰会·北京站暨BizDevOps企业峰会 01.SRE研发运营系统可靠性与连续性工程编制背景 02.SRE研发运营系统可靠性与连续性工程实践 03.SRE研发运营系统可靠性与连续性工程标准内容介绍 04.SRE研发运营系统可靠性与连续性工程评估介绍 研发运营系统可靠性与连续性(SRE) 系统技术更迭快、架构复杂,所以理论上说,“没有绝对稳定的系统,只有相对完善的保障体系”。本部分工作主要针对如何通过各类保障手段,最大限度确保系统的稳定性.集产学研多方力量,聚焦信息系统稳定性(STABILITY)&韧性(RESILIENCE)研究。完成技术标准4个,研究报告2个,19家机构参与过基于标准的评测工作。 2023DevOps国际峰会·北京站暨BizDevOps企业峰会 中国信息通信研究院 中国信息通信研究院 框架全新升级 SRE:研发过程可靠性与连续性保障能力 围绕软件生命周期研发各阶段的稳定性保障工作进行展开,主要关注设计开发阶段稳定性准入评审,稳定性相关架构设计评估,测试与代码质量,以及部署及发布过程的稳定性保障措施。 2023DevOps国际峰会·北京站暨BizDevOps企业峰会 中国信息通信研究院 稳定性准入 架构评审 测试管理 系统质量 发布策略 部署过程 变更管理 稳定性准入:对系统是否达到SRE认可的生产就绪程度的评估,评估内容从SLA、指标体系、容量规划、性能度量、应急协同等方面来规范生产系统的稳定性,以实现从更早的设计阶段和生产前的准备阶段提