浅谈中国移动IT条线SRE运维转型 张晓培中移信息技术有限公司 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 个人简介 张晓培 中移信息技术有限公司资深专家 中国移动十百千专家,十余年深耕运维质量管理领域,致力于研究解决在用户规模、业务种类成倍增长的环境下和系统规模、系统复杂度呈指数级跃升的背景下的运维质量优化提升方案,并推动中国移动IT条线SRE全面应用提升。 中国移动IT条线SRE运维体系 目录SRE评测助推运维转型见实效 01 中国移动IT条线SRE运维体系 在数字化转型的浪潮中,中国移动信息技术中心创新构建SRE运维体系,深度融合SRE思想,全新定义中国移动SRE运维,加快形成运维领域新质生产力。该体系通过创建中国移动SRE能力矩阵,创新运维组织,对架构、部署、测试、应急、安全等整体进行管控;提升主动运维意识,将运维“左移”,筑牢业务连续性防线;建立SRE评测机制,以评促优,指导SRE运维体系落地;打造集约化运维能力,建立贯通前后端的天目可观测平台,为数智化转型注智赋能。 背景:健全SRE运维体系,增强数字经济运维保障能力,加速数字化转型 响应国家规划:增强数字经济运维保障能力 稳步构建智能高效的融合基础设施,提升基础设施网络化、智能化、服务化、协同化水平。 ——《“十四五”数字经济发展规划》 夯实数字基础设施和数据资源体系“两大基础”,推进数字技术与经济、政治、文化、社会、生态文明建设“五位一体”深度融合,强化数字技术创新体系和数字安全屏障“两大能力”。——《数字中国建设整体布局规划》 落实公司战略:持续优化全网运维管理体系 强化质量提升及运营管理,推动商业模式创新,持续深化基于规模的价值经营,实现产品服务对信息服务市场全面覆盖、价值创造能力全面提升。——《中国移动2023-2025年战略滚动规划暨2023年战略实施重点》 提升全网运维管理和运营指挥调度能力,进一步加强组织保障,健全ITGOC管理体系和SRE运维体系;完善运维流程机制,调优统一运维管理框架。——2024年信息技术工作会议 对标行业标准:创新管理和技术提速数智化转型 XOps产业创新发展论坛发布报告,指出智能运维AIOps、业务可观测性和SRE可靠性实践是当前重点关注方向。 ——《中国AlOps现状调查报告(2024)》 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 现状:业务、技术和人员发展均对运维管理带来挑战 在IT领域工作中,传统运维模式面临着运维研发内耗、维护分散影响业务融合发展的困境,云化微服务化的技术变革给IT运维带来了巨大挑战,琐碎重复的工作使得运维人员缺乏获得感。SRE运维研发化转型是必由之路。 业务发展亟需传统运维模式转型 运维研发内耗严重,影响业务快速发展 大型组织的IT部门内,运维团队仅关注系统稳定,厌恶上线变更、项目割接等工作并进行严控,经常影响项目进度;研发团队仅关心新业务或新项目的快速上线入网,而忽略了架构设计和高可用部署的合理性,导致入网后故障频发。 维护分散成本高,难以支撑CHBN融合 传统运维团队常按系统或业务类型等维度进行竖井式分工,往往需要耗费大量运维人力,且无法统一运维支撑CHBN融合。 技术演进给IT运维带来的挑战 云化微服务变革,故障定界复杂 云化微服务架构的网状调用依赖错综复杂,资源环境也从静态虚机转变为动态容器,相比于传统架构,故障定界变得异常困难。 维护边界快速增长,技术掌控困难 云化微服务化的变革导致应用系统、技术组件和进程实例等数量快速增加,运维人员的维护边界也随之增长,并需要掌握越来越多的新技术知识,给运维工作带来了巨大挑战。 运维人员在工作中缺乏获得感 运维琐事多且重复,没有获得感 日常运维工作中充斥着大量的琐碎重复任务,运维人员的大部分精力被这些琐碎重复工作占据,难以集中精力投入更深层次的系统优化和故障预防等技术性工作,整体运维效率和系统稳定性较差,运维人员缺乏工作成就感。 过度依赖“大侠”,人力断层风险较高 传统运维模式下,故障应急极为依赖少量几个运维“大侠”(专家),IT行业人员流动频繁,运维人力资源断层的风险极大。 传统运维困境 文化转型 实践落地 文化 Dev Ops 实践 定界困难 获得感差 内耗严重 维护分散 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 创新:锚定业务连续性保障目标,融合SRE理念,重构全网运维管理体系 以“保障业务连续性,加速构建新型信息服务体系”为目标,基于SRE核心理念及全生命周期运维实践,遵循管理规范化、能力标准化、支撑数智化3项原则,创新构建以组织保障、制度保障、能力保障、评测保障四轮驱动的SRE运维管理体系,实现IT运维管理的系统化、规范化、流程化,保障全网IT系统的稳定运营,全面提升IT领域数智化治理水平。 坚如磐石保障业务连续性,加速构建新型信息服务体系 提升MTTF(平均无故障时间)降低MTTR(平均故障修复时间)提升MTBF(平均失效间隔) SRE运维管理规范化SRE运维能力标准化SRE运维支撑数智化 创新变革 嵌入变革文化 组织保障 制度保障 能力保障 持续加速 SRE运维团队建设SRE人才培养体系 SRE联合作战团队SRE专业课程 两精四维管理框架 精益运维 SRE最佳实践指导 管理类最佳实践 ITGOC一体化平台 CHBN核心全覆盖 SRE工具产品集 发布变更类… 创造短期胜利 SRE专家团队SRE评测团队 SRE专家选拔SRE评测实践 精细管控四类核心要素 运维类最佳实践数智化能力指引 业务端到端监控系统立体化监控 运行治理类…数智运维类… 消除障碍 传达变革愿景 业务连续性保障能力成熟度评测保障 制定战略愿景 SRE能力矩阵 SRE评估模型全网集中评测 SRE核心理念 SRE咨询服务 建立主导团队 长期关注研发 最大化迭代速度 自动化和工具 监控系统智能分析 变更管理应急响应 容量规划资源部署 提升效率与性能 持续改进文化培养 营造紧迫感 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 在运维组织体系改革的基础上,进一步打破传统运维组织局限,组建跨单位跨不同技术栈SRE联合保障团队,横纵向拉通业务层 /SaaS/PaaS/IaaS层运维工作,实现高效协同。同时,汇聚集省专优秀人才,打造SRE评测团队,提供SRE专业解决方案。最终,形成一个高效、灵活且响应迅速的组织架构,实现运维转型升级,为业务连续性保障提供全方位运维服务。 组织保障,全局调度,打造一体化高效运维保障组织 IT中心 31省公司 专业公司(云能中心、在线中心...... SRE 团队 一线:集中化生产监控 全网运营指挥调度团队 SRE 联合 团队 二线:集中化专业运维 三线:集中化专家支持 应用层维护支撑团队 一线集中监控统一指挥调度 7*24小时保障 运营调度 SRE 联合团 队 全网IT运维专家团队 全网协同 疑难问题处理 全网协同共享 基础设施层维护支撑团队 数智化运维 混沌演练 测试管理 发布变更 运行治理 入网管控 架构设计 中间层维护支撑团队 SRE评测团队 人才 培养 国际认证交流研讨 SRE能力提升培训SRE技术沙龙 专业课程 中国移动SRE运维课程体系 多维发展 SRE运维专家 个人表彰 SRE领军人才 团队激励 运维保障专项奖 全面加强SRE运维工作管理,一方面聚焦日常运维、应急重保等工作,明确规范标准,并理清SaaS/PaaS/IaaS三层运维协同流程,确保运维工作规范开展。另一方面,提炼全网SRE运维经验,打造SRE最佳实践,面向全网IT领域提供服务,指导SRE转型。 制度保障,明确流程,健全全面规范的运维标准 SRE运维最佳实践 梳理整合全网优秀单位SRE实践经验,从管理和运维两个方面,形成SRE最佳实践,用于指导和帮助运维人员 快速实现SRE应用落地,加快完成SRE转型升级。 组织架构设计 监控管理规范测试管理规范 SRE管理最佳实践 架构设计管理故障管理规范混沌演练管理 SRE运维最佳实践 高容错设计 灰度设计调用链设计 入网管理流程 上线变更管理 ...... 高可用设计 全自动CI/CD 全链路压测 可观测技术 混沌演练 ...... 运维管理制度框架 强化SRE运维工作规范化管理,打造两精四维统一运维管理制度框架。以精益运维、精细管控为主线,制定云原生模式下跨三层运维协同工作规范,为SRE人员提供规范化的工作流程指引,确保生产运维工作高效有序开展。 体系制定 日规 常范 运运 维作 重故 保障 应管 急理 优化执行 改进实施 效果评估 全统 面一 纳视 管图 质整 量体 考评 核价 SaaSPaaS IaaS机房 资源应用 …… 人员日志 能力保障,丰富手段,锻造集约化SRE数智产品 为切实做好SRE运维管理工作,全面打造ITGOC一体化运维管理平台,实现覆盖CHBN核心业务的集省专系统全面质量纳管,端到端全链路监控系统运维质量情况,以横纵向立体化监控保障系统稳定运行,全面护航业务高质量发展。同时,进一步打造天枢、天目、天元三大类运维管理能力 ,并实现能力上台,为全网提供数智化运维能力,促进降本增效。 ITGOC一体化运维管理平台 全覆盖监控 业务端到端监控 1建一点看全的可视化运营调度看板,贯通集省专运维工单协同和应急管理流程 构 系统立体化监控 ,实现全网IT条线一体化运维管理和作战协同。 实 2现长流程业务全链路一 点看全,提供客户感知回放、 调用链监控等功能,赋能异常快速发现和精确定位。 3打造具有超强沉浸感的一 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 站式协作平台,打破物理与 现实界限,注智赋能,提升 多跨协作效率。 评测保障,以评促管,牵引全网运维数智化转型 架构管控 构建SRE评测保障体系,研究制定SRE能力矩阵和能力评估模型,组建全网SRE评测专家团队,沉淀积累全网SRE运维最佳实践,一方面通过评测量化掌握能力短板,一方面通过最佳实践指导帮助运维能力的快速落地提升。在以评促改、以评促管、以评促建的PDCA闭环支撑过程中,高质高效推动SRE工作开展,拉齐全网IT条线SRE能力建设,赋能全网数智化转型。 问题挑战 转型没有方法论 能力缺乏标准 转型效果无从评估 转型过程缺少指南 SRE转型落地破局思路 以SRE评测为手段,推动SRE落地 指导破局:提供具体可落地的SRE转型方向指导 SRE组织保障能力 数智化运维能力 混沌演练能力 测试管理能力 架构设计能力 运行治理能力 入网管控发布变更 能力能力 SRE评测组织 SRE评测办法SRE评测流程SRE评测团队 SRE评估模型:基于SRE能力矩阵,构建SRE能力成熟度和场景成熟度评估模型。能力成熟度评估模型用来识别SRE整体能力,场景成熟度评估模型用来识别场景领域下的跨能力域融合应用,聚焦于运维场景和成效。 破 全面构建SRE评测体系 运行治理 入网控制 组织全网SRE专家,参考业界理论以及行业最佳实践, SRE最佳实践 SRE能力矩阵:对架构设计、入网控制以及运行治理三个主要阶段的能力进行识别、拆解、归类和映射,提炼出SRE八大能力域。 通过广泛试点验证,持续迭代完善,构建中国移动SRE评测体系,助力IT条线各运维单位SRE转型、SRE能力和运维成效全面提升。 SRE能力矩阵 SRE管理实践 SRE运维实践 SRE评估模型 能力成熟度评估模型 场景成熟度评估模型 1、架构前置 架构稳健:4高3可共7类架构管 控标准(高可用、高性能、高容错、高安全、可维护、可观测、可恢 复);51条能力子项,降低架构设计导致业务连续性风险。 2、研发运维一体化 交付敏捷:3项不停服发布要求;4项业务功能测试要求;11项测试管理能力;7项发布变更能力。 3、运维协作高效 工