您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[2024 第22届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 深圳站]:张立科-市场与服务支撑中心:打造卓越标杆 SRE 运维体系实践 - 发现报告
当前位置:首页/行业研究/报告详情/

张立科-市场与服务支撑中心:打造卓越标杆 SRE 运维体系实践

AI智能总结
查看更多
张立科-市场与服务支撑中心:打造卓越标杆 SRE 运维体系实践

打造卓越标杆SRE运维体系实践 张立科市场与服务支撑中心资深专家 张立科 中移信息技术有限公司资深专家 深耕运维17年,曾在央视新闻中心担任运维和演播室直播保障核心角色;从事竞猜型体育彩票系统运维建设和管理工作10年,参与三代系统迭代和两地三中心运维架构和模式演进;曾任职某头部消费金融公司,负责SRE体系建设,主导完成统一监控、告警治理、自动化巡检平台建设以及问题闭环等核心任务,确保运维工作的高效和稳定。现负责中移信息技术有限公司市场与服务支撑中心SRE运维体系建设工作。 01前沿探索:SRE的核心理念 contents 录 目02建设SRE运维体系关键路径和实践成效 03 技术革新:元宇宙、大模型等新技术在运维领域的应用实践 04 挑战与机遇:新技术革命下的运维领域展望 PART01 •前沿探索:SRE核心理念 SRE在国内蓬勃发展,实践成效显著 SRE的由来 SRE理念起源于Google,由SiteReliabilityEngineering演变而来,强调通过软件工程的方法和技术来保证系统的高可用性。SRE理念的提出,不仅引领了IT运维的新潮流,也对其他行业产生了深远影响,推动了整个IT行业的技术革新和服务升级。 SRE已发展为以组织、管理、流程、技术、工具和文化理念等要素的体系化融合,提升系统的稳定性、可靠性、高效性和安全性的最佳实践。 国内SRE的发展 SRE被认为是近十年来,互联网和云计算学科中最好实践创新和理念突破,经历了近20年的发展和演进,已成为多学科多技术融合发展的独立领域,即SRE领域。 2016年,孙宇聪翻译出版《SRE:Google运维揭秘》在国内引起巨大的反响,许多企业开始学习并成立自己的SRE团队。 2016年,蚂蚁集团在国内成立了第一支SRE团队,主要攻坚容灾架构。 2017年,浙江移动组建应用SRE团队,负责IT系统的集成部署、应急保障等工作职责。 2018年,赵成建立“聊聊SRE”微信群,国内SRE社区初步成型。 2021年,阿里CTO线第一支横向SRE团队成立,负责全局稳定性保障、资源成本等方面的工作。 2022年,腾讯内部SRE体系正式成立,负责集团全局稳定性保障、资源成本等方面的工作。 2022年,阿里云原生大数据运维平台SREWorks正式开源,是SRE领域的一次重要的工程化实践。 SRE的核心理念-基于实践的理念扩展 效率 通过自动化和智能化工具,提高运维效率,减少人工干预,降低成本。 质量 追求高质量的产品和服务,确保系统的稳定性和性能。 持续学习 不断学习和适应新技术 和新方法,保持与时俱 进的能力。 常规理念 可靠性 确保系统的稳定运行,减少故障和中断,为用户提供持续可靠的服务。 理念扩展 安全 确保系统的安全性,预防数据泄露、服务中断等安全事件。通过持续的监控,及时发现潜在的安全风险,并构建预警机制。培养全员的安全意识,定期进行安全培训和演练。 价值 围绕业务价值实现,确保运维工作为业务带来增值。SRE工作成果量化评估,确保价值可视化。基于价值评估,不断优化运维流程和技术选型。 创新 探索和实践新理念、新技术、新工具,新模式,打造运维新质生产力。优化运维流程,减少冗余步骤。利用数据分析和机器学习技术,为决策提供科学、准确的依据。 发展 重视人才培养和团队建设,提供持续的学习和发展支撑。关注技术发展趋势,预测未来问题和挑战,拥抱变化。加强与业务价值实现各环节协作和沟通,推动业务发展。 PART02 建设SRE运维体系关键路径和实践成效 安全合规 高安全、强合规的安全与合规管理体系支撑。 价值实现 围绕实现业务核心价值,提升系统可靠性,优化运维效率,以数据支撑业务发展。 创新发展 云原生、AI+、元宇宙等技术和理念的深度融合与创新发展,为运维提智赋能。 卓越标杆SRE运维体系的主要特征 标准规范 ISO20000、ITIL和 《SRE能力成熟度模型》等标准和规范指导。 PAAS层 应用开发和部署的效率和可靠性 多租户管理 一体化研发交付 微服务治理 多中心支撑 多组件支撑 镜像管理 资源调度 异地容灾 灰度发布 智能运维 安全管理等 IAAS层 资源可靠性和可用性 IT云管调度 多云管理、租户管理、运维管理、资源管理等 IT云基础设施 计算设施(服务器、虚拟 机)、存储设备、网络设备、平台软件、安全配套 SRE运维体系-云原生技术框架下的稳定性保障能力 保障 AAAS层力 服务能力的稳 能 能力服务:大数据、物联网、大视频、基础通讯、企业服务、人工智能 定性和可用性 中 台 其他IT应用系统 能力产品:涉及医卫、交通、金融、党政、农商、工业能源、教育...... 前端应用 用户体验的连续性和数据的安全性 营销应用研发过程稳服定务性应保用障 管理应用 运维应用 技术运..营稳定性 研发 交付 需求 开发 持续集成 交 付 运维 运营 IT 综合 网管 IT 专业 网管 安全 管控 安全 运营 安全 防御 云原生技术框架下,深化云平台能力应用,在运维运营和安全管控体系下,构建稳定性保障能力,实现研发过程的持续集成和交付、资源弹性伸缩、精细化微服务管理、故障自愈、跨地域多集群调度和智能监控和维护能力,支持应用服务的横向扩展、灰度发布以及多集群的容灾切换。 全面落地AIOPS体系(数智化能力) •故障全域感知:实现全域故障感知快速定位、异常检测以及系统告警; •智能根因诊断:基于运维大数据+AI技术,实现故 障根因诊断,辅助运维人员决策; •故障自愈处置:构建运维故障自愈模型,实现各 类运维故障场景的无人化操作。 SRE运维体系-系统保障的运营管理体系 全面落地SRE联合团队(保障协同) •深化IT-GOC运营保障体系,实现一线集中化生产监控、二线集中化专业运维、三线集中化专家支持; IT-GOC •依托IT-GOC全网运营指挥调度中心,统筹一、二、三线做好运维保障工作,跨部门构建SRE联合作战团队,真正实现“一点调度、全网协同”。 标准指标考核告警分级覆盖多维监控感知异常闭环管理 •集中化生产监控 •集中化专业运维 应用层运维 SRE 联合团队 • 中间层运维 AI OPS • •集中化专家支撑 基础设施层运维 故障全域感知 智能根因诊断 •故障自愈处置 SRE运维体系-纵深防御、全面覆盖、主动预防的安全管理体系 配合安全管理组构建安全运营能力、安全防护能力,依托公司安全管理办法和上级安全指南,进一步推进部门“安全运营、安全合规、安全监测、4A接入、数据安全、安全审计”等关键安全能力的标准化、规范化和自动化转型。 运营保障 安全考核 安全意识 宣贯培训 安全审计调查取证 应急响应攻防演习 责任与职责管理 市服中心安全防御体系 安全运营 安全管理安全合规安全监测数据安全审计安全身份安全 合规监管 国家行业法律法规 行业监管要求 安全防护 集团公司安全要求 I-识别 能力中台安全防护要求 D-监测 P-防护 终端安全终端防病毒终端安全管理 补丁库管理病毒扫描 断网 系统安全 主机防护-云窍管理端监测漏洞检测 基线核查 资产日志接入漏洞整改 网络安全防火墙DDOS BOMC检测性能检测APT、IDS 态势感知一键封堵系统 事件排查 应用安全 态势感知应用防火墙网页防篡改 串联WAF系统 API检测 多级联防系统 页面下线 数据安全 金库管控安全审计 涉敏数据识别数据防泄漏数据合规管控 数据库备份 市服中心安全防护规范 R&R处置响应 病毒隔离 下电处置 攻击源封堵攻击源封堵 数据库下电 研运一体、能力支撑、创新赋能的SRE稳定性保障体系 持续完善研运一体化稳定性保障体系,全生命周期风险管控,全域闭环管理,沉淀标杆能力,持续完善工程化验收机制;量化提升SRE能力,发挥SRE应用效能,保障系统稳定性持续提升;构建组件化统一技术底座,打造低代码开发应用新范式,降低开发成本;智能化创新应用实践提升运维治理水平,提质增效。 研发过程稳定性保障技术运营稳定性保障 研运一体化稳定性保障 架构设计入网控制发布上线运行治理 体系,全生 高可用设计 测试管理 发布策略 故障预防故障观测故障处置 持续改进 命周期风险管控、全域闭环管理 高性能设计 容错管理 变更管理 健康巡检混沌工程应急预案性能容量 监控覆盖精准监控监控优化 故障发现应急响应故障定位故障恢复 故障复盘故障改进持续运营 SRE能力支撑(管理、规范、架构设计、平台、工具等能力项) 架构设计能力(51) 集成部署能力(11)发布变更能力(7)运行治理能力(29)测试管理能力(11)混沌演练能力(13) 创新应用实 组件化统一技术底座AIOps智能运维创新应用赋能 SRE组织保障能力(2) 数智化运维能力(16) 践,助力降本增效、注智赋能 技术组件化,组装式应用,助力研发效能提升 持续完善AIOps数智工具链,提升运维效率 智能运维大模型、元宇宙、RPA等深度融合,为运维注智赋能 开展SRE实践前的系统概况 系统支撑的渠道多,支撑的单位多 部门支撑100+业务渠道,16家承建单位 部门业务系统多: 25个大中型系统 系统涉及资源池多 共涉及11个资源池 业务系统使用资源多 物理机约8000+台、虚拟机约10000+台、共享存储约1000+T; 开展SRE实践前存在的问题 线上业务的迅速发展促使系统不断迭代,系统架构全面向云原生架构升级后,在提升运行质量的同时,系统复杂性急剧增大,维护边界快速增长,故障界定更加复杂,使得原有的组织架构和技术手段不再适配,传统运维模式和手段都面临着智能化、敏捷化的巨大挑战。 架构转型 •微服务化 •云化容器化 •部署自动化 •Devops •双平面 故障处理 •质量差 •效率慢 •定位复杂 •发现和处置脱节 •达不到KPI •10分钟 运维协同 •日志采集拉通 •数据格式统一化 •端到端监控拉通 •多级跨部门处置 人才培养 •自有人员 •技能全面 •复用 •自动化工具 •智能化工具 •运维开发能力 安全管理 •漏洞扫描 •代码审计 •管控制度 技术驱动 •DevOPS •AIOPS •微服务化 •容器化 •云原生 •灰度发布 •APM •全链路监控等 问题驱动技术驱动 流程规范 架构改造 能力提升 平台工具 SRE体系建设整体规划 组织革新 SRE建设规划 以能力、产品引入为主、自研为辅,推进数智化运维工具建设 SRE能力成熟度模型评估系统现状,开展SRE能力和人员能力拉通 云原生架构改造,依托云平台能力和项目迭代实现架构的改造升级 参考浙江SRE相关规范材料,结合部门管理规范整合、落地 整合部门内和跨部门人员组建联合SRE团队,构建协同机制 市服中心现状 运维开发人员和能力基础薄弱,项目资源有限,统一归口管理,敏捷度差 各系统业务、架构、合作伙伴、建设规划等差异大,SRE拉通难度大 纵向维护切面,系统架构不统一、架构基础相对薄弱 SRE相关流程规范待创建,需结合部门实际进行落地 运维组和部门内人员不足以支撑和覆盖SRE各角色分工 浙江SRE实践经验 数智化孵化能力强,先建小能力自给自足,再建大平台能力,解决一线生产的数智化 敏捷需求,实现数智化的统一规划建设 SRE横向切割,以技术维度纳管相关工作,人员复用度和集中度高,可快速纳管 系统架构ZA化和单元化,为先进技术实践提供了架构基础 配套相对完善的SRE管理规范并持续更新 配套支撑的SRE角色分工,可解决所有业务连续性问题 借鉴浙江移动先进的SRE实践经验,结合市服中心实际,开展SRE体系建设。建设规划从以下方面开展:组织架构建设、流程规范建设、稳定性架构改造、SRE能力提升、平台工具建设等,整体规划SRE运维体系建设推进落地。 持续完善优化 运维工具建设(监控、巡检、拨测)

你可能感兴趣

hot

电力物联网通信运维支撑系统实践与探索

信息技术
中国南方电网2019-03-22
hot

武安闯-B站 SRE 转型历程与可靠性工程实践

建筑建材
2023 DOIS DevOps 国际峰会 · 北京站暨 BizDevOps 企业峰会2023-10-08
hot

刘志-从理念到落地:中小银行智能运维体系建设实践

金融
2023 DOIS DevOps 国际峰会 · 北京站暨 BizDevOps 企业峰会2023-10-08