您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[2023 Gdevops全球敏捷运维峰会]:2-2 章清云-浙江移动SRE运维体系成熟度研究与实践 - 发现报告
当前位置:首页/行业研究/报告详情/

2-2 章清云-浙江移动SRE运维体系成熟度研究与实践

AI智能总结
查看更多
2-2 章清云-浙江移动SRE运维体系成熟度研究与实践

Gdevops 全球敏GlobalD捷evOpsSumm运it 维峰会 浙江移动SRE运维体系成熟度研究与实践 演讲人:章清云 个人介绍 章清云 业用途 中国移动浙江公司SRE负责人 超越自我”工作价值观,致力于系统连续性保 障,熟悉应用维护,稳定性提升,架构治理, 灰度发布、流量回放等工作。 Gdevops全球敏捷运维峰会北京站 运维面临的巨大挑战 iops 架构复杂度呈指数级跳变严禁商业用途 云原生演进 易变性,不确定性,复杂性,模糊性 传统的静态分布式系统新型的动态复杂系统 Gdevops全球敏捷运维峰会北京站 运维困局的本质 大侠-专业化方阵-标准化 火枪手工具化,平台化 集团军中台化,生态化部分智能化 无人作战方队数字化,全智能化 20002013 2014-2018 2018-2020 2020 成熟度 一级 二级 tab 三级 浙江移动 四级 运维的困局不是来自于运维本身 而是在数字化时代,对运维定位、文化理念、组织架构、协同机制、运营体系的挑战 Gdevops全球敏捷运维峰会北京站 运维破局的关键点SRE SRE是云原生演进破局的关键 核心原因:SRE是最靠近业务的价值引领点 创新稳定 tab 工程、主动、变革)(支持、响应、维护) 拥有SRE的运维团队,定位变成了与开发相互赋能的平行组织自我解放 端到端负责环境管理和连续性管理,士气高涨,自闭环,自演进价值回归 Gdevops全球敏捷运维峰会北京站 SRE运维体系成熟度框架 业务应平台(方舟) . 发布半台(ADI宝兰湾)流目多活切带 技R工作 手 术纸牌推演演练验收极验收平价日恶分析 段运兰指挥中心实统送检(建康应 架构设计入网控材发布上应急抢修运行治理 新技不方作发布管理可观测性治理 控点制 可观性方案评生手证性检收测试右程流主治群 梁构速生方家谭估亮性能验收交更营理敢险改进案构治理 建生哈收 资迎管理,落产更新生产突袭 Gdevops全球敏捷运维峰会北京站 SRE成熟度模型框架-架构设计 架构设计并不是规划开发独有SRE具备架构设计能力,从运维的角度思考系统架构的合理性 1、可观测性 运维架构师2、架构逃生 3、应用安全 架构委员会 Gdevops全球敏捷运维峰会北京站 SRE成熟度模型框架-入网控制 验收标准 29类口130项 交付 口点流边界 入网控制 性能安全 连通 #口清 要求 注人 验收 指标 验收能力 性可逃52种 皮月oom88个 可观生H学erng机房皮急换. 注) 测能力 验收 验收系统场景 入网是生产系统病魔的开始 唯有对入网严格管控,才能真正降低系统故障率 Gdevops全球敏捷运维峰会北京站 SRE成熟度模型框架-上线发布 线上流水式持续发布 清单交付电子化打包构建自动化代码管理统一化操作一键自动化发布类型 1814虚机 脚本执行自动化容器 1配置更新自动化发布环境 代码发布自动化 生产环境 工具化✯ 持 灰度环境 代码审核扫描工具配置及脚本审核工具配置一键导入修改工具准发布环境 测试环境 平台✯撑ADCLOUD平台 宝兰德平台 蜂云平台BONC平台 Gdevops全球敏捷运维峰会北京站 SRE成熟度模型框架-上线发布(灰度发布) 010201敏捷发布,提升交付效率需求交付能力降本增效意义 02宣布熬夜上线发布时代,降本增效 03大大降低上线次日故障率,运维应急能力前移 0304 运维应急能力架构演进意义04灰度发布是云原生架构演进的典型产物 SRE实践篇细讲 Gdevops全球敏捷运维峰会北京站 SRE成熟度模型框架-生产突击 1个原则2个日标 先恢复后修复提升MTBF,降低MTTR 4-MindOFFHandsOFF 平均无故随时长平款摩安现时长原定位用平均无故随时长 4MTTR(平均故障修免时间) 故障预测故障感知态势通告分析定位故障处量故障复盘故障改进 开出检现至台/牌动现至台/自出四极定弄问管理 告警收监事料分类二/三楼定路雷时处理方案上级更管控 客户感知保险抢修智等 或如泛在化认知智能化操作无人化 数据智能能力运维研发+架构治理能力团队文化 Gdevops全球敏捷运维峰会北京站 SRE成熟度模型框架-生产突击-感知泛化 全渠道用户高精度业务 触点感知波动检测 精细化服务高效的应用 24h质量度量 又供学习 全栈的平台健康度模型 报错聚类 Gdevops全球敏捷运维峰会北京站 SRE成熟度模型框架-生产突击-四层定界 客户体验 业务平面 应用平面用户卡顿监测微服务网关监测 Paas平面 TaaS平面应用日志移动紧合Trace调用链追踪 分而治之,数据融合,信息拉通平台组件康度网络态势感知 Gdevops全球敏捷运维峰会北京站 SRE成熟度模型框架-生产突击-1-5-10 1分钟发现5分钟定位10分钟恢复 空间关联模型 4 根因推导模型 5异常核查模型 空间上谁更可疑 推导谁最可疑 是否真的可疑 检测模型2)时间关联模型 发现一堆异常带时间上谁有可疑 含义一:只有一次出手的机会含义二:根因分析并非必要条件 含义三:让机器先开枪,让代码对抗代码 Gdevops全球敏捷运维峰会北京站 SRE成熟度模型框架一生产突击 “SRE的经验告诉我们,大概70%的生产事故由某种部署的变更而触发” 《SRE:Google运维解密》 每一起严重事故的背后,必然有29次轻微事故和300起未遂先兆以及1000起事故隐患。 运维对象数字化运维动作数字化运维知识数字化故障时间、现象 平面属性操作记录专家经验(预案) 海恩法则 关系(各层关系)变更记录返步固化 状态(指标日志等)chatops采集 抢修智荐 自动采集 Gdevops全球敏捷运维峰会北京站 操作平台 SRE工程实践-灰度发布 可用区(AvailabilityZone):由一个或者多个数据中心构成的逻辑单元, 可用区之间可以实现对数据中心级故障的完全隔离 分布式混合部岩AZ化分区部署 流三调座流量调度 前台页面前台页面防台豆面前台页面 前台服务前台服务前台服务前台服务 流量调度流量调屏 网美网关网关网关 业务中心业务中心业务中心业务中心 Gdevops全球敏捷运维峰会北京站 SRE工程实践-灰度发布 基于弹性沙箱平面实现更安全的不停服发布 名负联完整的弹性沙箱平面,按需使用 NFR统一的配置在线管理,灵活管理 ✯持全渠道引流控制,精准及时 全局的任务调度框架,有序管控自动的代码发布更新,便捷高效 ETT 灰度代码发布,灰度项目割接,灰度业务营销 Gdevops全球敏捷运维峰会北京站 SRE工程实践-灰度发布 测试目的测试主体 验证新业务需求 1功能和核心功能研发、SRE 号验证回归 2 回放单地市业务 单地市流量回放 流量,验证性能SRE 和所有业务功能 3友好用户验证 通过友好用户的生产流量验证新功能和核心功能 友好用户 4引流单地市生产 单地市用户验证流量验证新版本引流地市用户功能和性能 5主平面功能回归和压测 主平面升级后 验证主平面新版SRE 本的功能和性能 Gdevops全球敏捷运维峰会北京站 SRE工程实践-流量回放测右移 云原生加速企业创新,驱动测试右移,提升交付质和效率 业务营销保障 敏捷上线✯撑 技术升级验证 驱动测试右移 系统容量优化 性能瓶颈探测 tab 仅供学习 在生产环境中进行测试,确保产品在 生产中的稳定性和性能 从生产的实时监控反馈,及时发现缺陷,以确保软件功能质量 能够测试在测试环境中不可能创建的 使用场景和实际负载级别 测试右移是从客户的角度来提升软件的实际的可用性。 建立由SRE主导的右移测试,本质上也是运维研发化转型的重要突破 Gdevops全球敏捷运维峰会北京站 SRE工程实践-流量回放测右移 云原生架构获取数据运维研发产生用例开源框架提升效率基线对比结果可靠 网络流量:镜像清洗、染色、组装、分片Lmeter:基于线程 *应用日志:LOG4X*Gatling:基于消息(并发) 核心功能 真实结果和回放结果的DIFF差分 流量归档 容量 流量预制链路采集 场景编排压力控制指标采集性能 实时流量 Python分析 Hbase文件服务器场景编排器压力控制器究业务调用链监控指标 生产液量分片流量系统并发数 业务加钱速度明细 数据创造价值の工具提升战斗力创新衍生红利 Gdevops全球敏捷运维峰会北京站 SRE工程实践-流量回放测右移 流量回放压领割接后投产性能 机负载指标 单倍测试压力5倍测试压力10倍测试压力生产性能 读流量 Sq执行频次 32711次/S 129388次/s 150132次/s 35811次/ 连接数 总连接数(活动连接数) 4000(15) 14000(34) 14000(51) 3500(17) ndg 8.86% 11.97 14.40% 8.11% 主 负载压力 系统层 Nem46.73%46.94%47.29% 44.64% Load13.8927.64§44.2910.07 lowait 性能现烈指标00.010 活动会话数 15 34 51 17 DB.层 存命中率 $69°66 99.63% 99.64% 99.13% 异常等待事件无无少量少量 业务流量回放测试指标数据与上线后真实指标数据基本吻合 Gdevops全球敏捷运维峰会北京站 SRE工程实践-混沌工程 混沌工程不只是故障注入技术的应用 更考验团队在组织文化,架构能力,故障运营,风险控制等方面的能力 架构升维拉动运维转型,运维转型✯撑架构升维 Gdevops全球敏捷运维峰会北京站 SRE工程实践-混沌工程 演练组织形式 实施人员:蓝军为SRE和各专业组成的混编团队,红军为全体生产保障人员,并由领导组成司令部进行风险管控及决策 》实施窗口:重大变更窗口普通变更窗口工作日>休息日 双向评价标准 红军得分:蓝军附加得分: 红军按照实际演练期问故障的的处理情蓝军根据实际演练发现的架构问题,并评估架 况为主要准则,单项满足得100。构问题可以引发的风险级别 V3分钟内故障感知:10分VF5风险及以下10分 V8分钟内故障定位:50分Score【红军】=100,则红军胜;VF4风险50分 V15分钟内故障恢复:100分Score【红军】<100,则蓝军胜;Score【红军】=100且Score【蓝军】>0,则双赢; Score【红军】<100且Score【蓝军】<0,则双输. F3风险及以上100分 若蓝军洁场失败引发故障,为-100 Gdevops全球敏捷运维峰会北京站 思考 故障抢修模式的演进,“1-1-1’ olus AiOps 业用途 SRE的泛化会到什么程度,比如应用安全?研发(代码类)等 仅供学习不得转 大模型在运维领域发挥的作用。 Gdevops全球敏捷运维峰会北京站 Gdevops 全球敏GlobalDe捷vOpsSummit运维峰会 THANKYOU

你可能感兴趣

hot

张立科-市场与服务支撑中心:打造卓越标杆 SRE 运维体系实践

信息技术
2024 第22届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 深圳站2024-05-13
hot

浙江移动运维数智化转型实践:民工的逆袭

中国数据智能管理峰会2023-04-15
hot

2-4 武安闯-SRE实践:从SLO工程到GOC体系建设

建筑建材
2023 Gdevops全球敏捷运维峰会2023-08-03
hot

2-2 基于云上对象存储的网易大数据平台应用实践

信息技术
DataFunSummit2022:大数据存储架构峰会2022-07-19