浙江移动运维数智化转型实践 ——民工的逆袭 浙江移动王晓征 1 中国移动浙江公司信息技术与数据管理部总经理中国移动(浙江)创新研究院常务副院长 中国移动通信集团首席专家(IT领域)中国移动科协信息技术学部专家 甲骨文Oracle数据库客户顾问委员会数据库专家委员TGO鲲鹏会荣誉导师 前中乙联赛注册球员 2003年中国第一批OCM砖家 问题(WHY) 云原生架构为数字 化转型高质量发展 保驾护航 架构升级必然造成 运维模式颠覆 思考(WHERE) 运维数字化转型的本质是什么? AIOps是雪中送炭还是锦上添花 电信企业真的有必要做DevOps吗? 新技术趋势解读 总结:必须坚持AIOpsDev 实践(HOW) 可预测 可灰度可观测可协同可逃生可守底 展望 从1510到111 分布式协同运维 产品推介 “三星一愚” ContactMe 问题(WHY) 云原生架构为数字 化转型高质量发展 保驾护航 架构升级必然造成 运维模式颠覆 思考(WHERE) 运维数字化转型的本质是什么? AIOps是雪中送炭还是锦上添花 电信企业真的有必要做DevOps吗? 新技术趋势解读 总结:必须坚持AIOpsDev 实践(HOW) 可预测 可灰度可观测可协同可逃生可守底 展望 从1510到111 分布式协同运维 产品推介 “三星一愚” ContactMe “ ” 结合当前形势看,经济社会的数字化转型进程正在加速,并呈现出“五纵三横”的新特征。 ——杨杰中国移动执行董事兼董事长 中国移动1.0时代(08年以前)、2.0时代(2008-2019) 语音短信流量 中国移动3.0时代(2019至今) 连接算力能力 “信息服务科技创新公司” 数字化转型,高质量发展 数据要素技术要素 信息(比特)光速 能量(瓦特)光速 物质(原子)音速 成本控制 成本控制 以索罗模型为理论 引入新技术进行变革 传统架构 云原生架构 效率 效率 质量 质量 数字化转型的本质是解决原子和比特传输速率差距的问题 科学技术就是生产力 云原生架构升级是数字化转型的技术基础 兰彻斯特方程(注1) 1000-2*500=707 1000-2* “集中优势兵力打歼灭战” 500=? ——毛泽东十大军事原则的核心 兰彻斯特运用于军事,同样可以类比运维数字化转型中的严峻形式 注1:在直接瞄准射击条件下,交战一方的有效战斗力,正比于其战斗单位数的平方与每一战斗单位平均战斗力(平均毁伤率系数)的乘积 假设一个系统依赖于50个微服务中心,不考虑异构底座和迭代加速的影响,若每个系统可用性能维持在99.99%,那么系统的整体可用性只有99.5%。 复杂系统 确定系统 易变性不确定性复杂性 模糊性剧增 系统视角 人员视角 心智模式:不想用、不敢用认知问题:不了解、不熟悉 市场环境:复杂性、多变性产品选型:兼容度、多元化系统稳定性:高可用、适配性 云原生步入深水区自主可控任重道远 云原生架构下网元数量呈指数级增长,系统故障的发生是不可避免的。 信创替代导致网元稳定性明显下降,对业务运行及系统维护方面存在较大挑战。 传统意义上的以资源和个人能力的运维模式在理论上就是不可行性的。 问题(WHY) 云原生架构为数字 化转型高质量发展 保驾护航 架构升级必然造成 运维模式颠覆 思考(WHERE) 运维数字化转型的本质是什么? AIOps是雪中送炭还是锦上添花 电信企业真的有必要做DevOps吗? 新技术趋势解读 总结:必须坚持AIOpsDev 实践(HOW) 可预测 可灰度可观测可协同可逃生可守底 展望 从1510到111 分布式协同运维 产品推介 “三星一愚” ContactMe “对等还击” 使用技术和数据, 算力替代体力,机器对抗机器 “从服务变成产品” 热搜关键字:AIOpsDevOps… “2021年,智能运维市场规模同比增长34.8%”——赛迪报告 “AI目前只擅长解决部分问题” 1.有充足的数据或知识——中科院院士张钹 2.信息是确定的 3.信息是完全的 4.有明确定义的 5.有限领域和单任务 “科学是发现,技术是发明” ——华为任正非 你的论文和专利 风起云涌、如火如荼点状突破vs整体困扰 你的产品,我的痛点 vs 我的ROI和职位 外部:DO平行线 “在大多数情况下,开发人员不想处理运维问题。” 《DevopsforDummies》作者亚马逊网络服务社区参与负责人EmilyFreeman “没有公主的命,得了公主的病” 内部:DO平行线 DO分离运维统一、研发分散 -技能:成年大虾VS巨婴菜鸟 -文化:拥抱变化VS高压追责 -组织:扁平无界VS层级割裂 条件不具备,东施效颦式的DevOps只会造成1+1<2从运维研发化反向推动运维转型和风控提升更为顺畅 2023年重要战略技术趋势 ①数字免疫 4个提升:事先预测(AI增强测试、混沌工程)、 事中发现(可观测性)、自动修复(自动修复)、基础管理(站点可靠性工程、应用程序供应链安全); 1个依赖:对运维研发能力的依赖; Gartner 数字免疫系统 行业云平台 超级应用 应用可观测性 平台工程 自适应AI AI TM RiS 无线价值实现 可持续技术 元宇宙 对标解读 ②应用可观测性③元宇宙 跨部门数据消费关注业务价值 三大技术演进的实质仍是运维的研发化转型 实体零接触数字永在线协同无阻碍 重点关注可观测性、数字免疫、元宇宙在运维领域带来的新技术红利 问题(WHY) 云原生架构为数字 化转型高质量发展 保驾护航 架构升级必然造成 运维模式颠覆 思考(WHERE) 运维数字化转型的本质是什么? AIOps是雪中送炭还是锦上添花 电信企业真的有必要做DevOps吗? 新技术趋势解读 总结:必须坚持AIOpsDev 实践(HOW) 可预测 可灰度可观测可协同可逃生可守底 展望 从1510到111 分布式协同运维 产品推介 “三星一愚” ContactMe 混沌工程 主动故障注入,探索崩溃临界点 精准预测 定向计划重启,规避常规风险点 “涅槃计划” 开展基于预测性维护的组件重置、数据库压力测试。数据库故障概率较比之前下降XX%。 反脆弱体系、拥抱失败(道) 组织开展形式(法) 实施关键能力(术) 盗梦演练平台(器) 四大韧性基石(势) 基石 “盗梦”演练平台已完成一期开发,并已经开始使用。 平台 故障消费能力:历史故障抽象故障画像 故障注入能力:涵盖IAAS及以上所有层级 风险控制能力:生产风险最小 能力 开展“战猿突袭,以战练战”行动,落地推进混沌工程。 行动 利用反脆弱思想,打造韧性系统 锤炼拥抱失败的团队 价值观 “磁盘健康检测” 通过LSTM等AI算法,构建不同品牌SSD盘预测模型,提前更换高危磁盘,避免故障发生。 预测组件寿命,规避重大风险点 系统的稳定性因素主要是基于架构、数据、运维平台、人制度文化等。 “优雅爆破,工具涅槃” 结合混沌工程和精准预测两大预测预防实践,MTBF提升XX%。 基于弹性沙箱的灰度发布 关键三要素 1 全面云原生化 资源自由 2 应用全面AZ化 整体可用性、判断自由 3 控制中心化 引流自由 完整的弹性沙箱平面,按需使用 统一的配置在线管理,灵活管理 支持全渠道引流控制,精准及时 全局的任务调度框架,有序管控 自动的代码发布更新,便捷高效 80%需求95%BUG50%SRE100%开发 最接近用户的观测数据最具价值 用户卡顿监测业务波动检测应用报错聚合 组件健康度网元态势感知 JS探针+RRweb回放 应用层 性能总览 全息链路 技术架构 特征统计 用户画像 告警中心 会话回放 Ajax请求 页面性能 资源分析 脚本错误 慢页面 体验指数 服务层 租户管理服务 元数据管理 数据处理服务 数据分析服务 实时流处理 数据清洗 数据层 数据分析 采控层 数据预处理 采集对象 数据索引 数据存储 探针管理 配置管理 数据关联 三方数据集成 应用业务用户画像用户操作 系统复杂度 0增加 故障案例收集提效xx% XX%故障响应先于用户报障 观测可以分层,数据必须融通 因为可灰度,所以可观测? TraceID通前后,快速定界大提升?个性服务能提供? 参与保障人员达X人, 人员集结时长小于X分钟 故障分析时长缩短XX% 故障处理时长降低XX% 通过制定多阶段协同运营目标达到协同运维的演进 线上远程参与比例超过X% 应用无状 态改造 架构单元 化改造 统一流量控制 第一原则:尽量不要发生倒换; 同城策略:同城灾备实时复制; 异地策略:分布式数据库OROraclefastsync架构? L3+ L3- 数据层逃生解决思路 2 以业务恢复为首要目标打造逃生体系,支撑核心系统实现地市级可用性突破。 覆盖XX大核心业务 已覆盖业务 占总业务量约XX% 应急业务下单成功率XX% 业务最终合规一致率达XX% 故障识别业务接管自动补偿数据稽核 运维研发 运维研发化团队牵头开发解决了传统开发团队上线周期慢,重业务轻保障的问题。 + 专项推广活动 专职运营团队 持续运营 面向不可预知的终极灾难,构建业务恢复第二赛道,高峰期业务挽回率达X%。 问题(WHY) 云原生架构为数字 化转型高质量发展 保驾护航 架构升级必然造成 运维模式颠覆 思考(WHERE) 运维数字化转型的本质是什么? AIOps是雪中送炭还是锦上添花 电信企业真的有必要做DevOps吗? 新技术趋势解读 总结:必须坚持AIOpsDev 实践(HOW) 可预测 可灰度可观测可协同可逃生可守底 展望 从1510到111 分布式协同运维 产品推介 “三星一愚” ContactMe 展望一 从时间角度,持续加强运维场景建设,推动数字免疫或者自动驾驶从局部场景到全部核心领域的覆盖,从1-5-10突破至1-1-1。 展望二 从空间角度,持续推进元宇宙协同的数字化、智能化演进,探索基于元宇宙分布式协同运维新模式,提升跨域交付能力并降低多跨协同成本,实现多跨协同作战降本增效。 星空星火 “让网络不再成为背锅侠” 星云 “不畏浮云遮望眼,只缘身在最高层” “散是满天星,聚是一团火” 愚公 “OS:老板想要哪个就哪个” 三墩IT人公众号 王璇15868166446 商务咨询,欢迎来Call 23 24