运营商业务数字化转型实践 贾涛技术主管 •中国移动通信集团辽宁有限公司运维专家 •SRE技术专家 •负责运营管理、智慧运维、应急保障等平台的建设工作 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 Content 目录 01转型挑战 数字化转型面临的挑战 02业务治理 运营商业务治理理念 03落地实践 数字化转型中的实践经验 04演进思考 运维可观测的演进方向 01 转型挑战 数字化转型面临的挑战 数字化转型过程中衍生出越来越复杂的运行环境 云原生时代业务应用愈发复杂多变,环境、场景和技术越来越多样化,系统迭代更加敏捷,而运维工具繁多、功能参差不齐,产生的数据相互割裂,形成的分析结果关联性不强,无法实现全局运维掌控的要求。 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 Web用户 3rdparties 移动用户 应用组件 计算、存储 视角不同 主动拨测 数据库 WEB组件 模型不一 数据缺失 微服务 告警泛滥 压力测试 难以关联 业务转型过程中传统运维视角带来的局限 为了更好的适配云原生的多层架构,不仅要实时监测基础设施各项指标、业务日志、服务链路等,还需要建设多种垂直监测工具及平台,统一了数据管控平台,通过点对点的观测解决一部分问题。看似方方面面都监控到了,但缺少了数据的关联性和分析排查的连贯性,遇到问题,只能通过大规模排查分析,问题发现和定位的效率低。 通过零散的监控工具 看见局部的观测点 很难预料业务出问题时 有哪些点可以去监控? 掌握问题的线索时 要不断切换工具去定位 收集到的监控规则 不能完全有效复现问题? 多种垂直监控平台 看板 日志 指标 服务链 垂直观测工具 零散观测点 监控运维能力现状 监控工具众多 传统的工具是垂直向的,引入一个新的组件的同时也引入一个对应的观测点,为保障数据全面性,搭建了很多监控管理工具。 数据相互独立 通常我们会基于自己想要的数据去构建分析视角,而监控点各自独立,没有关联成面,数据缺乏关联性。 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 可观测性成为云原生架构下业务监控的良药 全方位的可观测性,能够实时地、清晰地挖掘场景化问题,利用灵活调配、协作等打破数据孤岛。 客户端用户体验分析业务性能可分析 运营 可观测视图扩展高效排障体系 运营团队 运行 SRE团队 告警 Alerting 监控 概况 Overview 应用性能分析 基础软件监控分析 可靠性 PaaS层 业务运维团队 排错:诊断故障�现的原因 Debugging 剖析:进行性能分析 可观测 找到 容器资源监控分析 虚拟资源监控分析基础设施资源监控 IaaS层 PaaS运维团队 IaaS运维团队 Profilling异 常的 因 依赖分析:厘清关系原 Dependency 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 02 业务治理 运营商业务治理理念 平台运维人员 业务运营人员 指挥调度人员 应急保障人员 观测能力 面向运维:资源级故障自主 故障快恢分析处置 程序级故障全过程追踪 面向一线:技改优化 业务服务页面观测 业务规则异常优化过程追踪 端到端全局观测 业务健康分析观测 基础能力 数据基座 指标体系 业务模型 一体化可观测平台 AutoOPS AIOPS 数据标准 资源链标准 服务链标准 业务链标准 提升可见性 故障分类处置 提升服务质量 基于可观测理念重定义业务监控运维体系,契合新时代趋势 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 业务系统服务治理 本地云 容器云 IT云 指标 链路 日志 可观测埋点治理 高可用治理 业务流程再造 通知服务 变更管理 CI/CD 制度保障 可观测埋点非功能测试 平台高可用专项治理 一体化可观测平台 运维专家 专家运维知识 APMUEM Log4X RUM 混合IT环境 移动云 IT云网络云 数据采集 ü指标ü链路ü日志 可观测数据底座 运维数据 业务故障预警态势感知大盘业务健康度 预警 告警/故障告警/故障 专家运维知识 故障根因定位 辅助运维决策 全栈式故障追踪 基于可观测理念重定义业务监控运维体系,契合新时代趋势 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 运维人员 告警/故障通知人工故障定位 03 落地实践 数字化转型中的实践经验 业务流程 步骤2 业务过程 步骤3步骤5 步骤3步骤6 业务办理套餐变更 改造的阵痛 流量控制 业务能力中心 业务流程再造治理 业务的强健 通用能力中心 应用服务 PaaS平台 DBRedis 并发超时 Redis 机房切换 服务熔断服务降级 消息队列 消息队列 业务高可用治理 网络抖动 带标识的业务代码 基础设施 可观测埋点治理 围绕业务系统开展服务治理,提供全链路的运营管控策略 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 业务链路标准 《业务数据接入标准》 服务链路标准资源链路 《应用数据接入标准》 《组件数据接入标准》 《基础设施数据接入标准》 包含: 业务数据接口标准业务链串联标准标准黄金指标(4) 健康度计算模型标准 不包含: 设计阶段-业务链节点接入阶段-指标阈值接入阶段-节点与首服 包含: 数据接口标准 标准指标-生死线+黄金+普通健康度计算模型标准 不包含: 黄金指标权重(接入配置) APM WEBAPP 应用服务 组件 基础设施 数据预处理 调用链概要数据统计数据 调用链全链路数据 ES RDBMS Hbase 黄金指标配置 业务服务 DBK8S…… 健康度计算 规范可观测数据接入,实现分层级布控纳管 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 全局可观测:层层深入,一屏展示 全局平面 业务健康服务健康 PaaS健康IaaS健康 业务平面 业务办理步骤 业务异常列表 业务办理量 办理耗时及步骤分析交易成功率分析 业务异常列表业务办理步骤 全层 局用户体验平面层 测 深 观page总耗时分析大于5秒page分析 白屏耗时分析入 服务分析 应用平面 服务调用失败TOP服务平均时长TOP 关联Deployment分析CPU、内存 数据库分析 平台平面 主机性能 数据库连接数表空间 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 从业务健康度出发,紧密结合运维服务场景,创新服务质量测评手段,实时精准获取客户的感知,有效指导生产运营。 堵点分析:对于业务健康度下降后, 自动触发堵点分析,摸排定位故障节1 点、报错信息 优化操作:拟现用户操作轨迹,完成小组间、地市间、全省的横向比对,精准推送知识要点,提升服务技能 2 程序级故障溯源:程序级故障在临时修复同时,自动启动故障溯源,通过专题治理,推动解决优化 系统级故障修复:资源级故障进入故障自愈场景,实现故障分级自愈 1 面向运维 关注故障分级处置 3 面向一线 关注服务优化 3 2优化页面:针对WEB页面上的页面及菜单 调整优化,提升页面的使用体验 优化规则:业务规则异常基于报错表象及规则关联并持续跟踪,推动业务 系统技改优化 可观测双引擎:面线运维重快恢,面线一线强体验 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 业务瓶颈快速发现 业务堵塞智能定界 程序问题溯源优化 全局观测跟进分析 全局运维发现异常 业务维度 异常跟进分析 服务维度 堵塞原因运维人员 外部调用失败 程序级问题 系统级问题 集群节点宕机 数据库宕 JS后台报错SQL性能 (b)故障自主修复 自动重启 自动扩缩容 自动清理 1 接收回复短信 2 识别并操作 3 短信通知结果 规则校验互斥 服务超时 优化方案 开发人员 溯源管理 规则校验前置前端性能优化用户体验优化应用负载瓶颈 需求平台 需求编码 BUG编码扩容改造 系统故障自动处置 (a) 故 障 自 动 定 发现业务异常 1 定位异常系统 2 定位异常服务 3 系统S1系统S21 能力中心C2 A1 A2 能力中心C1 A1 A2A3 HDFS集群 DNode 系统S3系统S4 A3 …… DB 调优 2 HBASE集群 MasterHRServer 位定位异常组件 4 NNode3 ZK集群 找出故障节点 主机1主机24 主机3主机4主机5 面向运维:业务故障自动处置,助力提升运维质量 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 操作环节定制 核心指标抽取 操作横向比对 知识精准推荐 成效自动记录 u用户关键操作定制 u关键指标定制 u统计窗口定制 u操作步骤u操作耗时u操作成功率 u个人与全省平均水平比对 u营业厅间横向比对 u业务操作手册 u新业务规则宣传视频 u学习时间记录 u学习前后操作比对 面向一线:操作行为自动分析,快速补齐业务短板 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 个人操作轨迹提取,薄弱环节一目了然营业厅间横向对比,区域能力精准提升 排序 菜单使用热度 下线 菜单优化建议 隐藏 无用菜单评估 页面卡顿分析治理菜单智能排序清理 •多维指标综合评分,直观反应用户体验 •常用菜单一点可达,无用菜单及时清理 面向一线:操作界面智能优化,提升一线工作效率 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 面向一线:规则异常实时跟踪,支撑业务技改优化 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 需求管理平台 新优化需求 BUG修复 业务级问题 业务健康度 系统失败率 档案查询 规则失败率 优化方案 问题溯源管理 业务规则优化校验逻辑优化 前端UI优化 业务规则失败率激增 业务规则异常档案库 规则异常标记 SQL调优 忽略优化 …… 异常处理方案更新 规则 产商品 规则 套餐 业务量 未找到异常档案溯源查找问题根因 …… 找到问题根因,需要进行技改优化 异常档案策略为优化,需要进行技改优化 业务时长 异常档案策略为忽略,优化健康度算法,重新计算 规则异常统一捕获处置策略精准执行优化流程闭环管理 04 演进思考 运维可观测的演进方向 可观测未来发展思考 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 支撑能力潜在难题 信息判断+行动 当前 信息判断x人工判断 信息关联展示+人工判断 数据展示+人工关联比对+人工判断 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 Thanks DevOps时代社区荣誉出品