中国联通超大规模IT系统下稳定性保障能力落地实践 曹立江业务架构师 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 曹立江 中国联通软件研究院业务架构师 负责数字化生产运营保障体系建设与落地 负责数字化监控平台整体能力演进与运营推广 致力于依托“平台+应用”生态体系,打造联通集团智慧化的生产运营平台,持续推进能力有效落地 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 超大规模IT系统稳定性保障的挑战 目录 稳定性保障体系整体架构 故障场景的稳定性保障能力落地 01 超大规模IT系统稳定性保障的挑战 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 数据中心8 基础资源6W+ 云平台50+ 核心服务7000+ 容器数量60W+ 面临的挑战 集约系统200+ 调用量40亿+ GOPS全球运维大会暨XOps技术创新峰会2024·北京站 应用几何级数增长,中间件快速变化,部署动态切换 几个Jar包 几套Oracle 固定主机部署 容器化随时动态切换 rds/drds/es等多种组件 上千个微服务 调用承载关系极其复杂,亟待引入运维工具 痛点与问题 故障如何快速发现故障如何快速抢通 指标纷繁复杂看不全,看不清? 各层级数据不互通共享,铁路警察各管一段? 告警无人关注,处理缓慢?痛点 需24小时运维值守,无法故障自愈及自动化? 故障发现无法有效调度,故障管理质量效率低下? 无应急方案,应急操作时候全是问题? 故障如何快速定位 系统调用关系复杂,故障排查困难? 云化架构下容器服务与主机关联关系不清? 只知道有问题,不知道问题出现在哪里,根因无法定位? 故障如何优化预防 故障反复出现,复盘改进没有效果? 全链路性能瓶颈点和容量水位上线不知道? 隐患无法察觉,没有提前治理优化? GOPS全球运维大会暨XOps技术创新峰会2024·北京站 02稳定性保障体系整体架构 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 稳定性保障工具建设历程 稳定性保障工具的建设与演进从来不是一蹴而就的,是基于当前的现状与存在的问题,提出解决方案与目标规划,充分借鉴与对标先进的行业经验,从“走出去”到”引进来“,逐步由工具产品化至制度、管理体系化转变的过程 工具化产品化体系化 运 监测营 控试响 工工应 具具工 2020-2021 制组平运度织台营规架工机范构具制保保保保 •工具化建设具 •产品化建设 •体系化建设障障障障 2019 稳自 监 性 配 置 管 管 障 故 础管测 化 基控定动 理 产 产 理 能理试 力产产 运维 品 线 线 品 线品 线品品产 线线 2022-2024 自动化智能化无人值守 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 运营保障支撑体系结构框架 运营保障支撑体系:一个目标,依托四大保障,聚焦研运流程中十二项核心工作,严格把控七个关口 一个目标 做实安全生产,提升IT系统稳定性 设计关 验证关 上线关 变更关 监控关 应急关 优化关 七个关口 版本管理 架构设计 上 变 监 应 故 重 隐 容 混 建 线 更 控 急 障 保 患 量 沌 维 交 管 管 管 管 管 管 管 演 协 维 理 理 理 理 理 理 理 练 同 十二项核心工作 四大保障 制度规范保障 组织架构保障 平台工具保障 运营机制保障 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 数字化监控平台功能架构 基于云原生下的生产运营支撑平台,以全局运营视角解读IT运维,提供端到端、全层级的运维工具支撑,依托大数据与人工智能技术,助力企业数字化业务高效、稳定运行,从传统运维向自动化生产、智慧化运营转变 移动端 生产运营工作台 PC端(谷歌/火狐/360) 自动化运维 自动化作业 故障自愈 省公司 上海二级研发 广东二级研发 山东二级研发 软研院 计费运维 天擎运维 天宫栈运维 新客服运维基础设施运维 业务连续性 故障管理 稳定性测试 接收测试 自动化巡检 压力测试 变更管理 任务调度平台 变更追踪 运行保障(自动化生产)运营生态 cBSS B/M/D域核心触点 联通公众智慧门户 运营响应(智慧化运营) 能力开放 志 监控管理 浏览器、APP监控日 全流程调用链监控中 智能监控告警平台心 亚健康 核心应用 支 发 开 统一架构 微前端qiankun 微服务 联通云平台 天梯持续集成 撑 配置管理 传统CMDB 云化CMDB 用户体验 感知运营 统一登录 统一登录鉴权 账号体系管理 接入便捷 灵活对接第三方登录 服务注册服务路由流量控制熔断 服务鉴权自主接入在线申请代理路由 服务能力管控 能力共 开发者中心 API服务订购 SaaS应用上架 数据API接口快速配置 运营分析 服务台 沃运营 一体化运营 知识管理 问题管理 沃运营 沃运营补天平台订单医生 开发手册享 前端框架样例 UI组件样例 权限集成样例 API接入样例 APIAPI 第三方能力 短信发送 IVR语音推送 钉钉消息 邮件发送 权限中心 用户管理菜单管理租户管理应用管理 数据采集 浏览器APP感知服务性能天擎服务中间件云平台主机资源网络资源 监控告警告警通知 告警处理告警静默告警查询 作业能力 作业编辑作业调度作业执行作业查看 AI算法 动态阀值能力指标异常检测指标趋势预测日志异常检测 ITSM流程引擎 流程编排 配置中心 配置发现 基础数据运维 数据库管理 工单运营服务 工单查询 知识库服务 知识存储 及时通讯服务 消息接收 流程调度 配置采集 数据查询 工单处理 知识管理 消息推送 流程执行 配置拓扑 数据稽核 工单评价 知识搜索 多类型消息 流程查询 配置查询 任务调度 工单分类 知识推荐 消息群组 基础能 文件通道 数据通道 命令通道 力管控平台 基亦庄IDC 主机设备 CCS 础设施 网络设备 阿里飞天 CCS CKE 阿里飞天 主机设备 网络设备 西咸IDC CCS CKE 阿里飞天 主机设备 网络设备 无锡IDC CCS CKE 阿里飞天 主机设备 网络设备 广州IDC 呼和IDC CCS CKE 阿里飞天 主机设备 网络设备 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 03 故障场景的稳定性保障体系能力落地 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 稳定性保障工具核心能力 全栈可观测性 1、涵盖业务层、前端触点层、网关层、应用层、组件层、资源层的全链路追踪 2、指标Metric、链路追踪Trace、日志LOG三位一体实现故障快速发现、根因准确定位、故障快速恢复、问题深度刨析 变更追踪与管控 1、全层级变更追踪 2、任务流程线上化绘制、管控,统一入口管理调度 3、技术监督实现变更管控 一键故障诊断 全层级监控纵向拉通,实现全层级一键诊断,端到端快速定位问题根因 数字化监控平台聚焦 自动化应急处置 告警、诊断、自动化作业能力组合贯穿‘监’与‘控’,实现多场景故障自愈 故障管理 1、故障事前制定应急预案与应急演练 隐患治理 2、故障事中形成故障、监控、调度态势感知能力,实现业务快速抢通 3、故障事后治理追踪全流程线上化闭环管理,确保故障经验有效沉淀,整改措施有效落地 1、系统深度健康体检,全链路性能隐患分析 2、系统容量隐患深度分析 3、统一隐患闭环治理 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 应用 调用链agent采集应用指标、trace 网关 中间件数据库 主机 Promethuesexporter 网络 snmp协议+Promethuesexporter 网络拓扑同步上报 前端触点 浏览器JS埋点 APPSDK 云平台 云平台维护方自定义Promethuesexporter Prometheus 业务、服务、组件、资源时序指标 Neo4j+Redis拓扑数据 监控告警 故障诊断 隐患分析 故障预防 ... 网络出、入流量、并发会话数、连接数等 数据中心、网络设备、主机拓扑映 射关系 网关:KONG、LB、Nginx等 中间件:Kafka、MQ、Zookeeper等 数据库:MySQL、Clickhouse、Elasticsearch等 主机:内存、磁盘、CPU、网络指标等 云平台健康度、集群节点、pod容器指标 调用量、响应时间、异常量等 应用调用trace 方法调用明细 卡顿、崩溃、错误等 白屏、慢响应、弹窗日志等 故障发现-Metric监控 系统方自定义Promethuesexporter 核心业务 调用链接口业务打标告警配置 核心场景、核心业务链路人工梳理上报 统一标签规范 标准 + 自定义 Clickhouse 应用时序指标、trace、方法调用明细 以系统、租户为维度纵向互通 数据可视 业务发展量、业务流程积压量、业务突变异常、业务关键稽核点等 核心业务场景、核心业务环节、核 心业务链路拓扑 实现涵盖业务、前端触点、应用、组件、云平台、基础资源的全层级指标数据采集及标准化,统一接入、存储、分析处理标准,提供可观测性能力数据基础 故障发现-Trace链路分析 支持跨系统、跨云平台、跨数据中心链路拓扑,通过分数据中心汇总串联,完成跨系统调用实时追踪和方法清单级根因定位,接入应用7000+,日均处理1000亿数据 分数据中心 系统A agent Collector-server 系统B agentkafka 系统C agentFlink 聚合后指标 链路计算 清单查询 汇总数据中心 系统D agentkafka Redis Collector-server Neo4j 系统E agent FlinkNacos 跨数据中心、跨系统链路自动拓扑 Nacos Clickhouse存储集群 Clickhouse 调度转发节点存储集群 查询 应用、组件、主机 配置管理 CMDB 实例id、容器id云平台 主机ip、机房 网络设备 性能分析 跨数据中心链路自动串连 告警计算 告警计算 告警收敛 告警配置 业务、应用维度链路展现 方法级根因诊断 指标聚合明细分析 业务报文查询 链路自动拓扑根因定位 应用性能分析 业务配置打标 链路自动拓扑 全层级告警墙 应用根因定位 应用实例、主机串联 链路调用清单明细,方法级分析 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 故障发现-LOG 日志采集 主机 组件 Agent 应用 SDK 其他 日志处理、存储、告警判定 K afka Pushgateway Prometheus 通过统一规范的日志采集、分布式存储能力、日志实时检索与异常检测能力,应对在分布式云化技术架构的演进背景下,剧增的集中系统日志数据量带来的挑战,解决在较大规模集中系统日志查询和报文查询方面效率低和不准的问题,提升故障和工单问题定位效率 流式worker 处理 分布式存储异常日志判定 数据存储 Clickhouse 日志应用 全文检索过滤脱敏日志监控模版提取异常检测 报表可视 日志探针管控采集任务管理日志处理流程配置智能日志模版提取 故障发现-全层级监控告警 告警进行分级管理,以闭环工单为载体,结合短信、钉钉、智能语音等多种告警通知、升级功能,实现6级角色逐层升级策略,确保告警及时响应,并有效处置 值班人 值班B角 模块负责人 维护经理 总负责人 值班组 紧急告警 立即通知 告警事件 重要告警 普通告警 超时升级 告警工单 超时升级 超时通知、升级 告警工单 通知 告警工单 告警通知 告警大