行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

曹立江-中国联通超大规模 IT 系统下稳定性保障能力落地实践

信息技术 2024-07-17 2024 第23届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 北京站陈宫泽凡

超大规模IT系统稳定性保障的挑战

面临的挑战与痛点

应用几何级数增长，中间件快速变化，部署动态切换
故障快速发现、快速抢通、优化预防、快速定位困难
指标复杂难分析，系统调用关系复杂，云化架构下关联关系不清
全链路性能瓶颈和容量水位不明确，根因定位难，隐患无法提前治理

稳定性保障体系整体架构

工具建设历程：从工具产品化到制度、管理体系化，借鉴行业经验逐步演进
运营保障支撑体系：围绕“一个目标，四大保障，十二项核心工作，七个关口”构建
数字化监控平台：基于云原生，提供端到端、全层级运维工具支撑，融合大数据与AI技术

故障场景的稳定性保障能力落地

故障发现：
- Metric监控：全层级指标数据采集与标准化，提供可观测性数据基础
- Trace链路分析：跨系统、跨云平台链路拓扑，方法级根因定位（接入应用7000+，日均处理1000亿数据）
- LOG：统一规范日志采集与检索，提升故障定位效率
- 全层级监控告警：分级管理，6级角色逐层升级，确保及时响应
故障定位：
- 一键故障诊断：纵向贯通全层级，结合CMDB关联定位，实现端到端快速根因定位（诊断率达75%）
故障应急：
- 自动化应急处置：构建告警自愈（月均自愈作业1000+次，成功率96%）和自动化应急预案（月均执行100+次，生效率80%）
故障预防：
- 变更管理：从流程合规到全层级轨迹追踪与强制拦截
- 隐患治理：定期评估容量、链路、系统健康度，闭环治理潜在风险
故障闭环管理：实现事前、事中、事后全流程线上闭环，提升管理效率

稳定性保障成效

核心+重要系统可用率99.85%
24年避免83起突发事件升级为故障
全层级实时监控，1分钟故障发现
集中业务系统故障显著压降（23年同比21年数量下降90.58%，历时下降87.74%）
全链路深度追踪，5分钟故障根因定位
自动化应急预案，15分钟故障快速抢通
灵魂拷问、举一反三、100%故障闭环追踪
应急演练、健康检查、智能自愈三重保障

曹立江业务架构师曹立江公司职位中国联通软件研究院业务架构师负责数字化生产运营保障体系建设与落地负责数字化监控平台整体能力演进与运营推广致力于依托“平台+应用”生态体系，打造联通集团智慧化的生产运营平台，持续推进能力有效落地超大规模I T系统稳定性保障的挑战目录稳定性保障体系整体架构故障场景的稳定性保障能力落地超大规模IT系统稳定性保障的挑战面临的挑战应用几何级数增长，中间件快速变化，部署动态切换痛点与问题故障如何快速发现故障如何快速抢通 ì指标纷繁复杂看不全，看不清？故障如何优化预防故障如何快速定位 ì故障反复出现，复盘改进没有效果？ ì系统调用关系复杂，故障排查困难？ ì云化架构下容器服务与主机关联关系不清？ ì全链路性能瓶颈点和容量水位上线不知道？ ì只知道有问题，不知道问题出现在哪里，根因无法定位？ ì隐患无法察觉，没有提前治理优化? 稳定性保障体系整体架构稳定性保障工具建设历程稳定性保障工具的建设与演进从来不是一蹴而就的，是基于当前的现状与存在的问题，提出解决方案与目标规划，充分借鉴与对标先进的行业经验，从“走出去”到”引进来“，逐步由工具产品化至制度、管理体系化转变的过程运营保障支撑体系结构框架运营保障支撑体系：一个目标，依托四大保障，聚焦研运流程中十二项核心工作，严格把控七个关口数字化监控平台功能架构基于云原生下的生产运营支撑平台，以全局运营视角解读IT运维，提供端到端、全层级的运维工具支撑，依托大数据与人工智能技术，助力企业数字化业务高效、稳定运行，从传统运维向自动化生产、智慧化运营转变故障场景的稳定性保障体系能力落地稳定性保障工具核心能力全栈可观测性一键故障诊断自动化应急处置故障发现-Metric监控实现涵盖业务、前端触点、应用、组件、云平台、基础资源的全层级指标数据采集及标准化，统一接入、存储、分析处理标准，提供可观测性能力数据基础故障发现-Trace链路分析支持跨系统、跨云平台、跨数据中心链路拓扑，通过分数据中心汇总串联，完成跨系统调用实时追踪和方法清单级根因定位，接入应用7000+，日均处理1000亿数据 Ø跨数据中心、跨系统链路自动拓扑Ø应用、组件、主机性能分析Ø方法级根因诊断故障发现-LOG 通过统一规范的日志采集、分布式存储能力、日志实时检索与异常检测能力，应对在分布式云化技术架构的演进背景下，剧增的集中系统日志数据量带来的挑战，解决在较大规模集中系统日志查询和报文查询方面效率低和不准的问题，提升故障和工单问题定位效率故障发现-全层级监控告警告警进行分级管理，以闭环工单为载体，结合短信、钉钉、智能语音等多种告警通知、升级功能，实现6级角色逐层升级策略，确保告警及时响应，并有效处置故障定位-一键故障诊断在系统纵向全层级方面实现触点层、应用层、组件层、平台层、主机层、网络层纵向贯通，结合云化CMDB关联定位，建立故障传递模型，实现全层级一键诊断，端到端快速定位问题根因 1.发现业务影响主机进程Top 触点+业务监控评估影响范围。 2.定位根因应用利用图数据库关系在海量告警应用中快速定位根因服务，如150个服务告警根因应用缩小到5个左右。 3.定位根因实例通过核密度估计算法和DBSCAN聚类算法判定根因实例。故障定位-一键故障诊断当前一键故障诊断率达75%。应用实例事件异常：2023-03-XX XX:XX应用实例所在主机CPU使用率过高引发故障根因 RDS事件异常：2023-04-XX XX:XXrds慢sql突增导致节点状态异常是故障根因 Redis事件异常：2022-08-XX XX:XXredis节点夯死，触发高可用，切换master，大量流量进入导致redis性能下降，上游应用大面积告警是故障根因 ES事件异常：2022-05-XX XX:XXes进程负载率突增导致上游服务连接超时是故障根因 Oracle事件异常：2023-02-XX XX:XXoracle会话数突增导致应用连接超时增多是故障根因快立方内存数据库事件异常:2023-02-XX XX:XX根因应用下游调用快立方告警异常是故障根因网络事件异常：2022-03-XX XX:XX交换机带宽使用率指标打满引起访问受限是故障根因主机宕机事件导致lb异常：2022-08-XX XX:XXlb所在主机宕机导致lb实例销毁重启服务波动是故障根因故障应急-自动化应急处置基于自动化运维能力，沉淀运维经验，拉通全层级监控告警、事件根因自动诊断、故障应急调度等能力，构建自动化应急预案、告警自愈两级自动化应急处置能力，实现应用实例查杀、重启、扩容、组件主备切换、流量限流、磁盘清理等多种故障场景快速处置推进思路： •聚焦高频场景•协同场景落地•深入场景运营•能力优化升级•建立信任故障应急-自动化应急处置告警自愈月均自愈作业执行1000+次，自愈操作平均执行耗时3s内，近三月自愈成功率达到96%自动化应急预案月均执行100+次，预案生效率80% 故障预防-变更管理变更管理以基于规章制度、线上化审批流程为基础的流程合规管理，逐步向变更全层级变更轨迹追踪定位、变更过程强制拦截校验管控演进故障预防-隐患治理从容量隐患、链路隐患、系统健康度视角，定期开展隐患评估与预测，识别潜在风险隐患，隐患闭环治理，保障系统健康稳定和对资源利用的最优化目标容量评估容量问题优化 l对照保障目标，形成容量优化提升项l制定容量优化方案计划l容量再评估直至符合预期容量标准要求 l全链路压测->容量标准达标、链路性能瓶颈评估...l日常流量方法级分析->抖动、不达标率...l指标实时监控->容量风险监控... 故障闭环管理故障管理实现故障事前、事中、事后全流程线上闭环管理，提升故障管理质量和效率，降低故障时长及次数，提升业务连续可用率稳定性保障成效中国联通核心+重要系统可用率99.85% 24年截止当前共避免83起突发事件升级为故障全层级实时监控，1分钟故障发现中国联通集中业务系统故障显著压降全链路深度追踪，5分钟故障根因定位 23年同比21年：数量下降90.58%历时下降87.74% 自动化应急预案，15分钟故障快速抢通灵魂拷问，举一反三，100%故障闭环追踪应急演练、健康检查、智能自愈，3重保障感谢大家观看

点击免费查看完整报告

曹立江-中国联通超大规模 IT 系统下稳定性保障能力落地实践

超大规模IT系统稳定性保障的挑战

你可能感兴趣

中国联通数字化监控平台稳定性保障工具落地实践

中国联通数字化监控平台稳定性保障工具落地实践

张雁丽--OnCall 驱动下的IT系统稳定性运营实践-版

江正煜-多云融合下的IT资源管理体系建设实践

曹家豪-中国联通数字化监控平台系统安全生产保障体系建设实践

阿里云超大规模弹性计算节点自动化运维稳定性实践-唐磊-公开版

业务保障与IT资源投入的平衡之道——FinOps下的容量管理实践 - 姜婷婷

辛文-降本增效利器：快手 CPU&GPU超大规模在离线混部落地实践

协同治理中间件稳定性保障实践优选

日常态和大促态业务稳定性保障实践 - 阿里云_任新成

曹立江-中国联通超大规模 IT 系统下稳定性保障能力落地实践

你可能感兴趣

中国联通数字化监控平台稳定性保障工具落地实践

中国联通数字化监控平台稳定性保障工具落地实践

张雁丽--OnCall 驱动下的IT系统稳定性运营实践-版

江正煜-多云融合下的IT资源管理体系建设实践

曹家豪-中国联通数字化监控平台系统安全生产保障体系建设实践

阿里云超大规模弹性计算节点自动化运维稳定性实践-唐磊-公开版

业务保障与IT资源投入的平衡之道——FinOps下的容量管理实践 - 姜婷婷

辛文-降本增效利器：快手 CPU&amp;GPU超大规模在离线混部落地实践

协同治理 中间件稳定性保障实践优选

日常态和大促态业务稳定性保障实践 - 阿里云_任新成

辛文-降本增效利器：快手 CPU&GPU超大规模在离线混部落地实践

协同治理中间件稳定性保障实践优选