AI智能总结
曹家豪项目经理 毕业于英国爱丁堡大学,现就职于中国联通软件研究院运营保障与调度中心,在职期间深度参与中国联通数字化监控平台建设项目,负责涵盖系统可观测性、系统性能管理等领域产品线规划与建设,对云原生背景下如何构建安全生产保障体系,加快企业数字化转型有较为深刻的理解。 01 目录Content 稳定性保障工具建设思路 02 从可观测性、稳定性测试、隐患管理、变更管理、故障管理等维度阐述稳定性保障工具建设思路 当前存在的问题与未来展望 03 阐述当前稳定性保障工具建设过程中遇到的问题与未来安全生产保障领域可能面临的挑战与机遇 01 安全生产保障体系概览阐述安全生产保障体系的落地实践 数字化转型中系统安全生产痛点问题 p在数字化转型过程中,面对几何增长的云资源以及精细化的业务场景,如何保障系统安全生产,保证业务流程的高效运转,为生产运营提出了不小的挑战。 工具能力建设不到位 管理制度制定与落实不到位 1、红线底线不明确:缺乏纪律条例,警醒性弱;2、生产运营规范不清晰:团队组织、分工、流程和工作要求缺乏标准,导致工作不知如何开展;3、奖惩规范缺失:导向不明确,缺乏激励效果,缺乏安全生产重视度; 1、可观测性程度低:指标、链路追踪、日志能力割裂,缺乏端到端、全层级的故障发现、诊断工具;2、故障预防难实现:系统健康状态实时体检难,隐患分析难;3、故障管理难度大:事前应急演练有效性无法验证、事中调度混乱,事后故障复盘难闭环;4、变更无法统一管控与追踪:变更申请入口分散,故障分析无法关联变更;5、压测无法覆盖‘写’场景:无法做到‘读’、写场景的全链路压测与性能瓶颈分析; 安全生产意识缺失 1、对安全生产缺乏敬畏 2、安全生产意识持续性不足 系统安全保障体系建设历程 p安全生产保障体系的建设与演进从来不是一蹴而就的,是基于当前的现状与存在的问题,提出解决方案与目标规划,充分借鉴与对标先进的行业经验,从“走出去”到”引进来“,逐步由工具产品化至制度、管理体系化转变的过程。 系统安全保障体系-运营支撑体系 p一个目标,依托四大保障,聚焦研运流程中四个阶段,对应十五项核心工作。 运营支撑体系-制度规范保障 p制度规范保障方面制定了《大IT生产运营规范》、《红线底线纪律条例》以及《大IT生产运营奖惩方案》,落实集中系统维护职责,筑牢安全风险防线,激发活力、时刻警醒。 大IT生产运营规范 Ø总册+十三个分册:是B域、M域、D域集中系统生产运营工作平稳推进的基础性规范和依据。明确团队组织、分工、流程和工作要求,落实集中系统维护职责 红线底线纪律条例 Ø六大类、十条:明确生产运营工作中的红线底线纪律条例,时刻保持高度警醒,筑牢安全风险防线 大IT生产运营奖惩方案 Ø九项奖励,五项处罚:通过表扬、通报、奖励及小额工资扣罚等方式,达到明确导向、激发活力、时刻警醒、防范风险的目的 技术运营标准 Ø技术运营标准:《全层级监控标准》、《全层级应急标准》、《全层级容量标准》、《隐患分类标准》 运营支撑体系-组织架构保障 p建立健全总部及省分系统四级运营团队,完善四级运营人员操作流程。 运营支撑体系-运营机制保障 p运营机制保障方面,通过活动运营、会议运营、数据运营、大屏运营四大类机制,动员提升全体员工安全生产意识。 活动运营 Ø组织安全生产劳动竞赛、安全生产月、挑战安全生产稳定运行365天等活动、树立安全生产及《红线底线纪律条例》警示牌 会议运营 Ø通过月度安分会、故障分析会、工单分析会、专家评审会等例行会议 数据运营 Ø通过对故障、告警数据进行全流程分析,建立故障运营机制、监控告警工单运营机制 大屏 Ø安全生产实时数据通过“安全生产大屏“、”集团经分大屏“、”各类重保大屏“进行展示 运营支撑体系-平台工具保障 p数字化监控平台为运营支撑体系中十五项核心运营工作提供端到端、全层级、全流程工具支撑保障。 稳定性保障工具建设思路 从可观测性、稳定性测试、隐患管理、变更管理、故障管理等维度阐述稳定性保障工具建设思路 稳定性保障工具聚焦领域 可观测性 稳定性测试 1、压力测试评估业务、系统容量水位2、接口、UI自动化巡检及时发现业务异常 1、涵盖业务层、前端触点层、服务层、组件层、资源层的全层级监控覆盖2、指标、链路追踪、日志三板斧实现故障快速发现、根因准确定位、故障快速恢复、问题深度刨析 隐患管理 1、系统综合健康度体检,隐患闭环治理2、链路性能风险深度分析,持续提升链路性能至目标冗余水平3、组件容量管理降低容量问题发生风险 故障管理 1、涵盖故障事前、事中、事后的故障全生命周期闭环管理 变更管理 1、核心配置变更追踪2、任务流程线上化绘制、管控,统一入口管理调度 自动化运维 配置管理 1、自动化作业能力贯穿‘监’与‘控’,实现特定场景下的故障自愈 1、通过CMDB配置库实现容器实例、组件、主机、网络设备串联 数字化监控平台能力架构 p中国联通-数字化监控平台以DevOps理念、SRE理论为指导,以全局运营视角解读IT运维,对云原生下生产运营领域提供端到端、全层级、全流程、全栈式的运维工具支撑。 可观测性工具建设-指标 p实现涵盖业务、前端触点、服务、组件、云平台、基础资源的全层级指标数据采集及标准化,统一接入、存储、分析处理标准,提供可观测性能力数据基础。 2 0 2 3 D e v O p s国 际 峰 会·北 京 站 暨B i z D e v O p s企 业 峰 会 可观测性工具建设-链路追踪 p支持跨系统、跨云平台、跨数据中心链路拓扑,通过分数据中心汇总串联,完成跨系统调用实时追踪和方法清单级根因定位,接入服务6000+,日均处理600亿数据。 可观测性工具建设-日志分析 p通过统一规范的日志采集、存储能力、日志实时检索与异常检测能力,应对在分布式云化技术架构的演进背景下,剧增的集中系统日志数据量带来的挑战,解决在较大规模集中系统日志查询和报文查询方面效率低和不准的问题,提升故障和工单问题定位效率。 可观测性工具建设-一键故障诊断 p通过单agent采集指标、报文日志、链路数据,实现三位一体的可观测性平台,在系统纵向全层级方面实现触点层、服务层、组件层、平台层、主机层、网络层纵向贯通,自研六步定位法实现全层级一键诊断,端到端快速定位问题根因。 1.发现业务影响 触点+业务监控评估影响范围。 2.定位根因服务 利用图数据库关系在海量告警服务中快速定位根因服务,如150个服务告警根因服务缩小到5个左右。 3.定位根因实例 通过核密度估计算法和DBSCAN聚类算法判定根因实例。 可观测性工具建设-一键故障诊断案例 p当前一键故障诊断率达65%左右。 Oracle事件异常:2023-02-XX XX:XXoracle会话数突增导致服务连接超时增多是故障根因 稳定性测试-端到端全链路压测 p通过增强调用链探针能力,打造One Agent,探针通过影子库表实现生产流量与压测流量隔离,读、写流量压测能力,不仅可以监测应用系统的性能,而且还可以全面测试应用系统的负载和压力,确保其在高并发、大数据量等复杂环境下正常运行,有效提升应用系统的稳定性和性能,提高业务的可用性和用户体验。 隐患分析 p结合告警与容量指标,定期开展隐患评估和预测,识别潜在风险隐患,治理隐患问题,保障系统健康稳定和对资源利用的最优化。 目标容量评估 容量问题优化 ●对照保障目标,形成容量优化提升项●制定容量优化方案计划●容量再评估直至符合预期容量标准要求…… ●全链路压测->容量标准达标、链路性能瓶颈评估... ●日常流量方法级分析->抖动、不达标率... 资源层检测 性能治理 ●指标实时监控->容量风险监控... 2 0 2 3 D e v O p s国 际 峰 会·北 京 站 暨B i z D e v O p s企 业 峰 会 隐患分析案例 p2022年2月至今cBSS集中系统日均高风险项压降90%以上;p2023年4月起全链路压测试点3个系统,发现6类问题点。 2 0 2 3 D e v O p s国 际 峰 会·北 京 站 暨B i z D e v O p s企 业 峰 会 变更管理 p生产运营流程线上化统一管理,实现统一线上化流程制定、申请、审批入口。pIaaS、PaaS、SaaS全层级变更轨迹追踪。 故障管理 p故障管理平台实现故障事前、事中、事后全流程线上闭环管理,提升故障管理质量和效率,降低故障时长及次数,提升业务连续可用率。 当前存在的问题与未来展望 阐述当前稳定性保障工具建设过程中遇到的问题与未来安全生产保障领域可能面临的挑战与机遇 我们当前存在的问题 p产品能力需结合真实故障场景、客户需求逐步打磨,结合业内先进理念,逐步迭代,自立自强,可信可控。 可观测性建设问题 容量管理问题 隐患分析问题 自动化、智能化能力问题 1、容量分析依赖专家经验,业务、服务、组件、资源各层级容量水位评估覆盖不全,容量风险评估模型、容量健康度评估模型建设不完善; 1、链路追踪能力现阶段存在语言限制;2、日志建设需加强高效关联检索;3、监控覆盖质量核查存在一定难度;4、对于问题本质的诊断欠缺; 1、智能化场景落地较少;2、自动化运维场景应与监控告警有更多关联性;3、应急预案自动化覆盖需要加强; 1、全链路压测自动定位性能瓶颈能力不足,人工诊断成本高;2、系统保障以被动防御为主,主动模拟演练不足,应急预案有效性缺乏检验,实操演练有待加强; 2、容量应急策略能力覆盖不足; 策略: 策略: 策略: 策略: 1、在保证现有监控覆盖工作高效开展的基础上,探索类似eBPF技术的可落地性;2、加强日志工具建设,串连各层级核心产品;3、通过更多线上化、自动化方式,更清晰的责任划分方式,提升监控覆盖质量; 1、建立容量风险标准库与容量风险评估模型;2、通过经营侧需求、监控、压力测试逐步覆盖各层级容量水位评估;3、根据容量水位进行流控、实例扩、缩等应急方案制定与覆盖; 1、将现阶段人工性能分析步骤与方法沉淀为通用方法,形成自动化能力,逐步提高性能瓶颈诊断准确性;2、引入混沌工程,建立模拟攻防机制,开展故障主动注入,逐步由被动防御向主动验证转化; 1、探索大模型在运维领域的可落地场景;2、逐步打通告警与自动化处理能力,实现‘监’与‘控’能力贯穿,加强故障自愈能力建设; 2 0 2 3 D e v O p s国 际 峰 会·北 京 站 暨B i z D e v O p s企 业 峰 会 未来展望-安而不忘危,存而不忘亡,治而不忘乱 未来挑战 机遇 l大规模、分布式集中系统的安全生产保障体系建设能够推动产品全方位打磨与产品升级;l拥抱开源的同时,学习开源,自立自强,自主可控,突破开源;l赶上信创浪潮,全产品线的信创适配;l利用大模型提高日常工作效率,尝试引入解决特定场景问题。 l内部:系统承载用户量越来越多,架构与业务复杂性越来越高,系统稳定性对用户的感知影响可谓牵一发而动全身。l外部:a.安全生产保障在未来的国际竞争中也会扮演至关重要的角色,关乎民生;b.国内开源软件产业仍面临着根本问题,国内开源软件供应链“卡脖子”事件频频发生,开源生态受制于人;c.大模型的发展对于安全生产保障领域的冲击。 总结 改进 l组织架构:加强安全生产保障团队建设,提升整个组织安全生产责任意识;l流程规范:安全生产保障工作明确、有序开展;l运营生态:围绕一个目标,群策群力,能力共享。 l做的好的地方:如何降本增效;l做的不好的地方:如何增强补齐能力;l以客户为中心,细化、打磨产品。 2 0 2 3 D e v O p s国 际 峰 会·北 京 站 暨B i z D e v O p s企 业 峰 会 个人微信与数字化监控平台白皮书 Thanks DevOps时代社区荣誉出品