您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[2023 DOIS DevOps 国际峰会 · 北京站暨 BizDevOps 企业峰会]:曹家豪-中国联通数字化监控平台系统安全生产保障体系建设实践 - 发现报告
当前位置:首页/行业研究/报告详情/

曹家豪-中国联通数字化监控平台系统安全生产保障体系建设实践

AI智能总结
查看更多
曹家豪-中国联通数字化监控平台系统安全生产保障体系建设实践

中国联通数字化监控平台 系统安全生产保障体系建设实践 曹家豪项目经理 毕业于英国爱丁堡大学,现就职于中国联通软件研究院运营保障与调度中心,在职期间深度参与中国联通数字化监控平台建设项目,负责涵盖系统可观测性、系统性能管理等领域产品线规划与建设,对云原生背景下如何构建安全生产保障体系,加快企业数字化转型有较为深刻的理解。 2023DevOps国际峰会·北京站暨BizDevOps企业峰会 Content 目录 安全生产保障体系概览 01 阐述安全生产保障体系的落地实践 02 稳定性保障工具建设思路 从可观测性、稳定性测试、隐患管理、变更管理、故障管理等维度阐述稳定性保障工具建设思路 03 当前存在的问题与未来展望 阐述当前稳定性保障工具建设过程中遇到的问题与未来安全生产保障领域可能面临的挑战与机遇 01 安全生产保障体系概览 阐述安全生产保障体系的落地实践 在数字化转型过程中,面对几何增长的云资源以及精细化的业务场景,如何保障系统安全生产,保证业务流程的高效运转,为生产运营提出了不小的挑战。 工具能力建设不到位 1、可观测性程度低:指标、链路追踪、日志能力割裂,缺乏端到端、全层级的故障发现、诊断工具; 2、故障预防难实现:系统健康状态实时体检难,隐患分析难; 3、故障管理难度大:事前应急演练有效性无法验证、事中调度混乱,事后故障复盘难闭环; 4、变更无法统一管控与追踪:变更申请入口分散,故障 分析无法关联变更; 5、压测无法覆盖‘写’场景:无法做到‘读’、写场景 的全链路压测与性能瓶颈分析;安全生产意识缺失 1、对安全生产缺乏敬畏 2、安全生产意识持续性不足 管理制度制定与落实不到位 1、红线底线不明确:缺乏纪律条例,警醒性弱; 2、生产运营规范不清晰:团队组织、分工、流程和工作要求缺乏标准,导致工作不知如何开展; 3、奖惩规范缺失:导向不明确,缺乏激励效果,缺乏安全生产重视度; 数字化转型中系统安全生产痛点问题 2023DevOps国际峰会·北京站暨BizDevOps企业峰会 测试工具 运营生产体系 运营支撑体系 运营生态体系 运营响应体系 运行保障体系 网络信息安全体系 安全生产保障体系的建设与演进从来不是一蹴而就的,是基于当前的现状与存在的问题,提出解决方案与目标规划,充分借鉴与对标先进的行业经验,从“走出去”到”引进来“,逐步由工具产品化至制度、管理体系化转变的过程。 监控工具 运营响应工具 •工具化建设 2019 2020 •产品化建设 •体系化建设 2021 2022 平台工具保障 组织架构保障 •运营支撑体 运系营机制保障 •安全生产保 障2体0系23 系统安全保障体系建设历程 制度规范保障 基础能力线 监 稳 配 自 故 运 定 动 控 置 障 营 性 化 管 管 管 响 测 运 理 理 理 应 试 维 产 产 产 产 产 产 品 品 品 品 品 品 线 线 线 线 线 线 2023DevOps国际峰会·北京站暨BizDevOps企业峰会 做实安全生产,提升中国联通大IT系统稳定性 一个目标,依托四大保障,聚焦研运流程中四个阶段,对应十五项核心工作。 一个目标 四个阶段 架构设计研发测试生产变更运营支撑 值班管理 故障演练 故障改进 故障应急 故障定位 故障响应 故障发现 故障预防 容量管理 监控管理 链路识别 版本管理 变更管理 研发测试 稳 性 十五项定 核心工作架 构 设 计 四大保障制度规范保障 组织架构保障平台工具保障 运营机制保障 系统安全保障体系-运营支撑体系 2023DevOps国际峰会·北京站暨BizDevOps企业峰会 运营支撑体系-制度规范保障 2023DevOps国际峰会·北京站暨BizDevOps企业峰会 明确制度规范,提升安全生产意识,激发活力、时刻警惕 大IT生产运营规范红线底线纪律条例 大IT生产运营奖惩方案 总册 + 十三个分册 奖励 六大类 处罚 变更管理 总册 违反纪委纪律处罚 违反红线底线处罚 不合规工单处罚 监控告警处理处罚 故障处罚 账号安全 安全管理 隐患管理 重保管理 变更管理 监控告警 大IT生产运营规范 总册+十三个分册:是B域、M域、D域集中系统生产运营工作平稳推进的基础性规范和依据。明确团队组织、分工、流 程和工作要求,落实集中系统维护职责 红线底线纪律条例 六大类、十条:明确生产运营工作中的红线底线纪律条例,时刻保持高度警醒,筑牢安全风险防线 制度规范保障方面制定了《大IT生产运营规范》、《红线底线纪律条例》以及《大IT生产运营奖惩方案》,落实集中系统维护职责,筑牢安全风险防线,激发活力、时刻警醒。 运营管理 问题管理 信息发布 运行维护 重保管理 故障应急 服务之星 排障能手 数据稽核达人 服务质检达人 监控告警达人 工单处理达人 知识运营达人 运维工具达人 应急管理达人 知识运营 参数管理 接维管理 基础设施 安全管理 计费结算 大IT生产运营奖惩方案 九项奖励,五项处罚:通过表扬、通报、奖励及小额工资扣罚等方式,达到明确导向、激发活力、时刻警醒、防范风险的目 的 技术运营标准 技术运营标准:《全层级监控标准》、《全层级应急标准》、 《全层级容量标准》、《隐患分类标准》 建立健全总部及省分系统四级运营团队,完善四级运营人员操作流程。 集团:数字化部运营管理处 联通软件研究院-一体化SRE运营团队 运营管理 四级安全生产运营支撑团队稳定性保障工具研发团队一体化三级运营响应团队 应用运维 团 一级负责总体 团二级负责全栈 工具体系规划 团 应用运维个性化研发团队 团应用运维核心研发团队 问题响应 团问题分析 三级修复团队 团 队平台运维 职责 基础设施运维 队 结三级负责核心业务链路 构 四级负责中心/模块 队工具建设 职 责 工具运营 队 结云平台运维研发团队 构 基础设施运维研发团队 队 职质量管理 责 数据修复 队二级支撑团队 结 构 一级响应团队 生产调度 分子公司安全生产运营支撑团队 生产调度 双向协同 分子公司-运营团队 分子公司稳定性保障工具研发团队 双向协同 分子公司运营响应团队 问题响应问题响应 一线业务 运营支撑体系-组织架构保障 2023DevOps国际峰会·北京站暨BizDevOps企业峰会 运营机制保障方面,通过活动运营、会议运营、数据运营、大屏运营四大类机制,动员提升全体员工安全生产意识。 运营机制保障 安全生产挑战365天 安全生产警示牌 安全生产劳动竞赛 活动运营 活动运营 组织安全生产劳动竞赛、安全生产月、挑战安全生产稳定运行365天等活动、树立安全生产及《红线底线纪律条例》警示牌 运营支撑体系-运营机制保障 安全生产分析会议 故障分析复盘会议 工单质量分析会 ... 会议运营 通过月度安分会、故障分析会、工单分析会、专家评审会等例行会议 会议运营 数据运营 通过对故障、告警数据进行全流程分析,建立故障运营机制、监控告警工单运营机制 数据运营故障运营分析告警运营分析... 重保大屏 ... 集团经分大屏 安全生产大屏 大屏 安全生产实时数据通过“安全生产大屏“、”集团经分大屏“、”各类重保大屏“进行展示 大屏运营 2023DevOps国际峰会·北京站暨BizDevOps企业峰会 运营支撑体系-平台工具保障 APP巡检 2023DevOps国际峰会·北京站暨BizDevOps企业峰会 数字化监控平台为运营支撑体系中十五项核心运营工作提供端到端、全层级、全流程工具支撑保障。 中国联通数字化监控平台 混沌测试 自动化巡检压力测试 容量管理全链路压测 沃运营 一体化运营 知识中心 沃运营订单医生 一体化运营补天平台 cBSS感知运营 感知运营 故障管理 隐患管理 值班管理 知识管理 问题管理 用户体验 业务连续性 稳定性测试 云化CMDB 传统CMDB 配置管理 版本发布调 度 智能监控告警平台 智能监控告警平台 自动化巡检 智能监控告警 平台 监控管理 浏览器、APP监控全流程调用链监控智能监控告警平台 —亚键健故康障检诊查断 业务监控 日志中心 自动化运维 变更管理 自动化作业故障自愈 应急一键处置 任务调度平台 变更追踪 端到端 全层级 十五项核心工作 全流程 稳定性架构设计 研发测试 变更管理 版本管理 链路识别 监控管理 容量管理 故障预防 故障发现 故障响应 一键拉会 故障定位 故障应急 故障改进 故障演练 值班管理 值班管理 混沌工程 故障管理 故障管理 一键故障诊断 智能监控告警 平台 隐患管理 容量管理 浏览器监控 性能指标标准 接收测试 任务调度平台 接收测试 亚健康检查 压力测试 变更管理 版本发布调度 性能测试 APP监控 亚健康检查 自动化巡检 故障管理 调用链监控 自动化运维 故障管理 故障管理 应用性能优化 调用链监控 APP巡检 业务监控 故障自愈 02 稳定性保障工具建设思路 从可观测性、稳定性测试、隐患管理、变更管理、故障管理等维度阐述稳定性保障工具建设思路 可观测性 1、涵盖业务层、前端触点层、服务层、组件层、资源层的全层级监控覆盖 2、指标、链路追踪、日志三板斧实现故 障快速发现、根因准确定位、故障快速恢复、问题深度刨析 故障管理 1、涵盖故障事前、事中、事后的故障全生命周期闭环管理 自动化运维 1、自动化作业能力贯穿‘监’与‘控’,实现特定场景下的故障自愈 稳定性测试 1、压力测试评估业务、系统容量水位 2、接口、UI自动化巡检及时发现业务异常 隐患管理 1、系统综合健康度体检,隐患闭环治理 2、链路性能风险深度分析,持续提升链路性能至目标冗余水平 3、组件容量管理降低容量问题发生风险 变更管理 1、核心配置变更追踪 2、任务流程线上化绘制、管控,统一入口管理调度 配置管理 1、通过CMDB配置库实现容器实例、组件、主机、网络设备串联 稳定性保障工具聚焦领域 2023DevOps国际峰会·北京站暨BizDevOps企业峰会 智慧门户 联通公众APP cBSS 钉钉端 中国联通-数字化监控平台以DevOps理念、SRE理论为指导,以全局运营视角解读IT运维,对云原生下生产运营领域提供端到端、全层级、全流程、全栈式的运维工具支撑。 运营生态 用户体验 感知运营 省公司 上海二级研发 广东二级研发 山东二级研发 软研院、子公司 计费运维 能开运维 联通云运维 新客服运维 基础设施运维 业务连续性 故障管理 PC端(谷歌/火狐/IE/360) 数字化监控平台生产运营工作台 B/M/D域核心触点能开 运行保障(自动化生产) 稳定性测试 接收测试 自动化巡检 压力测试 变更管理 任务调度平台 变更追踪 自动化运维 自动化作业 故障自愈 配置管理 传统CMDB 云化CMDB 隐患管理 健康检查 容量管理 监控管理 浏览器、APP监控 全流程调用链监控 智能监控告警平台 日志中心 核心应用 微前端qiankun 开统一架构 灵活对接第三方登录 接入便捷 账号体系管理 数字化研发平台持续集成 联通云平台 微服务 发支撑 统一登录鉴权 统一登录 服务鉴权 服务注册 代理路由 熔断 在线申请 流量控制 自主接入 服务路由 服务能力管控 开发者中心 API服务订购 SaaS应用上架 数据API接口快速配置 运营分析 能力共享 运营响应(智慧化运营) 问题管理 沃运营 补天平台 订单医生 知识管理 沃运营 服务台 沃运营 一体化运营 开发手册 前端框架样例 UI组件样例 权限集成样例 API接入样例 APIAPI 14 第三方能力 短信发送 IVR语音推送 钉钉消息 邮件发送 浏览器 APP感知 服务性能 能开服务 中间件 云平台 主机资源 网络资源 权限中心 用户管理菜单管理租户管理应用管理 数据采集 监控告警告警通知告警处