运营商IT一体化运营思路 田野 中国电信云网运营部高级项目经理 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 田野 中国电信云网运营部高级项目经理 在省-集团两级IT运营岗位工作多年,具有丰富的IT专业工作经验 在市场、渠道、政企、云中台、云网运营等多个条线均有工作经历,对IT运营赋能前后端工作具有深入的思考,期待与大家分享 IT一体化运营目标 IT系统安全稳定运行 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 统一底座覆盖率 存量系统和新建系统使用天翼云+翼龙底座 重点场景业务级故障 1分钟发现、5分钟定位、10分钟恢复 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 营业 效能 战新支撑 业务端 到端 韧性 架构 容灾 维护 成本 变更/ 发版 隐患/故障 应急 演练 备份/日志 纵向端 到端 安全能力 四方管理 数据分级分类 两级事件/故障调度 效率 价值 安全稳定运行 数字化 能力 人员 能力 人员 技能 培训体系 岗位认证 知识共享 实操 确定性运维 IT服务 能力平 台化 AI、大模型应用 IT一体化运营整体方案视图 IT一体化运营管理范畴 客户服务 系统架构 基础维护 安全运行 两级调度 智能运维 人才培养 “八个一”工作思路 一支高水平运维团队 一种运维文化 一套运营管理规范 一套数据运营体系 一套服务目录 一套IT运营评估机制 一个技术底座 一场AI赋能运维的革命 打造智能敏捷高效云网融合运营体系,推进全网IT运营情况可视可管可量化,服务战新业务质量发展 IT一体化运营管理范畴--客户服务 效率、价值是目标:IT系统服务于内部用户和外部用户,IT运营应聚焦客户感知,对内提升内部员工效能,对外提升客户的业务使用体验 客户短信 •重点服务场景的优化 网络服务 •新业务开通过程的优化和保障 ①新兴业务受理感知,统一纳入到IT集约运营体系 ②受理开通过程中遇到的问题,由综调系统IT事件单承载 ③集团和省公司两级IT维护单位协同处理 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 •基于业务场景开展横向端到端串联,打造订单级业务链端到端监控解决方案 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 IT一体化运营管理范畴--系统架构、基础维护 •完善IT基础维护的系列管理制度 •构建IT运营规范和成熟度模型 •强化IT变更操作、风险隐患排查、应急演练等常态化监测、过程管控、闭环管理等能力 •提高IT业务端到端监控水平,基于CMDB形成IT端到端运营框架, 按照CMDB框架组织IT端到端运营,做好SaaS-PaaS-IaaS纵向端到端的IT监控 基础维护 •推进系统架构韧性设计 ①去除单点:硬件单点、存储单点、网络单点等 ②去依赖:高等级服务不允许强依赖于低等级服务或资源 ③数据保护:提升数据安全性,降低RTO,RPO接近于0 ④灾备设计,业务不中断,数据不丢失 ⑤弹性设计:故障隔离标准、访问量控制标准、服务降级/限流/熔断、容错 •全网维护成本管理,是否用于架构隐患整治等 系统架构 安全稳定运行是基础:IT系统稳定运行综合考虑系统架构韧性、应急响应和优化改进 •推进IT和CT融合,在网络层、资源层、应用层等推进生产监控、指挥调度、故障联动处置、端到端管理等云网一体化生产运营调度 两级调度 •推进安全风险防护整治,推进IT系统存储数据的分类分级和敏感数据防护 •强化人员账号和操作的安全管控 •构建软件全生命周期管理安全体系,推进供应链安全 安全运行 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 IT一体化运营管理范畴--智能运维、人才培养 推动科技创新 研究型运维 数字化能力是驱动:构建智能运维能力,提升运维效率和自动化运维水平 •推进联合实验室对CT/IT融合的统一可信基础设施技术底座研究 •推进云计算、组件等新技术新产品的研究使用 •融入AI和大模型等技术,提升端到端观测、调度、应急保障等能力 •整合全网运维能力,集成到统一技术底座,形成通用能力,开放 共享 •提升隐患排查的技术能力,研究IT隐患发现和整治的技术手段, 提升隐患治理效率 •提升变更操作的技术管控能力,研究IT变更过程管控的技术手段,在安全稳定基础上,提升变更操作效率 •优化容灾技术方案,研究核心系统双活架构、所需技术能力和实 施路径 人员能力是保障:强化人才培养,提升运维实操能力,推进自主掌控力度 •构建IT运维实训环境,持续迭代腾云计划 •基于云荐社区搭建IT运维知识共享专区 培训环境 •开展IT运维课程研发,组织岗位认证 •通过月刊,网上大学等,组织IT运维知识的宣传 学习体系 赋能 PaaS OSS 八个一思路--一支高水平团队 CRM MSS 计费 一线值班台 数据 SRE运营团队构成 人员:IBOC各系统运维主管等职责:牵头IT稳定运行、基础维护保障、故障压降等工作; 虚拟团队 IaaS 网络 安全 管控 二线能力团队 运营维护团队 人员:二线能力团队(CRM、计费、PaaS、安全等)按需抽调 职责:负责故障处置、故障复盘、风险评估、流程优化、工具打造等 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 人员:IT监控中心运维团队 职责:承担IT事件的响应和预处理工作、落实7*24小时值班机制等 打破壁垒:打破各单位运维团队分散、各自为战的局面,实现各运维团队与能力团队的运营信息共享、互助,运营能力工具的集约打造和应用 人才价值:充分调动和复用运营维护专家能力,为专家提供舞台,突显人才价值,有利于开展运营人才的激励、培养 规范落地:建立一支具备高水平运维技术的队伍,保障运营规范严格执行,推动整体IT运营能力提升 基础管理能力 安全管理 供应商管理 数据治理 云成本管理 事件管理 配置管理 服务台管理 资源管理 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 SRE稳定性保障 组建SRE团队,营造运维文化,实现确定性运维 围绕“0-1-5-10”目标,强化研发和运营维护等生产过程中的稳定性保障,从分域分散运营体系,开展IT一体化SRE运营保障实践,实现确定性运维 研发过程稳定性保障 稳定性运营保障 沉淀 赋能 事中-1分钟发现告警发现告警调度 可观测视图 ... 事前-预防(0) 维护作业隐患排查变更管控应急演练备份恢复 ... 部署发布 发布策略部署过程 ... 质量保障 测试管理DevOps代码质量 ... 设计与开发 稳定性需求韧性架构架构评审 ... 事后-复盘评估故障复盘知识管理 运营分析 ... 事中-10分钟恢复 处置工具故障自愈 修复验证 ... 事中-5分钟定位端到端拓扑根因定位 决策分析 ... 八个一思路--一种运维文化 加强运营维护人才培养,强化人才运维实践;创办内部期刊,营造分享、探索的运营文化 全网一体化开展运营维护工作 •面向全网IT运维专家、IT运维主管,定期发布专项工作,抢盘制开展任务攻坚 •依据任务完成质量,匹配积分奖励 IT一体化运营培训 •开设IT一体化运营培训班,截止当前已开办两期 腾云计划培训 •通过腾云计划,强化IT运维人才实操能力 •促进IT专业信息和知识的共享、集团-省两级共同编制IT运营维护内刊,促进各单位之间的横向交流,创造比学赶帮超的良好氛围 •应用AI、大模型的能力,建立每日推送机制,内容涵盖运维规范、运维经验、闯关测验等 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 服务台管理 供应商管理 … … 八个一思路--一套运营管理规范 围绕稳定运营目标,迭代优化IT运营管理规范体系,推动规范标准在管理和生产工作中落地,满足IT运营管理的合规、专业 、高效要求,探索大模型在管理规范落地实施中的应用模式 IT运营管理规范 基础维护 运营管理 技术标准 人员管理 维护作业管理 变更管理 应急预案管理 风险隐患管理 故障管理 … 服务管理 变更管理 知识管理 … C M Pa 运 人 D aS 营 才 B 组 数 工 技 件 据 作 术 管 管 管 规 理 理 理 范 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 IT专业安全运行管理四大闭环 强化从变更操作方案制定、审核、审批、操作、验证等环节全流程闭环管控 明确等级风险分析应急预案 逐级审核严格审批 一人操作一人审核分时分权分域 精准管控 业务测试方案验证结果验证 方案制定 方案审核 变更操作 结果验证 过程管理 端到端 红绿灯 统一标准库 •加强方案制定审核:按变更操作管理办法确定变更等级,按要求开展审核、审批 •强化变更过程管理:落实操作人员账号分时分权分域、高危指令线上管控各个环节,针对重点省份、区域、时间段精准管控和闭环 管理,强化自主操作,云网变更操作自主化率达90%,杜绝违规操作 •落实操作结果验证:操作完成后开展业务测试和结果验证,确保结果符合预期 •完善技术管控手段:持续完善跨专业生产场景,通过“三屏”持续完善红绿灯警示机制;建设变更操作等级统一标准库,贯通集团-省两级流程 •强化端到端变更管理:加强跨主体、跨域、跨专业的变更操作的端到端管理 八个一思路--一套数据运营体系 围绕IT运营数字化的目标,在统一规范、统一标准基础上,梳理运维数据类型、数据规范、数据采集规范等,持续迭代完善IT运营数据体系,实现运营数据管理标准化,推进数据驱动的IT运营能力 一线支持解决率 事件总数 事件平均解决时间 事件解决及时率 越级投诉量 发布变更数 发布引发事件数 紧急变更数 变更失败数 运营数据体系化 数据载体 数据类型 数据形式 业务和体验 功能使用 受理数据 业务流程 客户体验 运营管理 应用系统 ...... 客户端 应用服务 应用配置 应用制品 应用参数 平台软件 ...... 应用平台 容器 数据库 中间件 操作系统 基础设施 ...... 网络 存储 服务器 虚拟机 ...... IT服务管理 变更 发布 事件 问题 服务台 ...... 网络丢包率 网络链路延时 网络带宽 出口流量 存储空间 服务器状态 服务不可用时长 ...... CPU 内存 磁盘空间 换页空间 ...... 终端版本 用户IP 系统进程状态 JVM内存利用率 接口调用数 受理订单量 受理工单量 受理费用 受理成功率 功能调用数 任务调用数 调用链路 响应时间 负载 SQL语句执行时间 缓冲区命中率 连接池数量 服务器网卡速率 Raid卡状态 虚拟机状态 ...... ...... 监控指标数据报警数据 端口监听 环境配置 业务参数 制品包 发布脚本 受理耗时 页面加载错误率 App页面响应时间 App调用异常率 客户投诉率 ...... 日志数据 网络报文数据 用户体验数据 运维知识数据 业务运营数据 链路关系数据CMDB 运维流程数据 关系型数据库实序数据库 内存数据库 文件 图数据库 ElasticSearch 消息队列 流式数据库 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 八个一思路--一套IT运营评估体系 结合行业先进的成熟度评估体系和模型,制定一套适合自身IT组织运营的成熟度评估体系,用以评估IT组织运营能力和两级运营质量,明确现状,发现差距,持续改进 IT组织运营能力评估 运营评估体系 IT系统可运营能力评估 订单交付及时率 两级运营质量评估 移动业务开通完整率 维护投资 团队规模 新销