广东移动AIOps的中台化探索与实践转型 黄蕴思广东移动IT运维专家 广东移动AIOPS应用推广负责人,IT运维专家,曾参与信通院AIOPS、 MLOPS等相关规范标准和实践指南的编写。 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 Content 目录 01广东移动运维能力的发展 02AIOPS工具的中台化探索 03实践案例分享 04未来展望 01 广东移动运维能力的发展 2010年 流程化、标准化 运维流程、标准等的建立和管理 工具标准化管理 2018年 平台化、自动化 运维事件自动化 运维操作平台化 2020年 运维平台具备编排能力 部分运维场景智能化 2023年 编排化、智能化 AIOps 运维平台一体化,具备跨模块联合交付能力 复杂运维场景智能化,并具备智能化决策能力 2025年 自主自愈无人值守 绝大部分关键场景应用自动化和智能化技术,实现无人值守终极目标 我们的运维工具发展历程 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 目前我们已具备的运维工具 广东移动新一代数智化运维管理平台(IT网管+子平台) 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 复用组装 灵活度高 专业性强 能力组装工具 自动化对外赋能 智能化赋能运维 业务 端到端场景 敏捷支撑能力中心 开放共享中心 编排开发工具 自动化能力 运维学件 运维监控 自动化场景 业务端到端能力 标准化的AIOPS工具 。。。 抽象的原子操作 自动化原子操控工具AI算法服务 采集模块 操作模块 资源模块 AI模块 数据管控模块 基础模型服务 运维工具分层 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 编排模块 流程平台 。。。 容器智维模块 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 我们沉淀的成熟运维能力 知识图谱全流程联动AI+知识经验双模智能故障诊断资源优化 还有各种监控类能力、性能治理类能力、成本优化类能力,ETC…… 02 AIOPS工具的中台化探索 清华大学计算机系裴丹教授作了题为《智能运维(AIOps)趋势解析》报告,说到了9大趋势,其中的趋势6就是AIOps算法服务化。 中国通信标准化协会《智能化运维AIOPS能力成熟度模型》也提及了算法模型服务化能力的要求。 Gartner组织在预判报告中提出组装式应用 (ComposableApplicatons)概念 我们参考学习的“大拿”思路 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 “搭积木”形式的运维工具复用和组装思路 积木式应用构建,更快响应变化 对内引入对外开放赋能提升 运维敏捷支撑新生态 B/O/M/S赋能全域 能力引入 中台运营 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 中台能力组装层 以API、SDK等标准化接口的方式对外提供服务 可选取相关运维能力进行调用并重新组装 可把组装好的能力进行实际的场景应用 敏捷编排能力层 原子能力层、AI算法层为底座 基础原子操作组件、AI算法服务学件整体融通 实现原子操作和AI算法的互相调用融合 作战单元 中台能力组装 武器库运维编排开发 零件库 自动化原子操控能力 AI算法服务层 日常巡检 服务启停 部署发布 …… 常用算法 常用学件 专用学件 …… 能力注册 自动化操作能力层 日常操作抽象并固化形成原子操作 原子操作进行组合形成操作序列 原子操作和操作序列封装形成自动化任务 AI算法服务能力层 无场景层算法模型服务 通用学件层算法模型服务 专项学件层算法模型服务 零件库之:自动化操作序列 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 主机 4000+ 原子 3000+ 数据库 200+ B、M域IT 系统100+ 巡检项 1000+ 中间件 300+ 启停项 1000+ 原子级颗粒度自动巡检 BM域多场景自动化操作 IT系统应用服务自动化启停 零件库之:算法仓库 使用场景数 01各原子算法应用的场景数 各能力域包含的场景数及使用算法数 02 相同算法不同场景/作者使用情况 03 算法分类型角度统计 04 算法仓库 各能力域场景数VS算法数 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 武器库:学件编排 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 作战单元:能力矩阵 应用B域智慧运维M域智慧运维BI域智慧运维 场景 运维作业 日常拨测 批量任务 日常巡检 配置管理 变更管理 自动化测试 变更后评估 资源管理 资源发现资源稽核 容量管理 容量预测 服务支撑 容量优化 智能客服 自动发布 环境评估 资源管控 模型管理 表空间优化 成本优化 智能工单 投诉分析 关联影响分析 开放传输 性能评估 云原生治理 监控管理 告警配置 异常检测 监控采集 告警收敛 监控展示 开放传输 故障管理 故障预测影响分析 故障诊断 报障管理 故障自愈 健康度感知 应急管理 应急扩缩容业务应急 应急切换 应急演练 中台能力开放 标准化、轻量化 基础组件 敏捷编排能力层 自动化操作能力算法模型服务 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 能力组件 知识图谱 中台能力组装 03 实践案例分享 实践案例1:敏捷编排,降低AIOPS工具开发门槛 每层发布为对应的算法服务,根据调用次数、满意度等信息,不断发现沉淀优秀的运维场景算法服务。降低开发门槛,快速构建AIOPS工具 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 实践案例1:敏捷编排,降低AIOPS工具开发门槛 算法库 健康检查 异常检测 一处建设->多处调用 内部&第三方服务注册 根因分析 ->可视化服务编排 服务发布 多层服务->多级调用 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 实践案例2:快速组装,形成多场景联动的运维工具 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 作战场景 武器名 武器作用 故障全生命周期 一站式业务接口探测异常预警能力 实时模拟调用探测,将结合Al智能算法进行异常预警分析 主机故障诊断能力 综合分析诊断主机平台发生的故障或已经发生的故障,匹配自愈方案并进行自愈操作 知识管理全流程联动能力 知识来源治理、知识分类加工(转换、更新),知识应用(智能化推荐、自动化处理) 开始 梳理自有能力 进行接口探测 从上到下 序列串联 出异常接口信息 主机故障诊断 主机故障自愈 自愈成功的信息 知识管理全流程联动 主机故障自愈 一站式业务接口探测异常预警能力 IT系统 生成案例文件保存到知识库中 根据异常接口识别相应主机 根据探测结果输 梳理业务接口 故障平均发现时长 缩短了50% 故障恢复时长 缩短了23.75% 场景开发耗时 缩短了66% 提升场景建设效率 5天 3 分钟 61 分钟 15天 80 分钟 6 分钟 实践案例2:快速组装,形成多场景联动的运维工具 业务主导 降低成本 AIOPS开发的门槛降低,实际使用工具的运营人员可以自行按需完成二次开发。 通过复用已有的算法、采集数据、能力输出并形 成新场景,降低同类场景再开发损耗成本。 新增工具开发 人员数200% 节省场景再开发 成本60% 综合挖掘场景价值 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 不同资源、同类场景 并 联 横向结合 作战场景 武器名 武器作用 碳中和、成本优化 数据库存储空间成本优化能力 分析并预测数据库存储空间资源的使用趋势,自动输出数据库成本优化建议 低效无效资产智能评估能力 准确识别低效无效主机,提供主机层智能评估建议。 数据库存储空间 成本优化能力 低效无效资产智 能评估能力 AIOps场景建设效能提升 93% 场景建设效率 运维效率 60% 告警处理时间下降75% 故障发现时长缩短了50% 故障恢复时长缩短了55% 建设场景数量 95 79 27 2020年 2021年 2022年 应用系统 91 41 10 2020年 2021年 2022年 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 04 未来展望 建立全量AIOps场景能力的能效评估模型体系AIOPSwith大模型? 能效评估三级模型 场景能力维度 指标集 覆盖场景 AIOps场景全覆盖 分析能力 建立场景评估能力维度 客服智能问答 工单智能处理 智能统计质检 后续重点研究和应用方向 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 采集指标 定指标、定算法、定数据来源 路漫漫其修远兮。。。 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 我们还在不断尝试各种XOPS场景的开发 我们正在探索中台与智慧运维的结合 我们也在寻求利用AIOPS实现运维的降本增效 我们也期盼交流新技术、新理念在运维中的应用,例如元宇宙、大模型 欢迎交流~ 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 Thanks DevOps时代社区荣誉出品