Gdevops 全球敏GlobalDe捷vOpsSummit运维峰会 基于数智融合构建全局业务监控实践 演讲人:朱祥磊 业务现状与背景 01 山东移动云转型后运维面临的挑战 云境基础能力 02 云境平台构建的基础能力 云境应用场景 Da03基于基础能力和数据支撑运维场景 成效和展望 04 实现高效端到端运维能力 会北京站 01 业务现状和背景 仅供学习 会北京站 系统复杂度提升,传统监控手段捉襟见肘 伴随若山东移动微服务化,云原生化的推动,整体系统复杂度提升,基础设施变成了一个黑盒,服务调用和依赖关系也越来越复杂,云原生的架构对山东移动传统架构提出两大挑战:一是定位难,系统出现告警后,很难定位到根因;二是解决难,问题出现后很难发现,解决过程变得史长。 01系统规模 基确设施层更加黑盒 随着应用向云原生架构演进,容器,微服务等云原 生技术得到广泛应用,开发团队开始更加注重业务逻辑, 无需关心基础设施的细节,然后,这导致开发团队和运维团队对基础设施关注度降低,基础设施变得更加难以理解 和擎掌控。 SOA架构 微服务 架构 容器化微服 务架构 系统复杂性02 服务调用和依赖关系更加复杂 云原生化之后系统服务数量开始增加,应用之间的 垂直分层架构调用再也不是单一服务对单一服务,拓扑调用和恢赖关系变得越来越复杂,链路也越来越长,导致开发和运维难以 简单单体架构全面把握系统的整体状况,阻碍了对系统的整体了解。 Gdevops全球敏捷运维峰会北京站 云原生带来的观测种类变化,对监控提出更高的要求 在经历云原生化后的山东移动,监控对象从小机,服务器、存储、虚拟化变为服务器、存储、虚拟机,容器。同时随若数 字化转型,手机端,PC端,智能终端也导致监控对象增多。这一系列变化代表若我们对于系统监控范围正在急速扩大,要求也 在逐步的提高。 bap 终端 云 客器中件间 务器服务口 物理 容器监测对监测对 象类型激种类 云服物理 务器 终端 目 B 数据中间 库件 容器终耀 容器云服 物机理网络设Q口 务器终端 Gdevops全球敏捷运维峰会北京站 用户体验带来的稳定性挑战 数字化时代用户大量使用1T来解决问题,基于用户体验的2-5-8原则,加载时间每多1秒,就会流失7的用户,加载卡顿或者显示错误的高频次发生,极大影响业务的发展和客户体验,因此需要进一步保障系统的稳定性,提升客户满意度, 商业用途 gdata Big 转载, 中中 010305 业务系统前端团队业务表现 稳定运行,系统02充满凝问,04累积下来,小波 无报错客户感知无法复现和定位客户流失动影响的客户量最 网页,小程序,APP加载故障,或者客户中断此次使用行为或终流失并彩响业因为兼容性使用离受不佳使用其他同类型产品代哲务表现 Gdevops全球敏捷运维峰会北京站 02 云境基础能力 仅供学习不 会北京站 基于业务端到端可观测性方案整体建设思路 根据现阶股存在的问题,构相应的应当措施。整体思路如下: 对现有的Skywalkirng,Dynatrace,Xtrace工具能力进行针对性整合综合互补端到端监控可视化能力,提升业务端到端监控能力的易用性和落地 展示效果。 拉通metric,log,tracing(对应cmdb监控,日志,调用链等)三类数据,提供对laas,Paas,Saas层横向端到端,纵向端到端以及以业务为视角聚焦串联laas,Paas,Saas三层关系的业务端到端运维能力, 3.结合能力(根因定位,异常检测),提供实时业务调用拓扑,助力故障定位,根固分析等智慧运维场景: 补齐监控短板数据融合拉通多视角端到端呈AI赋能 识别关键Metrics,分层设定SLOmetric,log、tracing数据融合,AI赋能,构建智能运 快速感知问题发生构建多视角端到端分析能力维场景 +系统S0:(接口成功率,时延和TPS等) ,组件SLO:级存,睿器,存储,数据库等) 18aS,PsaS,SsS情向举到器故障预测、异常检测 ,业务、系统,租户纵向端到端根固分析、故障定界 Gdevops全球敏捷运维峰会北京站 业务端到端可观测性方案功能架构(云境) 新业务端到端可观测性平台(云境)主体由数据源采集,数据整合加工,可观测性场景三部分构成,智能中心和操作中心作为共享对接能力以开 放接口的方式对其提供AI算法和操作执行手段, ■数据源管理:采集作为基础数据来源,通过拨测,APM,日志,镜像,Prometheus,eBPF采集对接基础能力平台等方式,获取端到端维数据: 数据整合加工:通过数据解析,数据洁洗,数据降噪,关联等方式完成数据处理,将数据提供给端到端可观察性应用场景进行运用: ■可观测性场录:场景作为业务端到端运维的实体业务对象,主要关注重点业务端到端场:故障定位,性能优化,架构治理等。 算法管理 可观测横向端到端可观测性场景纵向端到端可观测性场景全局观案性场景训练集管理 性场景 业务应用流程分析 Paas组件分析 资源池分析业务规自分析租户规角分析 业务全景规图 学件管理 学训练 模型管理 数据标准化激据美联指标告警计算事件压缩收效统计分折基缺管理 服务质量 数据整批无效数据清认 合加工处 理 Metrics/Log5/Trace5 基线预测计算串件根固推荐运年成效/监控告警 操作日志 操作中心 部署模式SparkFlirk微服务Kafka 基础架性数据容器层性数据应用及应用组件性数据用户体验性数据女件服务 数管据理源Ians监控网消性能KES集W工作负款消息以列卡额车请求响应时间调度服务 指 白动化执行 主机性能存估性能客格网达容器状态 Gdevops全球敏捷运维峰会北京站 访问请误率澄批处理 1、全局端到端采集管控能力 云境平台通过统一的运维管控中心对山东移动现有技术栈提供统一的运维采集和管控能力,提供向导式接入管理能力,简单实现IT资源 指标、调用链、日志类型数据采集,支持SNMP、脚本,Agent,Kafka等多种方式进行全栈IT资源监控及端到端数据采集,为运维保障,分析与 运维数字化提供完整的数据接入支撑, 05nt,SSH/Telml,WMI DCCKERHTTPAPL,AgensHTTPAPI HTTPAPL,SNMP,SMI-S,AgEnL,CLI PMI,SNMPTRAP,SNMP 网路设备SNMP,SNMPTRAP,SSH/THntt,SYSLOG 中件JMX/HTTPAPI,Agent JDEC 大蒙娱罕台HTTP,API,SSH/Teher,Agent Agent.HTTPsa 登备范入向导客户端社量管理 hii BBASE Gdevops全球敏捷运维峰会北京站 2、可观测性数据分析流批处理引擎 提供可视化、拖持式自助开发与分析能力,统一了数据开发流程与项目固期管理,支择数据清洗、转换、加工、标记、关系挖据、主/专题分析:要盖了包措文件,激据库,消息以列,搜索引擎,大数据平台,内存等多种数据源;在架构设计上更是兼客了Flinksparki分布式服务等流处理运行拒架,并允许用户通过插件的方式扩展新的数据 处理,分析能力, 数据全面覆盖:支持对各类的可现测效据(netric,log,trace)以及支持从现有Skywalking,Dynatrace,Xtrace,Pranetheus工具采集效据 数据可关联:新业务瑞到瑞可观测性平台(云镜)支持每种数据内部可以互相关联,也支持跨数据类型的关联,能够用一套分析流程把各类数据进行融合分析 秒级计第:新业务端到端可观测性平台(云镜》将支持分布式,可扩,使用FIin小流式处理能力,针对海量数据量实现移级指标,告警计算能力: 灵活智能的算法:除了基础的算法外,还应包括05相关的异常检测,预测类的算法,并且通过少量或无代码的方式进行算法生成 2 2 Gdevops全球敏捷运维峰会北京站 3、全景可观测性分析能力 统一监控:实现山东移动从底层动环到上层业务的全资源端到端监控,并整合业务数据,应用性能效数据,运行效据,资产效据等多方位效据,构建全方位,立体化可现测性能力, 实时感知:通过指标、调用链、日志、持续分析、告警、资产关联关系等多维座数据综合分折,实时感知效控 据异常。 智能分析能力:田绕业务构建快向拓扑和纵向依较关系拓扑等多维拓扑能力,联动多种监控数据,丰富可观 测性和故障根固分析路径,助力故障根因定位。 全链路监控多雄度分析指标分析 统一告管理与分析指标监控分析故障根因分析 场景 全链路排障容量预测影响范围分析 指标数据指标告警指标体系 指标数据接入阔伍告警异常检测 计算指标定义资源指标监控 告警模板基战告警 横向, 扑 向拓 0.9 拍标数据管理 指标元信息理资源指标数据查询0.0..0.0. 指标数据查询指标数据查询促床度打分定义 Gdevops全球敏捷运维峰会北京站 故障定位 4,基于数据分析和智能分析的故障定位能力 基于AI算法+数据融合分折,对故障进行快这识别,快这定位,并关联知识库对故障推荐相关解决方案,依托“AI“+“人工”的方式决策是否是直接自离,如果可采用直接自离,调用智能调度平台的能力对故障进行恢复操作, 数据分析:依托cwDB中资产对象关联关系,将现网相关的metrie,log,trace数据拉通,使用平台对三类可观利数据的进行关联,并使用cwDB对资源之间的关联关系 进行展示,监控效据与资源数据进行关联,快速定位和解决问题 智能分析:对海量实体指标的智能异常检测,进行智能告警,同事支持通过智能化地分析和挖据非结构化文本日志,自动发现异常 数据关联分析AI智能推荐方案 lvkiermead1.12.1.12 rtalte90.处理 -50. 效果流程AI根因 评估 mtrtal)=md:>a 推荐定位 方浆 Gdevops全球敏捷运维峰会北京站 5R1308各种运维小工具关联(如鼓程分 析,重起,别爆存等) 7应急操作关联(如切容灾,切平 面等) 3.0 a. 5、运维敏捷能力 低代码可视化中心,通过整合现有各平台运维能力,开放运维基础能力,面向运维人员及开发人员,提供个性场景快速构建能力,通过统一平台+低代码开发者中心,实现统一平台建设+场示百花齐放的新型统一运维管理能力。 构速5A5应用 AP,S,日受P C/IT险力交五设计 内置效塞带 整合已有各平台运比能力 统一监控平台 日志分析平台 白动化运姓平台 ITSW充程管理平台 款控库管理平白 CMDB配置平台 DevDpa甲台 低代码应用开发示例流程 其它平台系统 Gdevops全球敏捷运维峰会北京站 6、混沌演练:系统架构反脆弱测试 构建混沌演练平台,为业务系统提供灵活,易用,安全的故障演练能力,致力帮助业务系统在可控范围有保护的进行混实验,观察系统在各种压力下的行为表现,及时发现业务潜在风险,验证高可用预案有效性,从而提高其业务及系统的可用性和韧性。 快速构建可控可靠的实验场录持续的稳定性验证与跟踪改进 日前我们构连的场景通盖从基出瞳件资,网路设备,系统及中间件、应用腰务,用户幅作等禁型的故障注入动作及对妞的家全保障精版,谢过开回快速员活的可视可轻的实拍巧货: 通过湿注实验,跟踪观测、提告分析等能力,持编验证,持续改进来统聘定 实验观测 报告 基确资源故障演炼系统和中间件故障爽练应用故障演练 Gdevops全球敏捷运维峰会北京站 7,融合AIOPs算法✃服务能力 依据山东移动实际情况,围绕主机,数据库,业务,客器,微服务等五类核心资源,针对异常检测,故障诊断,故障预测,故障自意等四类 AI0ps场景,通过混沌工程随机注入故障的方式来测试应用效果。 使用AIOps算法服务能力,将需要分析的日志和指标同步给AIOp5平台,通过算法分析后,接收对应资源的异常信息,综合全业务链路数据对故障进行定界定位。 采集 接入2I-(A,XB,结果 /23.(A×/2(8)输出 A·2 [4|×[6 运维数据Alops算法服务结果数据 Gdevops全球敏捷运维峰会北京站 03 Databa