您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[2024 第23届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 北京站]:赵舜东-基于开源工具的运维可观测性建设实践-赵班长 - 发现报告
当前位置:首页/行业研究/报告详情/

赵舜东-基于开源工具的运维可观测性建设实践-赵班长

AI智能总结
查看更多
赵舜东-基于开源工具的运维可观测性建设实践-赵班长

基于开源工具的运维可观测性建设实践 赵班长 OpsAny创始人 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 请替换您的照片 赵班长 OpsAny创始人 花名:“赵班长”,曾在武警某部负责指挥自动化的架构和运维工作,2008年退役后一直从事互联网运维工作。阿里云MVP、华为云MVP、高效运维社区核心成员、SRE精英联盟创始成员、新运维社区发起人、中国SaltStack用户组发起人。《运维知识体系》、《缓存知识体系》、 《SaltStack入门与实战》作者。 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 运维监控体系建设 目录 可观测建设工具实践 可观测平台集成场景 Q&A 01运维监控建设实践 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 技术运营体系 质量 成本 效率 安全 稳定性建设 高可用架构、监控 (可观测性)、日志、智能告警、故障自愈。 容量和成本建设 容量水位线监控、动态扩缩容、成本优化。 DevOps与自动化 研发运营一体化、自动化资源交付、自动化运维编排、自动化应用发布。 安全管理 安全审计、主机安全、应用安全、网络安全 运维监控建设路径 第二步 第三步 第四步 识别监控对象 理解监控对象 掌握监控方法和协议 选择监控工具 第一步 第一步:识别监控对象 数据中心: 风火水电、温度、湿度(动环监控) 网络监控: 全国网络链路情况、延迟、丢包。(DNS监控) 物理设备: CPU温度、风扇转速、硬盘故障(带外监控) 操作系统: CPU、内存、IO(网络IO、磁盘IO) 应用服务: 应用组件(Nginx、Tomcat、MySQL、Oracle等) 业务监控 每分钟订单量、日活、日新增用户数 流量监控: 基于Web访问的PV、UV、访问人群地域 APM: 应用性能管理、端到端调用链、应用拓扑 日志监控: 错误日志、访问日志、运行日志、设备日志 安全监控: 系统审计、漏洞扫描、Webshell扫描 舆情监控: 微信、微博、等新闻媒体。 监控对象 2.性能指标 3.性能基准线 4.告警阈值 1.理解监控对象 第二步:理解监控对象 客户应用 中间件 操作系统 网络设备 客户编写的任何应用程序 硬件设备 第三步:掌握监控方法和协议 IPMI SNMP Agent 自有协议 APM 提供开箱即用并兼容开源提供的上百种组件的监控指标采集,存储,展示和告警。 多纬度全层级监控 第四步:选择监控工具 •脚本监控 •人工巡检 Nagios •自定义监控插件 •超多配置文件 •基于rrdtool的数 据存储和展示 Zabbix •企业级监控平台 •开箱即用,分布式、自动化 •时间序列存储 •PromQL灵活运用 人工监控CactiPrometheus 02可观测建设工具实践 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 指标采集:Zabbix、Prometheus 企业级平台、指标需要预先定义。灵活度高,指标不需要预先定义。 指标采集-Metricbeat 支持模块: •主机 •数据库 •中间件 •应用服务 日志采集-filebeat 服务拨测-Heatbeat 支持协议: •ICMP •TCP •UDP •HTTP/HTTPS 企业级日志平台建设 全链路监控   从用户浏览器,经过网络,到服务端,经过服务复杂调用最终到返回的全链路监控。 帮助用户进行快速的故障定位、根因分析和问题处理。 RUM监控 RUM(RealUserMonitoring)获用户与Web浏览器的交互,并能够从性能角度了解Web应用程序的“真实用户体验”,旨在提高网站的可用性、提升用户体验。 APM监控-Pinpoint APM监控-Skywalking 可观测案例:ElasticObservability 可观测最佳实践 指标采集 告警通知 大屏展示 数据扩展 从不同的运维对象采集数据:主机、中间件、数据库、Web服务等。 设置合理的告警通知,关联SLO,实现基于SLO的告警。 不同维度的大屏展示,满足数据可视化。 数据沉淀并扩展使用,例如提供给容量管理平台等。 健康巡检 巡检和监控的区别 巡检 指标集不同:多告警阈值不同:低 指标类型不同:统计为主 监控 对比 指标集不同:少告警阈值不同:高 指标类型不同:单一值为主 03可观测平台集成场景 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 事件驱动的自动化平台 替换为基于机器学习的智能化决策 持续部署 持续部署 ChCatOps 应用场景 hatOps 故故障自愈 障自愈 智能告警 智能告警 26 ST2原子定义 远程 执行 文件 分发 数据 采集 Action Metadatafile(my_echo_action.yaml)Actionscriptfile(my_echo_action.py) 27 ST2工作流定义 使用YAML或者图形化定义工作流。 Workflow 28 Rule ST2规则定义 使用YAML或者图形化定义规则。 29 应用SLO建设 确认SLO预 期 梳理关键 链路 梳理SLI 上报SLI 创建监控 策略 计算SLO SLO指标 呈现 和业务负责人、产品、策划、开发等相关干系人一起确认该功能的预期,即SLO。 梳理用户从功能入口到使用该功能的关键路径。 优先梳理用户体验层SLI,即用户可以感受到的功能、按钮. 对于没有SLI需要客户端或服务端从新上报到监控系统,对于已有的SLI需要校验其准确性。 针对每个SLI需要创建一条监控策略,策略的告警阈值根据第一步定的SLO来确定。 基于时间可用性、合计可用性。 根据业务或者应用进行SLO指标呈现。 04QA GOPS全球运维大会暨XOps技术创新峰会2024·北京站 Thanks 高效运维社区DevOps时代 荣誉出品 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 THANKS 感谢大家观看 2024.6.28

你可能感兴趣

hot

赵舜东-基于开源工具的可观测性平台二次开发实践-赵班长

信息技术
XOps 风向标!GOPS 全球运维大会暨研运数智化技术峰会 2024 · 上海站2024-10-21
hot

咪咕互娱云游戏平台智能化运维与可观测性实践探索- 周鸣

文化传媒
XOps 风向标!GOPS 全球运维大会暨研运数智化技术峰会 2024 · 上海站2024-10-21
hot

刘晓辉-运维平台可观测与数字孪生的落地实践_加水印

信息技术
2024 第23届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 北京站2024-07-17
hot

可观测性领导者的 9 个关键实践

信息技术
splunk2022-01-21