迈向更高层次智能化的生成式软件开发 隋吉智(左知) 阿里云基础设施事业部可观测研发工程师 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 隋吉智(左知) 阿里云基础设施事业部可观测研发工程师 就职于阿里云基础设施事业部可观测团队,在可观测领域尤其指标场景有较丰富经验,针对大规模集群指标采集和处理有较多生产实践积累,采集探针性能调优和稳定性建设经验丰富。 在可观测领域的主机可观测场景,有较多探索和实践落地经验。 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 主机统一可观测面临的挑战 目录 主机统一可观测现状分析 主机可观测阿里云技术实践 主机统一可观测实践收益 01主机统一可观测面临的挑战 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 挑战与难点一 自动化发现与安装 主机的及时准确自动化服务发现能力,尤其在快速弹性伸缩场景。发现主机后是否具备采集探针的自动化安装。 指标覆盖度 主机的基础监控指标,涵盖性能、资源、网络、负载等。主机的高阶监控指标,涵盖内核、进程、应用等。 基础监控与应用监控 单实例主机 覆盖主机的基础资源、网络、系统监控等,同时覆盖主机上层应用运行监控。 稳定与故障恢复能力 主机上指标采集探针的可靠与稳定性,是否具备一定的故障的自恢复能力。 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 挑战与难点二 大数据处理问题 主机达到一定规模后,后端数据处理链路的抗压能力,大数据的处理效率,决定数据查询和告警的延迟时间。 大数据查询问题 高频和大量数据查询时,时序数据库或者数据处理链路的处理效率,直接影响可观测的展示效果和告警的时效 性以及准确性。 大规模采集问题 大规模主机 主机达到一定规模后,分散的大量采集探针或者Exporter,如何能做到低故障率运行,亦或故障自恢复效率,决定指标的齐全度。 大数据使用问题 大量指标数据统一存储后,如何从中提取高价值指标,并对其高效使用,需要SRE人员的经验积累。 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 挑战与难点三 指标体系问题 来自多云主机的监控指标,指标体系是否统一标准,直接决定统一可观测 和统一告警能否实现。 网络问题 主机分布在多云厂商和自建IDC机房,网络环境各不相同,网络限制规则也各不相同,如何打通网络的连通性,最后进行指标的统一存储。 统一存储问题 多云主机 主机分布在不同云厂商和自建IDC机房内,跨区域、跨账号的主机监控指标如何进行统一存储和统一查询。 标签富化问题 多云厂商和自建IDC机房的主机,指标统一存储后,一定需要标识主机来源,需要进行标签的源头富化。 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 02主机统一可观测现状分析 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 两种类型主机监控现状 Linux主机监控现状 •被动拉取模式,开源类似Node-exporter组件,安装到主机上收集并暴露指标,再通过Prometheus拉取指标。 •主动推送模式,各个云厂商提供的主机指标采集探针,安装到主机上收集指标并主动推送指标到云厂商存储。 •被动拉取模式,类似开源Windows-exporter组件,运行在主机上收集指标并暴露指标,再通过Prometheus拉取指标。 •主动推送模式,各个云厂商提供的主机指标采集探针,安装到主机上收集指标并主动推送指标到云厂商存储。 Windows主监控现状 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 阿里云在主机监控场景具备哪些能力 1.阿里云主机监控,采用全托管Prometheus模式,采集配置自动生成,支持指标废弃能力,指标富化能力。 02 2.阿里云主机监控,针对阿里云ECS支持自动服务发现和Exporter自动安装能力,同时具备守护和Exporter故障自恢复能力。 3.提供主机基础监控、进程监控、上层应用监控,多维度聚合视角观测。默认集成主机总览和详细大盘,进程级别详细资源消耗、进程状态等大盘展示。 01 03 4.指标统一阿里云Prometheus实例存储,统一观测、统一告警。 04 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 国外主要厂商主机监控现状 DataDog 1.提供采集探针运行在主机上收集指标和上报。 2.主机统一可观测,涵盖基础、进程、网 络、日志、容器等。 3.提供主机地图,可按照来源、区域等维度聚合分析等。 AWS 1.提供采集探针运行在主机上收集指标和上报。 2.主机基础监控齐全,包括基础、进程、网络等。 3.提供多维度聚合视角,具备洞察高价值指标能力。 Azure 01 02 03 04 1.提供采集探针运行在主机上收集指标和上报。 2.主机基础监控齐全,包括基础、进程、网 络等。 3.提供多维度聚合视角,具备洞察高价值指标能力。 NewRelic 1.提供采集探针运行在主机上收集指标和上报。 2.围绕主机为实体展示多维度可观测数据。 3.提供多维度聚合视角,提供红绿灯式监控状态展示等。 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 主机可观测现状总结 统一接入与观测 1.各个厂商都提供指标采集探针。 2.围绕主机提供基础监控、进程监控、应用监控等,多维度视角聚合等能力。 3.接入方面可手动安装和部分自动化安装采集探针等。 1.厂商间提供的默认观测大盘,能力上各有不同。 2.提供统一存储,统一告警,使用方式上 差异较多,分散管理会有较高的管理和理解成本。 统一存储与告警 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 03主机可观测阿里云技术实践 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 阿里云主机统一接入流程图 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 阿里云主机统一观测接入方式 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 阿里云主机统一可观测指标采集架构图 非阿里云主机统一可观测指标采集方案 1.安装阿里云iLogTail高性能采集探针 2.公网or专线推送指标至阿里云统一存储 1.部署开源Prometheus,remoteWrite投递 2.公网or专线推送指标至阿里云统一存储 1.安装Node-exporter,托管Prometheus采集 2.公网or专线拉取指标 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 阿里云主机统一可观测指标体系统一方案 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 阿里云主机统一可观测指标来源标识方案 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 阿里云主机统一可观测指标存储与观测 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 阿里云主机统一可观测大盘 1 0ECSOverview大盘 1.总览主机数量、健康状态 2.多维度聚合视角,覆盖基础、进程、应用观测 0ECSDetail大盘 21.覆盖基础资源、网络、进程等详细观测信息 3 0NodeProcessDetail大盘 1.覆盖进程列表、进程与线程数量关系等 2.覆盖进程资源消耗、文件打开数量等 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 阿里云主机统一可观测统一告警 1 0告警配置 1.简易化统一告警配置 2.预置常用告警模版 3.较高告警准确率 0告警管理 21.告警历史事件汇总查看 2.告警历史事件分析 3.告警通知策略灵活配置 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 阿里云主机统一可观测技术实践总结 01统一和简化接入方式,自动化服务发现和自动化探针安装,一定的故障自恢复能力 02统一指标体系和自动化采集,全托管Prometheus采集模式,指标体系统一 03统一指标存储,分散指标统一存储,高性能查询引擎,低延迟查询 04统一观测和告警,聚合大盘精细化监控,统一告警配置和分析 04主机统一可观测实践收益 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 实践收益一:阿里云ECS,秒级+自动化服务发现方式,提升接入时效 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 实践收益二:阿里云ECS,自动安装Exporter+托管Prometheus,减少数据丢失 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 实践收益三:非阿里云主机,提供高性能全类型主机采集探针,简易化安装 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 实践收益四:主机统一观测与告警,降低运维复杂度 1.统一观测大盘,多维度聚合视角观测 2.统一进程级大盘,任务详情查看 3.统一告警配置与分析,灵活告警通知配置 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 实践收益总结 01针对阿里云ECS,秒级+自动化服务发现,低延迟、提升接入时效 02针对阿里云ECS,Exporter自动化安装+托管Prometheus实时采集,减少数据丢失 03针对非阿里云主机,提供简易化安装的高性能指标采集探针,支持全类型主机 04统一主机观测和告警,降低运维复杂度 THANKS 提问交流环节 2024.6.28 Thanks 高效运维社区DevOps时代 荣誉出品 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 THANKS 感谢大家观看 2024.6.28