应用运维管理 用户指南 文档版本01 发布日期2024-01-03 华为云计算技术有限公司 版权所有©华为云计算技术有限公司2024。保留一切权利。 非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。 商标声明 和其他华为商标均为华为技术有限公司的商标。 本文档提及的其他所有商标或注册商标,由各自的所有人拥有。 注意 您购买的产品、服务或特性等应受华为云计算技术有限公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定,华为云计算技术有限公司对本文档内容不做任何明示或暗示的声明或保证。 由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。 华为云计算技术有限公司 地址:贵州省贵安新区黔中大道交兴功路华为云数据中心邮编:550029网址:https://www.huaweicloud.com/ 目录 1概述1 2接入中心6 3仪表盘9 3.1创建仪表盘9 3.2设置全屏模式在线时长18 3.3统计图表说明20 4告警管理35 4.1告警管理使用说明35 4.2告警规则35 4.2.1概述35 4.2.2创建指标告警规则36 4.2.3创建事件告警规则51 4.2.4管理告警规则54 4.3告警模板55 4.4查看告警62 4.5查看事件64 4.6告警行动规则65 4.6.1概述65 4.6.2创建告警行动规则65 4.6.3创建消息模板67 4.7告警降噪70 4.7.1概述70 4.7.2创建分组规则72 4.7.3创建抑制规则75 4.7.4创建静默规则78 5指标浏览81 6日志分析(OLD)87 6.1搜索日志87 6.2查看日志文件89 6.3配置虚机日志采集路径91 6.4添加日志转储93 6.5接入LTS97 6.5.1概述97 6.5.2管理接入规则99 7日志分析(BETA)102 7.1日志搜索与查看102 7.1.1搜索日志102 7.1.2快速分析日志108 7.1.3快速查询日志110 7.1.4查看上下文111 8应用洞察112 8.1应用监控112 8.2应用资源管理115 8.2.1概述115 8.2.2首页介绍117 8.2.3应用管理117 8.2.3.1应用管理的使用说明118 8.2.3.2创建应用118 8.2.3.3添加节点119 8.2.3.4添加环境122 8.2.3.5关联资源123 8.2.4资源管理127 8.2.5环境标签131 8.3日志接入133 9Prometheus监控135 9.1创建Prometheus实例135 9.1.1Prometheus实例for云服务135 9.1.2Prometheus实例forECS.137 9.1.3Prometheus实例forCCE139 9.1.4Prometheus实例forRemoteWrite141 9.1.5Prometheus实例for多账号聚合实例143 9.2管理Prometheus实例146 9.3配置预聚合规则147 9.4配置服务发现149 9.4.1查看指标149 9.4.2配置CCE集群服务发现150 9.5获取Prometheus实例的服务地址153 9.6将Prometheus的数据上报到AOM.155 9.7通过Grafana查看AOM中的指标数据157 10容器洞察162 10.1工作负载监控162 10.2集群监控164 11业务监控(BETA)167 11.1创建日志指标规则167 12基础设施监控171 12.1主机监控171 12.2云服务监控173 13进程监控175 13.1应用监控175 13.2组件监控176 13.3应用发现177 14智能洞察(BETA)182 14.1智能洞察概述182 14.2事件巡检183 14.3事件根因分析188 15采集管理190 15.1概述190 15.2UniAgent管理190 15.2.1虚机接入190 15.2.1.1安装UniAgent190 15.2.1.2批量操作UniAgent195 15.2.1.3批量操作ICAgent196 15.2.1.4批量操作其他插件197 15.2.1.5其他相关操作198 15.2.2CCE接入199 15.2.3代理区域管理199 15.2.3.1代理区域199 15.2.3.2代理机201 15.2.4历史任务202 15.3插件市场203 15.3.1概述203 15.3.2创建插件203 15.3.3其他相关操作205 15.3.4插件状态206 15.4采集任务206 15.4.1概述206 15.4.2中间件采集任务207 15.4.2.1MySQL接入207 15.4.2.2Redis组件接入209 15.4.2.3MongoDB组件接入211 15.4.2.4Nginx组件接入213 15.4.2.5Node组件接入215 15.4.2.6HAProxy组件接入217 15.4.2.7自定义Exporter接入219 15.4.3自定义采集任务221 15.4.4其他相关操作223 16运维管理225 16.1概述225 16.2开通自动化运维225 16.3权限管理226 16.3.1创建用户并授权使用自动化运维226 16.3.2自动化运维自定义策略227 16.4服务场景228 16.4.1服务场景概述228 16.4.2启动ECS实例229 16.4.3关闭ECS实例231 16.4.4重启RDS实例233 16.4.5修改ECS非管理员密码236 16.4.6重启CCE工作负载239 16.4.7清理磁盘空间241 16.5定时运维244 16.6任务管理249 16.7参数库250 16.8作业管理252 16.9脚本管理262 16.10文件管理266 16.11设置270 16.11.1OS账号270 16.11.2访问凭证271 16.11.3场景分类272 16.12工具市场273 16.13高危命令说明274 17配置管理276 17.1全局设置276 17.1.1云服务授权276 17.1.2访问管理276 17.1.3全局开关277 17.2数据订阅278 18相关说明283 18.1标签和标注283 18.2普罗语句说明283 18.3时间范围和统计周期的关系287 19权限管理289 19.1创建用户并授权使用AOM.289 19.2AOM自定义策略290 20云审计服务支持的关键操作292 20.1云审计服务支持的AOM操作列表292 20.2查询审计事件296 21开通AOM2.0300 22升级AOM.302 22.1手动升级302 22.2一键迁移303 1概述 应用运维管理(ApplicationOperationsManagement,简称AOM)是云上应用的一站式立体化运维管理平台,提供一站式可观测性分析和自动化运维方案,支持快速从云端、本地采集指标、日志和性能数据,帮助用户及时发现故障,全面掌握应用、资源及业务的实时运行状况,提升企业海量运维的自动化能力和效率。 表1-1功能说明 类别 说明 概览 以应用视角和容器视角提供常用服务或功能快速入口,实时监控并展示重点资源或应用数据。 接入中心 通过接入中心可快速接入需要监控的多场景、多层次、多维度指标数据,接入完成后,即可方便地在“应用监控”、“指标浏览”“云服务监控”等页面查看相关资源或应用的运行状态、各个指标的使用情况等信息。 仪表盘 通过仪表盘可将不同资源数据图表展示到同一个屏幕上,通过不同的图表形式来展示资源数据,例如,折线图、数字图、状态图等,帮助用户全面、深入地掌握监控数据。 类别 说明 告警管理 提供告警列表、事件列表、告警规则、告警模板、告警通知等功能。 ●告警列表 告警是指AOM自身或外部服务在异常情况或在可能导致异常情况下上报的信息,并且您需采取相应措施清除故障,否则会由于AOM自身或外部服务的功能异常而引起业务的异常。告警列表展示已设时间范围内产生的告警。 ●事件列表 事件告诉您AOM自身或外部服务发生了某种变化,但不一定会引起业务异常,事件一般用来表达一些重要信息。事件列表展示已设时间范围内产生的事件。 ●告警规则 通过告警规则可对服务设置事件条件或者对资源的指标设置阈值条件。当服务的资源数据满足事件条件时产生事件类告警。当资源的指标数据满足阈值条件时产生阈值告警,当没有指标数据上报时产生数据不足事件,以便您在第一时间发现异常并进行处理。 ●告警模板 告警模板是一组以云服务为单位的告警规则组合,通过告警模板用户可对同一个云服务下的多个指标批量创建阈值告警规则、事件告警规则和PromQL告警规则。 ●告警通知 AOM提供了告警通知功能,通过创建告警行动规则或告警降噪进行告警通知详细配置,当AOM自身或外部服务存在异常或可能存在异常而产生告警时,将告警信息通过邮件、短信、企业微信等方式发送给指定的人员,以便提醒相关人员及时采取措施清除故障,避免造成业务损失。 指标浏览 指标浏览展示了各资源的指标数据,您可实时监控指标值及趋势,还可对关注的指标进行创建告警规则等操作,以便实时查看业务及分析数据关联分析。 类别 说明 日志分析(OLD) 提供日志搜索、日志文件、日志路径、日志转储、接入LTS的功能。 ●日志搜索 当需要通过日志来分析和定位问题时,使用日志搜索功能可帮您快速在海量日志中查询到所需的日志,您还可结合日志的来源信息和上下文原始数据一起辅助定位问题。 ●日志文件 您可快速查看组件实例或主机的日志文件,以便定位问题。 ●日志路径 AOM支持虚机(这里的虚机指操作系统为Linux的弹性云服务器)日志采集,即采集您自定义的日志文件并展现在AOM界面中,以供您检索。 ●日志转储 AOM支持将日志转储到对象存储服务(ObjectStorageService,简称OBS)的OBS桶中,以便进行长期存储。 ●接入LTS 通过添加接入规则,可以将AOM中的CCE、CCI或自定义集群的日志映射至LTS,通过LTS查看和分析日志。映射不会产生额外的费用(除重复映射外)。 日志分析(BETA) 提供日志搜索的功能。当需要通过日志来分析和定位问题时,使用日志搜索功能可帮您快速在海量日志中查询到所需的日志,您还可结合日志的来源信息和上下文原始数据一起辅助定位问题。 应用洞察 主要提供应用监控、应用资源管理、日志接入功能。 ●应用监控 应用是您根据业务需要,对相同或者相近业务的一组组件进行逻辑划分,AOM提供以应用维度整体进行监控。 ●应用资源管理 将所有华为云上的资源对象与应用统一管理,并设置关联,为AOM上层运维场景服务提供准确、及时、一致的资源配置数据。 ●日志接入 将主机待采集日志的路径配置到日志流中,ICAgent将按照日志采集规则采集日志,并将多条日志进行打包,以日志流为单位发往AOM,您可以在AOM控制台实时查看日志。 Prometheus监控 Prometheus监控全面对接开源Prometheus生态,支持类型丰富的组件监控,提供多种开箱即用的预置监控大盘,可灵活扩展云原生组件指标插件。通过CCE安装Prometheus后,将指标数据对接到AOM,即可通过AOM统一管理指标和告警数据。 容器洞察 提供工作负载监控、集群监控功能。 ●工作负载监控 工作负载监控的对象通过CCE部署的工作负载,通过工作负载监控可及时了解工作负载的资源使用、状态和告警等信息。 ●集群监控 集群监控的对象为通过CCE部署的集群。“集群监控”页面可实时监控展示集群的Pods运行状态、CPU使用率等信息。 类别 说明 业务监控(BETA) 主要提供创建日志指标规则功能。 基础设施监控 主要提供主机监控和云服务监控的功能。 ●