智能运维发展现状与挑战
当前智能运维主要依赖AI方法,包括异常检测、告警识别、聚类、关联告警压缩、贝叶斯优化、容量预测、日志文本抽取、故障分类、调用链图挖掘等,但存在缺乏多维数据视角、CI准确性不足、重模型轻数据、数据质量不高的问题。
智能运维实践金字塔
智能运维实践的核心是数据,数据质量是关键,业务规则与经验是重要组成部分,算法模型是最强大脑。数据占比50%,数据质量占比25%,业务规则占比20%,算法模型占比5%。
智能运维发展路线
智能运维发展路线为自动化、集中化、数字化、智能化,以业务价值为导向,以知识图谱为核心,提升基于AI的推理与决策能力。
数据中心智能运维建设路线
数据中心智能运维建设路线包括运维数据基座、智能算法、KGOPS智能场景,通过制度、流程、工具的优化,实现运维数据标准化、统一管理、工具集成、数据可视化,最终走向智能运维。初创型、发展型、成长型企业可根据6个月到N个月的时间规划实现全面智能运维。
KGOPS产品介绍
KGOPS是基于人工智能和大数据技术的智能运维工具,专注于解决运维数据集中化、数字化、智能化问题,主要应用场景包括CMDB关系发现与质量检核、应用全景资源画像、变更影响分析、智能监控与告警抑制、故障根因分析定位等。
KGOPS在运维系统中的定位
KGOPS位于运维系统核心,连接硬件、OS、中间件、应用等层,与运维数字门户、IT服务管理、自动化平台、系统监控工具、数据库监控与分析工具、服务支持、服务目录、服务请求管理、知识管理、自助服务、日常运行管理、供应商管理、外包管理、中间件管理、工具巡检工具、数据分析平台等集成,实现数据融合与智能分析。
KGOPS数据基座效果收益
KGOPS数据基座通过智能关联、智能检核、图谱可视化等功能,实现存量数据自动生成关联关系、自动发现数据异常、统一视图查看各类数据,提升数据质量,效果显著。
KGOPS智能化场景预期效果收益
KGOPS智能化场景包括基线比对、故障根因定位、变更影响分析、智能告警压制、网络拓扑分析等,通过提升基线数据准确性、精准定位故障点、智能推荐变更影响范围及程度、提升告警信息准确性、辅助提升网络故障定位速度等,实现运维效率提升。
KGOPS最佳实践
KGOPS最佳实践包括数据治理展示——智能关联,实现各类数据关联,提升关系网络数据治理能力;数据应用示例——应用全景视图,实现故障分析及定位,降低纠错时间;数据应用示例——应用故障根因定位,通过多维立体查找,快速定位故障根因;告警抑制案例,通过组合模型+业务召回规则的方案,对告警数据进行压缩,压缩比达到5%。
AIOPS的场景讨论和共建
AIOPS的场景包括故障预防、故障发掘、根因定位、故障自愈、事故分类、文本分析等,通过分类任务和AI方法,实现智能运维的全面应用。
Zabbix开源社区支持体系
Zabbix开源社区提供全程免费的支持体系,包括每天社群交流、每周每月每年每个LTS全程免费、99元/年/12节干货发文专家答疑在线课、技巧放送峰会等技术交流会、中文使用手册、中文图书、小额众筹等,以及从入门到精通的支持体系,包括在线课程、认证培训、方案咨询、实施和订阅等,满足不同用户的需求。