BACKGROUND 一、背景 1.博睿数据运维环境现状 平台系统13套 监控环境3套 网络/安全设备200+ 物理机700+ 平台承载量 RUM日活4000W+APM探针100000+ LOG日志60TB/日 指标量 Zabbix2万/秒Prometheus35万/秒 2.运维目标 改变传统的运维模式,化被动为主动 PAINPOINTS 二、痛点 SOLUTION 三、解决方案 1.提前发现并解决潜在风险,运维监控从被动走向主动 AI风险检测功能 系统运作过程中,风险虽然不影响用户体验,但多个风险累积容易发生平台打不开、数据丢失等故障问题。为了提前发现风险将故障扼杀在摇篮中,运维团队不断完善BonreeONE的指标体系建设,AI风险检测更加准确。在日常运行中,当系统检测到有一个多活程序挂了,运维人员便能立刻发现去解决;CPU过高时,系统发出告警,负责人员便能及时打堆栈,并联系研发部门分析原因,在风险累积衍生成故障之前解决问题,降低故障发生率。 BonreePilot的自动巡检和即时巡检功能 利用自动巡检与即时巡检功能,对BonreeONE全套组件以及核心指标实施全面健康监测,涵盖主机监控、服务监控、运营分析、告警管理、业务监控等多个关键模块。当巡检报告中出现了告警和问题,例如磁盘容量告急: 过去的被动运维:磁盘容量告急,立马缩减/扩容 现在的主动运维:磁盘容量告急,先看表详情,观察这些表的增长趋势是否合理,表结构设计是否合理,是否存在优化空间,将空间释放、不合理设计优化后再采取对应的解决措施进行缩减/扩容,对运维成本进行主动管控。 2.平台统一监测,打破孤岛,避免运维多线作战 集成能力 将Zabbix、Prometheus等监控方式通过集成功能,实现一体化存储,用全栈根因分析,统一告警,运维人员无需监控每一个平台,通过BonreeONE便可以直观查看所有数据。 可用性监测 运维团队抢先体验了BonreeONE3.0的新功能:可用性监测。可用性监测支持HTTP多地址访问,释放了运维人员写脚本的工作量。同时能够自定义内外网监测点,以前对公网域名监控时需要给Zabbix机器增加外网访问的能力,因Zabbix机器有访问所有机器的权限,具备外网能力后,这显然不符合安全规定。可用性监测功能够同时使用内网和外网的监测点,很好地解决了这个问题。新功能弥补了开源工具对HTTP监控的缺失,也降低运维人员对shell脚本开发能力的依赖。 3.AI智能观测,快速定位根因问题与影响范围 全域分析 将数据统一集成到BonreeONE后,运维团队以实体关系为核心构建数据指标体系,平台统一对数据进行分析、关联、查看等,问题定位更加准确。 过去查看日志需要上机器,且日志需符合等保3级对日志审计系统的要求,系统日志、安全日志、关键配置等均要能够保存和分析,现在在平台上便能立即查看相关日志信息,打破运维传统的流程惯例。 接入Zabbix、Prometheus等第三方数据后,运维人员能够通过查看依赖分析影响范围,很直观地看出当前程序访问了哪些服务,以及哪些服务访问了当前程序。 调用链分析能够在问题出现时帮助运维团队定位到Server领域或者慢方法,定位更准确,节约时间。 根因分析 发现风险报警问题后,打开问题详情,通过详情清单查看本次故障所涉及到的实体信息。 根据系统提供的初步判断查看具体的方法、SQL等 RESULTSANDBENEFITS 四、成果及收益 通过使用BonreeONE,运维团队的工作模式实现了从被动应对问题向主动治理风险的根本性转变。主动运维策略将风险与问题前置,团队能够提前识别并解决风险,显著提升系统稳定性的同时极大地减轻了运维人员的工作负担。同时,风险与问题前置也为运维人员争取了充裕的时间,能够在问题出现前对系统进行深入的观察和分析,及时进行必要的调整优化,这不仅提升了运维效率,还实现了资源成本的节约。2024年1月至9月期间,BonreeONE的运用及运维团队工作模式的转变已成功为公司节约成本近80w人民币(≈物理机12台)。 风险预防能力显著提升,2024年风险问题主动发现率提升至96% 相比2023全年,2024H1治理数量提升77%,主动治理风险达242项,风险治理成效显著 故障率大幅下降,2024上半年故障次数减至15次,相较2023全年下降73% 系统可靠性再创新高,2024上半年高达99.9%,MTTR较2023下半年缩短82%