行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

博睿数据2024IT运维最佳实践白皮书

信息技术 2024-11-15 博睿数据单字一个翔

总结

背景

博睿数据运维环境现状包括13套平台系统、3套监控环境、700+物理机、200+网络/安全设备，承载量巨大，指标量高（Zabbix 2万/秒，Prometheus 35万/秒），RUM日活4000W+，APM探针100000+，日志60TB/日。运维目标是从被动模式转变为主动模式。

痛点

传统运维模式存在被动应对问题、多平台监控分散、根因定位困难等问题。

解决方案

主动风险检测：通过AI风险检测功能提前发现并解决潜在风险，如多活程序挂载、CPU过高等问题，降低故障发生率。
平台统一监测：集成Zabbix、Prometheus等监控方式，实现一体化存储和全栈根因分析，打破数据孤岛，避免多线作战。
AI智能观测：通过全域分析和调用链分析快速定位根因问题与影响范围，提升问题解决效率。

成果及收益

运维模式从被动转向主动，显著提升系统稳定性，减轻运维负担。
2024年1月至9月，节约成本近80万人民币（≈物理机12台）。
2024上半年故障次数减至15次，较2023全年下降73%。
系统可靠性达99.9%，MTTR较2023下半年缩短82%。

BACKGROUND 一、背景 1. 博睿数据运维环境现状平台系统13套监控环境3套物理机700+ 网络/安全设备200+ 平台承载量指标量Zabbix2万/秒Prometheus35万/秒 RUM日活4000W+APM探针100000+LOG日志60TB/日 2. 运维目标改变传统的运维模式，化被动为主动 PAIN POINTS 二、痛点 SOLUTION 三、解决方案 1. 提前发现并解决潜在风险，运维监控从被动走向主动 AI风险检测功能系统运作过程中，风险虽然不影响用户体验，但多个风险累积容易发生平台打不开、数据丢失等故障问题。为了提前发现风险将故障扼杀在摇篮中，运维团队不断完善 Bonree ONE 的指标体系建设，AI风险检测更加准确。在日常运行中，当系统检测到有一个多活程序挂了，运维人员便能立刻发现去解决；CPU过高时，系统发出告警，负责人员便能及时打堆栈，并联系研发部门分析原因，在风险累积衍生成故障之前解决问题，降低故障发生率。 Bonree Pilot的自动巡检和即时巡检功能利用自动巡检与即时巡检功能，对BonreeONE全套组件以及核心指标实施全面健康监测，涵盖主机监控、服务监控、运营分析、告警管理、业务监控等多个关键模块。当巡检报告中出现了告警和问题，例如磁盘容量告急：过去的被动运维：磁盘容量告急，立马缩减/扩容现在的主动运维：磁盘容量告急，先看表详情，观察这些表的增长趋势是否合理，表结构设计是否合理，是否存在优化空间，将空间释放、不合理设计优化后再采取对应的解决措施进行缩减/扩容，对运维成本进行主动管控。 2. 平台统一监测，打破孤岛，避免运维多线作战集成能力将Zabbix、Prometheus等监控方式通过集成功能，实现一体化存储，用全栈根因分析，统一告警，运维人员无需监控每一个平台，通过Bonree ONE便可以直观查看所有数据。可用性监测运维团队抢先体验了Bonree ONE 3.0的新功能：可用性监测。可用性监测支持HTTP多地址访问，释放了运维人员写脚本的工作量。同时能够自定义内外网监测点，以前对公网域名监控时需要给Zabbix机器增加外网访问的能力，因Zabbix机器有访问所有机器的权限，具备外网能力后，这显然不符合安全规定。可用性监测功能够同时使用内网和外网的监测点，很好地解决了这个问题。新功能弥补了开源工具对HTTP监控的缺失，也降低运维人员对shell脚本开发能力的依赖。 3. AI智能观测，快速定位根因问题与影响范围全域分析将数据统一集成到BonreeONE后，运维团队以实体关系为核心构建数据指标体系，平台统一对数据进行分析、关联、查看等，问题定位更加准确。过去查看日志需要上机器，且日志需符合等保3级对日志审计系统的要求，系统日志、安全日志、关键配置等均要能够保存和分析，现在在平台上便能立即查看相关日志信息，打破运维传统的流程惯例。接入Zabbix、Prometheus等第三方数据后，运维人员能够通过查看依赖分析影响范围，很直观地看出当前程序访问了哪些服务，以及哪些服务访问了当前程序。调用链分析能够在问题出现时帮助运维团队定位到Server领域或者慢方法，定位更准确，节约时间。根因分析发现风险报警问题后，打开问题详情，通过详情清单查看本次故障所涉及到的实体信息。根据系统提供的初步判断查看具体的方法、SQL等四、成果及收益通过使用Bonree ONE，运维团队的工作模式实现了从被动应对问题向主动治理风险的根本性转变。主动运维策略将风险与问题前置，团队能够提前识别并解决风险，显著提升系统稳定性的同时极大地减轻了运维人员的工作负担。同时，风险与问题前置也为运维人员争取了充裕的时间，能够在问题出现前对系统进行深入的观察和分析，及时进行必要的调整优化，这不仅提升了运维效率，还实现了资源成本的节约。2024年1月至9月期间，Bonree ONE的运用及运维团队工作模式的转变已成功为公司节约成本近80w人民币（≈物理机12台）。故障率大幅下降，2024上半年故障次数减至15次，相较2023全年下降73% 系统可靠性再创新高，2024上半年高达99.9%，MTTR较2023下半年缩短82%

点击免费查看完整报告

博睿数据2024IT运维最佳实践白皮书

总结

背景

痛点

解决方案

成果及收益

你可能感兴趣

博睿数据IT运维最佳实践白皮书

博睿数据2023年度案例集-IT运维之光案例集

博睿数据IT运维精选案例全集

博睿数据Bonree ONE一体化智能可观测平台白皮书

2023数据存储防勒索最佳实践白皮书

华为混合云现代化运维体系核心能力及最佳实践

CNUTCon特刊：智能时代运维最佳实践

阿里云弹性计算稳定性建设和云上运维最佳实践-李刚

云原生机密计算&商用密码技术最佳实践白皮书

居家办公白皮书：转型居家办公的 7 个最佳实践