您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[DataFunSummit2024:数据产品在线峰会]:刘明刚-B站一站式大数据集群管理平台 - 发现报告
当前位置:首页/行业研究/报告详情/

刘明刚-B站一站式大数据集群管理平台

AI智能总结
查看更多
刘明刚-B站一站式大数据集群管理平台

B站一站式大数据集群管理平台(BMR) 刘明刚/资深工程师 DataFunSummit#2024 目录 背景介绍 集群管理元仓建设智能运维 定制化Manager 未来展望 01 背景介绍 BMR的诞生 2020 2021 2024 Ansible Relay Rider Falcon 业务快速增长 大数据规模和复杂度显著增加 服务器数突增到5,000+ 通用平台无法满足需求 50+服务组件 10,000+台服务器 EB级别的存储 百万核的计算资源 BMR孕育而生 BMR走向成熟 BMR发展阶段 阶段一:求生存 阶段二:追温饱 聚焦环境、配置标准化 满足核心组件的快速发布 建设元仓、沉淀数据 服务组件全面覆盖 场景化建设 阶段四:共富裕 智能运维升级(故障预测、智能问答) 定制化Manager 阶段三:奔小康 拥抱云原生、扩展容器化管理能力 元仓应用 智能运维(巡检平台、故障自愈) BMR-产品蓝图 迭代?安全变更?高效稳定 用BMR,构建、发布、验收一站式 查问题?高效稳定 用BMR,预警、诊断、自愈、定位一站式 资源不够?降本稳定 用BMR,Quota、用量清晰透明一站式 成本 稳定 效率 02 集群管理 BMR-集群管理 50+ 每天变更数 10,000+ 变更关联主机 快&&稳 BMR-集群管理 基本能力 集群、服务、配置、安装包管理 BMR-集群管理 常见操作 扩容、缩容、重启、升级等迭代操作 核心能力(高效&&安全生产) 可视化流程编辑能力 安全变更、变更防御 服务优雅的下线 自动适配异构机器/环境 节点、服务生命周期管理 跨组件依赖管理 BMR-集群管理 降本利器-潮汐混部 错峰出行 弹性伸缩 分级保障 收益显著 1,000+60,000+ 节省机器数总核数 03 元仓建设 业务元数据 元仓 黄金指标 故障数据 BMR-元仓建设 数据互通 历史回放 元数据一致性 BMR-元仓应用 概览 一眼看尽“黄金指标” 容量/Quota管理资源合理“动起来” SLO 性能&稳定性“晴雨表” BMR-主机诊断 覆盖100+硬件故障、异常日志、异常监控指标 当前故障、历史故障一目了然 故障趋势清晰可见 元仓应用-任务诊断 沉淀20+诊断类型 失败分析 耗时分析 报错分析 资源分析 效率分析 04 智能运维 BMR-智能运维 集群规模大 服务管理复杂 故障排查难 主机数量10,000+ 磁盘数量200,000+ 服务组件50+ 混部组件多 机器/环境异构组件相互依赖 故障发现滞后故障处理速度慢 BMR-智能运维 巡检系统:主动发现风险,自助诊断 故障自愈:智能分析诊断,故障自动恢复 智能问答:让真相直达用户 巡检平台-应用场景 主机硬件故障 已知风险主动探查 核心配置错误 操作系统风险 组件部署不符合预期 紧急风险快速响应 巡检平台-产品能力 巡检项管理 内置10+个巡检项 巡检项快速创建、修改、删除 巡检任务类型 即时任务 期性巡检任务 定时巡检任务 巡检对象 自定义机器 服务、集群、组件 巡检结果订阅和告警 故障自愈-变被动为主动 及时性 及时发现 快速处理 减少故障时间 智能化 结合业务无损/少损修复 利用元仓数据进行智能诊断分析 减少大量繁重和重复的工作 可分析 故障预测,提前消灭风险 故障自愈-产品能力 磁盘故障、性能下降、寿命耗尽 IOHang住 服务异常 智能问答-直达用户利用元仓数据+LLM技术 05 定制化Manager 高效变更 安全变更 差异化需求 BMR-定制化Manager FlinkManager Flink任务管理 Flink版本管理 模板管理 节点管理 测试管理 KafkaManager Topic管理 集群管理 工具集 SparkManager Spark任务管理 Spark版本管理 Spark迭代管理 测试管理 BMR-FlinkManager 灰度变更精确到任务 7,000+ flink任务 3,000+ 主机数 90+ 110+ 任务模版数量 每周变更次数 变更防御 前置检查、后置检查 数年沉淀 形成工具矩阵 40+ Kafka集群数 2,000+ 主机数 10,000+ Topic数 BMR-KafkaManager Topic管理 Topic读写限流 Topic治理 Topic回收站管理 Leader-1修复 重置consumeroffset PartitionReassign 集群管理 容量、Quota管理 负载分析 Lable管理 磁盘管理 多机房管理 BMR-SparkManager 努力开发中 OneClient 多版本管理 精确到任务 快速回滚 安全变更 按任务灰度 变更防御 200,000+10,000+ Spark任务数/天主机数 打通测试平台 基准测试 性能测试 数据质量验证 06 未来展望 未来展望 完善大数据测试平台、打通变更和测试 加强变更管控 继续增强容量管理、风险预测、自愈能力 探索更多大模型的应用场景 THANKS DataFunSummit#2024

你可能感兴趣

hot

闻茂泉-阿里大数据平台超大规模集群单机可观测性实战

信息技术
2023 DOIS DevOps 国际峰会 · 北京站暨 BizDevOps 企业峰会2023-10-08
hot

许龙-B站容器平台混部和容量管理实践

信息技术
ArchSummit深圳2024|全球架构师峰会2024-07-05