Gdevops 全球敏GlobalDe捷vOpsSummit运维峰会 知乎数据库稳定性建设实践 演讲人:代晓磊 目录 商业用途 01稳定性建设概述AiOps 02常用DB稳定性方案 03知乎DB稳定性建设实战 04总结和展望 Gdevops全球敏捷运维峰会北京站 01稳定性建设概述 稳定性保障挑战 AiOps 各种数据库栈(sqlnosqlnewsq)基础设施稳定性(硬件/网络/K8s) 数据量+查询复杂度(亿级、TBsize)Challenge平台能力(监控报警、备份恢复) 复杂的数据库架构安全规范设计 Gdevops全球敏捷运维峰会北京站 01稳定性建设概述 稳定性建设总体架构 01 降发生降影响 稳定性需求分析稳定性实现分析稳定性建设活动稳定性建设工具 服务实现流程分折 主体分析 保障规范综合管理工具 强弱架购分析组织保障韶力 稳定性需求部署架构分析保障体系访问模式与访间量分析 故障止损工具 Gdevops全球敏捷运维峰会北京站 01稳定性建设概述 稳定性建设目标 AiOps 高可用、高性幅、高质量 O 商业用途 业务可用座 SLA.,RTO,RPO 稳定性 降发生 Da 降影响 量化指标 用户影响程度 DAU、用户反馈人费 早感知。快定位、急止损资产损失程度 收入,数据资产 Gdevops全球敏捷运维峰会北京站 02DB稳定性解决方案 架构设计 olus Aiops 禁商业用途 去除单点 应用依赖 数据保护 se 灾备设计 弹性设计 仅供学习 Gdevops全球敏捷运维峰会北京站 02DB稳定性解决方案 容量规划blus 数据增长预测扩缩容 网络流量0205IDC容量 内部资源使用0306吞吐量提升 Gdevops全球敏捷运维峰会北京站 02DB稳定性解决方案 运维方案 010203 P 变更管理可观测能力建设故障演练 >乘容设计 双期迁够分析SQL变更 tracing >风险滤检 Gdevops全球敏捷运维峰会北京站 02DB稳定性解决方案 安全设计 系统设计部署和操数据安全网络安全 安全作系统安 全 扫描工具 安全补丁 DB权限控制 内网专线 漏洞扫描 防火墙 备份恢复能力 DB关闭外网 安全规范 操作日志审计 数据加密 防火墙 常用漏洞规避 业务用非root管理 备份加密 加密传输 Gdevops全球敏捷运维峰会北京站 03知乎稳定性建设实战 双率风险拉提混沌工程 总体设计 急东更风险 变更管理 容量管理 蓉灾管理 平台化管理 SGL更 高可用系 天亨台 4//表 多多活 工单中心多活管担平包 ,可用性风膜快少平台化建团 可现测能力全链路压测能力 B控瓷零管理数摄收惠染量发起 +品tsting 稳定性管理 DB以及服务SLO管理应地案程及请度 Gdevops全球敏捷运维峰会北京站 03知乎稳定性建设实战 稳定性综合管理 标准化 SLO(服务等级目标) 业务等级故障等级 结构化数据化 人:SRE+稳定性小组报警ack率 服务树 0203 质1-5-量10分 应急预案故障务布 Gdevops全球敏捷运维峰会北京站 03知乎稳定性建设实战 变更管理 AiOps ata 010203 SQL变更业务变更危险变更 SQL审核和执行平台SQL审计迁移、删除集群 变更回滚(diropldml)灰度变更 Gdevops全球敏捷运维峰会北京站 03知乎稳定性建设实战 监控>可观测 折行姚路 noe 用志户:行为把日 可观测能力建设 业务成功率网络尾时 应用报板监控 瑞到选情欢 请求 logging 统一报警 请求时长监控fring可效 Ed拓 Gdevops全球敏捷运维峰会北京站 03知乎稳定性建设实战 监控报警 监控配置自动和自助监控展示 监控粒度(集群、实例、metric) 键关闭报警 多渠道报警 报警升级 Gdevops全球敏捷运维峰会北京站 03知乎稳定性建设实战 备份恢复 备份策略咯实例化 备份存储:S3orHDFS 3 备份粒度(集群、实例、库、表) 恢复验证- 白助化恢复 Gdevops全球敏捷运维峰会北京站 03知乎稳定性建设实战 Ripit计tit:C iops ELK SQL指纹 39441 慢SQL✲表 Gdevops全球敏捷运维峰会北京站 03知乎稳定性建设实战 故障演练lus iops 故障预案故障影响、原因、时序记录 E: 故障注入E:故障故障复盘(根因+总结) E:Da 故障✲告故障Todo(actions) Gdevops全球敏捷运维峰会北京站 03知乎稳定性建设实战 硬件 资源利用率、硬件故障 olus DB巡检 AiOps 严禁商业用途 ta 02数据库 库表size、麦自增ID、索引使 高可用03用&数量、慢SQL、TOPsql、 是否开启高可用、核心S是否有异 地slave、备份恢复 Gdevops全球敏捷运维峰会北京站 03知乎稳定性建设实战 天穹平台 -知乎一站式数据库管控平台 Line.8hB Gdevops全球敏捷运维峰会北京站 04总结&展望 故障预防工具 运维方案故障止损工具 ® 稳定性目标 总结 平台化 Gdevops全球敏捷运维峰会北京站 04总结&展望 架构设计:多云多活建设混沌实验平台 gdata 严禁商业用 建设SRE团队展望建设全链路压测能力 建设可观测能力建设Aiops能力 Gdevops全球敏捷运维峰会北京站 Gdevops 全球敏GlobalDe捷vOpsSummit运维峰会 THANKYOU!