行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

武安闯-B站 SRE 转型历程与可靠性工程实践

建筑建材 2023-10-08 2023 DOIS DevOps 国际峰会 · 北京站暨 BizDevOps 企业峰会 CS杨林

B站SRE转型历程与可靠性工程实践

1. SRE概述

定义：SRE（Site Reliability Engineering，网站可靠性工程）是一种利用软件工程的方法和思维来替代人工操作，解决运维问题的方式。SRE团队主要由50%-60%的标准软件工程师和40%-50%具备特定技能的工程师组成，其中50%的精力用于开发工作。
区别：SRE与传统运维和DevOps的主要区别在于SRE更注重工程和自动化，而DevOps则更侧重于文化和流程。

2. SRE转型中的保驾护航

人员与组织支持：通过团队认可SRE文化、定义职级能力模型、提供SRE发展路线，并通过导师帮助、技术分享会等方式支持SRE转型。
组织结构：从运维向SRE转型过程中，逐步引入SLO（Service Level Objective），并构建Oncall轮值机制，实现工程开发与治理的平衡。

3. SRE可靠性框架

高可用架构：采用多活容灾、微服务架构等技术手段，确保系统的高可用性和容错能力。
技术风险体系：通过SLO（Service Level Objective）进行质量监控，实施变更管理、混沌工程、容量管理等措施，提升系统可靠性。
质量运营：建立NOC值班、风险运营、生产专项等机制，保障系统的稳定运行。

4. 可靠性工程实践

多活容灾：通过DC（数据中心）间的数据同步和负载均衡，实现业务的高可用性和容灾能力。
SLO（Service Level Objective）：定义并监控各项服务的关键指标，如可用性、延迟等，确保服务质量。
故障快恢：实施1-5-10原则，即1分钟发现故障、5分钟内进行处置、10分钟内恢复正常运行，提高故障恢复效率。

总结

B站在SRE转型过程中，通过构建高可用架构、技术风险体系和质量运营平台，实现了从传统运维向SRE的全面转型。特别是在SLO和故障快恢方面，B站通过具体的实践措施，显著提升了系统的可靠性和稳定性。

武安闯哔哩哔哩/ SRE负责人 •对SRE高可用架构、技术风险体系建设、质量运营和组织转型有深刻的建设实践和思考•主导B站SRE转型、高可用架构、故障快恢、SLO工程、容量管理体系、多活容灾等专项•从0到1带领B站运维向SRE转型，建设B站可靠性体系•当前专注SRE可靠性体系规划建设和落地实践什么是SRE传统运维与Google SRE的区别 01 目录Content SRE转型的保驾护航人、组织、制度为SRE转型保驾护航 02 SRE可靠性框架 03 高可用架构、技术风险、质量运营可靠性工程实践 04 多活容灾、SLO、故障快恢1-5-10 01 什么是SRE 传统运维与Google SRE的区别什么是SRE SRE •⽹站可靠性⼯程师•SRE最早是由Google提出•⽤软件⼯程的思维和⽅法论，通过设计和⾃动化来取代⼈⼯操作•解决的问题•团队⼤⼩与系统负载成线性增⻓•研发变更效率与运维服务稳定性的⽭盾团队特点 •50%-60%是标准的软件⼯程师•40%-50%基本满⾜软件⼯程师标准，但具备⼀定的其他技能（Unix内部细节和⽹络知识）•SRE团队把50%的精⼒⽤于开发⼯作•SRE成功的关键在于对⼯程的关注 2 0 2 3 D e v O p s国际峰会暨B i z D e v O p s企业峰会·北京站 SRE讲了什么 SRE基础认知团队管理和⼯作模式 •SRE团队转型、SRE参与模型、协作沟通•SRE琐事优化、中断管理拥抱⼯程、拥抱开发 •重视⼯程、运维⾃动化•50%⼈⼒参与开发 SLO⼯程•SLI度量、SLO⼯程、报警、运营 SRE⽇常Oncall ⾼可⽤ •关注系统⾼可⽤能⼒和架构设计故障⽣命周期管理 2 0 2 3 D e v O p s国际峰会暨B i z D e v O p s企业峰会·北京站 SRE与传统运维&DevOPS的区别⽤软件⼯程的思维和⽅法论，通过设计和⾃动化来取代⼈⼯操作 •SRE团队把50%的精⼒⽤于开发⼯作•SRE成功的关键在于对⼯程的关注被动质量、变更效率 OPS 资源交付、配置变更异常处理、问题排查运维标准化、监控告警被动响应，应急事务处理工程、质量、效率 •可⽤性•延迟•性能•效率•变更管理•监控•应急响应•容量规划 •SRE实现了DevOps描述的⼀些哲学•⽐“DevOps⼯程师”更接近于这个⼯作或⻆⾊的定义•SRE类实现了DevOps接⼝ DevOPS CI/CD研发交付效率CMDB、变更、中间件运维变更效率堡垒机、作业、审批⼯具建设⽇志、监控、告警可观测 DevOps是⼀套松散的实践，指南和⽂化，旨在打破IT开发，运维，⽹络和安全⽅⾯的孤⽴ 2 0 2 3 D e v O p s国际峰会暨B i z D e v O p s企业峰会·北京站 SRE转型中保驾护航人、组织、制度为SRE转型保驾护航琐事优化—给SRE转型的时间没有时间，转型SRE就是异想天开与维护服务相关的，重复的、可预测的、持续 •⼿动性•重复性•可以被⾃动化•⾮技术性•没有持续的价值•与服务同步增⻓琐事类型 •流程/⼯单•问询、沟通中断•服务迁移、变更•压缩成本和容量规划•问题/故障排查处理 Oncall轮值⼯程+BP+部分Oncall轮岗全员Oncall轮岗⼯程+BP+云原⽣架构+技术⽀持⼯程稳步迭代、专项持续推进重运维业务专项BP，其他业务Oncall•更多⼈⼒转型⼯程开发vs依旧较多的中断中断和Oncall左移技术⽀持，SRE全员转型SRE只专注开发运营与可靠性⼯程•标准化Oncall和中断，SOP技术⽀持承接•更专业和全职的技术运营释放⼈⼒转型⼯程开发和治理 •⼯程轮岗导致⼯程效率低下•专项事宜难推动•技术差异性⼤，全员Oncall不深⼊ 2 0 2 3 D e v O p s国际峰会暨B i z D e v O p s企业峰会·北京站人员能力模型升级日常变更答疑：变更、资源配置、报警、工单、平台答疑基础技能 SRE升级串联协作：项目跟进、问题复盘、平台运营、预算基本运维能⼒：Linux、中间件、微服务、云原⽣K8S⽹络、TCP/IP、OS、内核⾼可⽤架构、技术⻛险专项⼯具、平台开发运营技术支持：业务迁移/重构、业务改造、中间件推广、基架技术运营、应急响应&故障处理、成本优化合作共赢成⻓潜⼒项⽬管理团队协作同理⼼/情商学习能⼒、好奇⼼逆向思维责任⼼/担当稳定性实践：服务分级、质量运营、巡检风控、预案建设、多活容灾、容量管理、报警治理等稳定性体系：多活&高可用、容量管理&弹性伸缩、活动保障、服务分级& S LO运营、研发轮岗 2 0 2 3 D e v O p s国际峰会暨B i z D e v O p s企业峰会·北京站团队/组织支持开发转型 2 0 2 3 D e v O p s国际峰会暨B i z D e v O p s企业峰会·北京站 B站SRE转型历程应⽤、系统架构、⾼可⽤架构、⻛险、运营 •应⽤运维职责拆分•关注应⽤、组件稳定性•关注系统架构•事故总结、复盘⽂化•开始了解SRE、业务 •⾼可⽤架构：多活容灾综合实践•技术⻛险体系：S L O、变更、混沌、容量、故障快恢、A I O P S等•质量运营：O n c a l l值班、⻛险运营、⽣产专项、质量运营中⼼转型、可靠性、⼯程交付、配置、效率 •琐事优化、平台服务化、O n c a l l轮岗、业务B P•开发转型，关注⼯程，S R E⽅法论探索、实践、总结、反思•S L O、应⽤架构、容量、多活、故障管理、混沌⼯程、活动重保等•稳定性框架初步完善 •资源交付、环境初始化•服务发布、配置变更•监控采集、报警处理•运维标准化•D e v o p s平台化 SRE可靠性框架高可用架构、技术风险、质量运营 SRE可靠性框架系统架构 SLO •中间件/组件架构&⾼可⽤、容灾预案、切换演练、端到端全链路容错 •业务&场景&服务、中间件、基础设施All in SLO•基于SLO的全⽹业务质量体系、⻛险识别与升级协同微服务架构安全变更 •注册发现调⽤、超时重试、依赖降级、限流熔断、隔离调度、中间件/组件依赖容错•服务运⾏时规范、观测能⼒ •流程制度、变更红线、分级发布、变更刹⻋混沌⼯程：⻛险挖掘、⻛险验证容量管理：容量分析预测、弹性伸缩、降本基础设施架构故障快恢（1-5-10） •公有云、IDC、混合云、⽹络、专线、服务器 •故障发现、应急协同、定界处置、故障快恢、⻛险预防AIOps：根因推荐、⽆阈值告警、异常检测可观测：Metric/Log/Trace故障定界能⼒多活容灾综合实践质量运营体系 •同城双活、异地多活、单元化 NOC值班：SREOncall、舆情客诉、应急响应、调度决策⻛险运营：⻛险挖掘、⻛险处理、业务覆盖、改进落地⽣产专项：质量周会、SLO专项、活动重保、项⽬协同质量运营平台：⻛险中⼼、协同升级、值班管理、数据运营 2 0 2 3 D e v O p s国际峰会暨B i z D e v O p s企业峰会·北京站实践心得在组织的⽀持下团队从运维转型升级到SRE从被动运维到主动的可靠性⼯程开展个⼈能⼒模型转变提升，多重⻆⾊⽀持研发以SLO为核⼼抓质量体系建设、报警治理和⻛险运营以GOC体系1-5-10要求为⽬标建设故障快恢能⼒关注服务流量层的南北向和东⻄向⾼可⽤容错能⼒深⼊应⽤架构、系统架构，跟研发⼀起提升架构可靠性容量故障不可忽视，HPA必不可少，降本增效也要兼顾所有保障能⼒都在活动重保中综合体现和验证从SRE中来，⾛出SRE的框架，形成⾃⼰的体系 04 可靠性工程实践多活容灾、SLO、故障快恢1-5-10 多活容灾架构 2 0 2 3 D e v O p s国际峰会暨B i z D e v O p s企业峰会·北京站多活管控与治理 SLO工程 SLO：指定了服务可靠性的⽬标⽔平，是做出可靠性决策的关键数据，是SRE实践的核⼼ •⼯程师稀缺，时间投⼊到重要服务的核⼼问题上•SLO是做出⼯作优先级排序和可靠性相关⼯作的关键•⼯作按照SLO来开展，确保SLO是合理的•没有SLO，就没有SRE 2 0 2 3 D e v O p s国际峰会暨B i z D e v O p s企业峰会·北京站 SLO工程实践 2 0 2 3 D e v O p s国际峰会暨B i z D e v O p s企业峰会·北京站故障快恢1-5-10实践⽬标：安全⽣产 •防⽌能预⻅的问题•快速恢复不能预防的问题•不再重复已发⽣的问题哔哩哔哩技术公众号 Thanks DevOps时代社区荣誉出品

点击免费查看完整报告

武安闯-B站 SRE 转型历程与可靠性工程实践

B站SRE转型历程与可靠性工程实践

1. SRE概述

2. SRE转型中的保驾护航

3. SRE可靠性框架

4. 可靠性工程实践

总结

你可能感兴趣

2-4 武安闯-SRE实践：从SLO工程到GOC体系建设

数智化趋势下的SRE转型实践

大型国企如何实施IT运维SRE转型——暨北京移动IT运维转型实践分享

大型国企如何实施IT运维SRE转型——暨北京移动IT运维转型实践分享

张立科-市场与服务支撑中心：打造卓越标杆 SRE 运维体系实践

2-2 章清云-浙江移动SRE运维体系成熟度研究与实践

中国式现代化的发展历程与实践路径

腾讯游戏SRE在复杂异构业务中的云原生服务实践

2024年SRE实践白皮书v1.0.4

3-3 海外游戏数据中台 SRE 实践 - 刘杰