登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
海南封关
低空经济
DeepSeek
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
1-刘天斯-腾讯游戏SRE工具链建设实践
文化传媒
2022-06-20
2022 Gdevops全球敏捷运维峰会
车***
AI智能总结
查看更多
腾讯游戏SRE工具链建设实践
一、背景与挑战
业务背景
:为玩家提供多样化的在线营销活动,提升玩家游戏体验。
主要挑战
:
微服务调用关系复杂,难以理解。
追踪、指标、日志数据上报标准不一。
难以快速定位服务问题及其根因。
上线前难以发现服务性能瓶颈。
无法准确判断节点间依赖关系。
新业务容量评估难以精准计算。
二、云原生运维转型
目标
:
完善服务全链路质量覆盖,定义可量化SLI与SLO。
提升MTBF(平均故障时间间隔),降低MTTR(故障平均修复时间)。
升级DevOps至DevSecOps,关注云成本。
实现多云多级资产编排与治理。
建立故障预警、根因分析和问题定位能力。
三、SRE工具链建设思路
SRE8准则
:
架构设计准则。
SRE前置准则。
可观测性准则。
混沌实验准则。
全链路压测准则。
DevOps交付准则。
故障应急准则。
SRE学习准则。
四、可观测性实践
系统架构
:
提供多语言SDK,完全兼容OpenTracing、OpenTelemetry标准。
支持不同业务特性的采样率配置。
数据冷热分离,降低运营成本。
实现秒级延迟数据上报,异常全捕捉。
综合治理
:
头部采样:入口服务开启采样并向下游传递。
尾部采样:缓存数据后对上报数据规则过滤。
数据冷热分离:热数据采用高性能实时检索引擎,冷数据采用离线数仓库方案。
异常检测
:
结合压测平台和混沌实验,明确故障原子,自动标注异常特征。
算法模型:MatrixProfile用于检测异常点。
五、混沌工程实践
平台架构
:
提供27种故障原子,覆盖多种场景。
支持ODPK8S实验,包括Pod、容器、网络、IO等。
实验编排支持串行、并行。
全BG通用,零接入成本。
红蓝对抗:支持攻击、防守对抗。
自动化实验:支持蓝盾流水线编排。
依赖分析:结合可观测性技术,追踪服务依赖关系。
六、全链路压测实践
平台架构
:
参数模板提供随机参数,灵活生成构造压测请求。
压力源弹性伸缩,基于云原生架构自动扩缩。
拨测验证:快速检验请求响应。
平台能力
:
高并发压力源:单核2w/s发压能力。
压测异常熔断:根据失败率和耗时自动终止压测。
实时监控报表:实时展示QPS、耗时等指标。
链路拓扑绘制:自动计算并绘制全链路微服务间调用拓扑图。
自动补链:自动补充下游末端服务调用链路。
性能瓶颈分析:实时展示服务间性能指标,快速定位性能瓶颈。
根因下钻:提供调用跟踪详情和指标详情,快速定位异常根因。
七、总结
SRE实践
:通过以上工具链建设,实现了服务全链路质量覆盖、提升故障处理效率、增强安全性与稳定性,最终提升了整体运维水平。
你可能感兴趣
腾讯游戏SRE在复杂异构业务中的云原生服务实践
开放运维联盟&高效运维社区&DevOps时代
2023-01-01
3-3 海外游戏数据中台 SRE 实践 - 刘杰
文化传媒
DataFunSummit2022:数据科学在线峰会
2022-06-13
2-4 武安闯-SRE实践:从SLO工程到GOC体系建设
建筑建材
2023 Gdevops全球敏捷运维峰会
2023-08-03
徐晓强-智能化研发工具链在百度的探索与实践
信息技术
2024 第22届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 深圳站
2024-05-13
刘晓东- 网易严选 DMP 标签系统建设实践
信息技术
DataFunSummit2022:大数据计算架构峰会
2022-05-19