登录
注册
回到首页
AI搜索
发现报告
发现数据
专题报告
研选报告
定制报告
VIP权益
发现大使
发现一下
热门搜索:
新能源车
AIGC
Chatgpt
大模型
新质生产力
低空经济
当前位置:首页
/
行业研究
/
报告详情
/
1-刘天斯-腾讯游戏SRE工具链建设实践
文化传媒
2022-06-20
2022 Gdevops全球敏捷运维峰会
车***
AI智能总结
查看更多
腾讯游戏SRE工具链建设实践
一、背景与挑战
业务背景
:为玩家提供多样化的在线营销活动,提升玩家游戏体验。
主要挑战
:
微服务调用关系复杂,难以理解。
追踪、指标、日志数据上报标准不一。
难以快速定位服务问题及其根因。
上线前难以发现服务性能瓶颈。
无法准确判断节点间依赖关系。
新业务容量评估难以精准计算。
二、云原生运维转型
目标
:
完善服务全链路质量覆盖,定义可量化SLI与SLO。
提升MTBF(平均故障时间间隔),降低MTTR(故障平均修复时间)。
升级DevOps至DevSecOps,关注云成本。
实现多云多级资产编排与治理。
建立故障预警、根因分析和问题定位能力。
三、SRE工具链建设思路
SRE8准则
:
架构设计准则。
SRE前置准则。
可观测性准则。
混沌实验准则。
全链路压测准则。
DevOps交付准则。
故障应急准则。
SRE学习准则。
四、可观测性实践
系统架构
:
提供多语言SDK,完全兼容OpenTracing、OpenTelemetry标准。
支持不同业务特性的采样率配置。
数据冷热分离,降低运营成本。
实现秒级延迟数据上报,异常全捕捉。
综合治理
:
头部采样:入口服务开启采样并向下游传递。
尾部采样:缓存数据后对上报数据规则过滤。
数据冷热分离:热数据采用高性能实时检索引擎,冷数据采用离线数仓库方案。
异常检测
:
结合压测平台和混沌实验,明确故障原子,自动标注异常特征。
算法模型:MatrixProfile用于检测异常点。
五、混沌工程实践
平台架构
:
提供27种故障原子,覆盖多种场景。
支持ODPK8S实验,包括Pod、容器、网络、IO等。
实验编排支持串行、并行。
全BG通用,零接入成本。
红蓝对抗:支持攻击、防守对抗。
自动化实验:支持蓝盾流水线编排。
依赖分析:结合可观测性技术,追踪服务依赖关系。
六、全链路压测实践
平台架构
:
参数模板提供随机参数,灵活生成构造压测请求。
压力源弹性伸缩,基于云原生架构自动扩缩。
拨测验证:快速检验请求响应。
平台能力
:
高并发压力源:单核2w/s发压能力。
压测异常熔断:根据失败率和耗时自动终止压测。
实时监控报表:实时展示QPS、耗时等指标。
链路拓扑绘制:自动计算并绘制全链路微服务间调用拓扑图。
自动补链:自动补充下游末端服务调用链路。
性能瓶颈分析:实时展示服务间性能指标,快速定位性能瓶颈。
根因下钻:提供调用跟踪详情和指标详情,快速定位异常根因。
七、总结
SRE实践
:通过以上工具链建设,实现了服务全链路质量覆盖、提升故障处理效率、增强安全性与稳定性,最终提升了整体运维水平。
你可能感兴趣
3-3 海外游戏数据中台 SRE 实践 - 刘杰
文化传媒
DataFunSummit2022:数据科学在线峰会
2022-06-13
2-4 武安闯-SRE实践:从SLO工程到GOC体系建设
建筑建材
2023 Gdevops全球敏捷运维峰会
2023-08-03
刘顺华 - 中原银行 AI 平台与 MLOps ModeOps 建设实践
金融
DataFunSummit2022:智能金融在线峰会
2022-11-24
刘志-从理念到落地:中小银行智能运维体系建设实践
金融
2023 DOIS DevOps 国际峰会 · 北京站暨 BizDevOps 企业峰会
2023-10-08
1-3 阿里云数据安全治理实践 - 刘天鸢
信息技术
DataFunSummit2022:数据治理在线峰会
2022-09-15