咪咕互娱云游戏平台智能化运维与可观测性实践探索 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 个人简介 周鸣 咪咕互动娱乐有限公司运维总监 拥有超过10年以上的IT行业经验,精通各种主流的操作系统、数据库、网络设备和虚拟化技术。在云计算、大数据、人工智能等领域也有深入的研究和实践经验。带领运维团队不断优化和升级企业的IT系统,提高系统的可靠性、安全性和可扩展性,以确保运维工作与企业的业务目标紧密结合,从而推动企业的发展和创新。 云游戏介绍 运维存在问题(背景、困难) 目录解决思路及取得成效 弱网实验室赋能产品体验优化 01 云游戏介绍 什么是云游戏 云游戏是什么有什么特色 基于ARM/X86架构的安卓、主机游戏的云化 无需下载和安装,即点即玩 无平台限制,可以在任何平台和终端进行访问 以云计算为基础,游戏在云端服务器运行,将渲染完毕后的游戏画面压缩编码后通过网络传送给用户,客户端设备只需要基本的视频解码和输入能力,实现即点即玩的游戏理念。 缓存技术CDN技术 实时传输 公司介绍 咪咕文化 咪咕音乐 咪咕视讯 咪咕数媒 咪咕互娱 咪咕新空 中国移动通信集团有限公司 咪咕音乐&视频彩铃成都 咪咕视频上海 咪咕阅读&云书店杭州 咪咕快游 南京 元宇宙厦门 中国移动咪咕快游 移动客户 10亿 千兆覆盖用户 4.38亿 在线畅玩精品云游戏 2100+ 云游戏全场景月活跃用户 1.34亿 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 “咪咕快游”首个电信级云游戏平台 充分发挥中国移动5G+算力网络的技术优势,探索“5G+X”应用创新,打造了全国首个电信级云游戏平台 云游戏的特质是“去APP化”实质是将游戏运行及渲染由终端迁移到云端电信级云游戏平台—咪咕快游 用户规模行业领先 全场景月活用户达1.34亿 内容数量行业领先 汇聚2100+款在线畅玩精品云游戏 产品创新行业领先 “一品跨端”全产品矩阵 技术创新行业领先 高清晰、高画质、高帧率 4G网络 加速 规则执行 eNodeB S-GW/P-GW 算力服务 UPF 基础算力资源 5G网络加速 PCRF PCF SMF gNodeB 规则执行 AMF 算网融合能力行业领先 算力服务 GPU服务器 CPU服务器 存储服务器 ARM服务器 连接服务 5G网络 专网 专线 物联网 依托中国移动云能力中心覆盖全国、技术领先、规格齐全的算力网络,基于5G大带宽、低时延、广连接特点及5G网络切片QoS保障等技术,打造云、网、边、端一体化分层分级服务及智能编排能力,提供行业领先的算网融合能力 基站 UPF ARM 算力 存档公共服务 调度系统 QoS流5QI=3 QoS流5QI=9 通用切片 ④ ③ 高性能GPU算力 中心节点 用户 云游戏专属切片 CMNET 城域网 ② ① 高性能GPU算力 高性能ARM算力 低性能GPU算力 低性能ARM算力 边缘云 端网云/边场景编排 需求:高带宽、超低时延 场景①:云游戏 能力:5G专属切片+边缘云场景②:元宇宙 需求:高宽带,超低时延、高性能算力 能力:5G专属切片+边缘云+高性能GPU算力 场景③:影视制作/设计需求:高性能渲染算力能力:高性能GPU算力 需求:低时延+高性能算力 场景④:文旅/教育 能力:QoS保障+中心节点 02 运维存在问题(背景、困难) PaaS LDAP 统一账号鉴权 Prometheus 统一运维平台 配置管理 应用服务监控应急管理 专家系统 漏斗分析 Skywalking 游戏全流程调用链 SVN 运维知识库 Zabbix 分布式监控 网络监视 自动化管理 PuppetJenkins 自动化发布工具 Ansible 自动化 工具 网络管理工具 SQL审核工具 平台管理 硬件管理 ELK 日志采集 日志分析 日志检索 运维管理 监控管理 自动化脚本 版本变更 应用数据采集 系统交维管理办法 密码应用管理办法 应急处理预案 故障处理指导手册 现网变更管理办法 平台运行维护管理细则 流程管控 SaaS 云游戏运行数据可视化平台 云游戏技术指标分析平台 云游戏经营分析系统 云游戏变更管理系统 云游戏业务支撑系统 云游戏权限管理平台 云游戏运维平台整体架构 4A SPMS 磐石系统 分析云 Amber Grafana 业务支撑 研发质量管理 游戏管理平台 游戏云化 智能调度算力管理系统参数配置游戏质量管理 Gitlab 代码仓库版本管理 JIRA 需求管理文档管理 SONAR代码审核 Jenkins上线发布 数据库服务 PerfDog游戏性能测试KEI指标拨测 关系型数据库MySQLMongoDB 分布式数据库 OceanBaseHIVE HBase 硬件资源 服务器防火墙 容器 负载均衡器 存储交换机 算力资源 ARM算力 GPU算力 操作系统 Anolis Euler CentOS Windows IaaS 运维痛点问题 01、成本控制:运维任务多、流程繁琐 02、系统复杂:应用系统上下游依赖关系混乱 03、可观测能力:系统割裂,无统一可观测大屏展示 04、智能化水平低:故障诊断困难,依赖人工经验 行业技术交流 传统运维(孤立) 指标 日志 监控 指标 追踪 可观测能力(交叉链路) 构建可观测平台,形成数据端到端全关联,全链路实时监测网络流量、服务器负载、业务指标等场景观测能力,同时可对单个用户一键链路分析排查分析和告警事件关联 日志 工具 实时监 控分析 数据 维护 多维度视角 全链路追踪 能力聚合 行业运维领域聚焦构建先进可观测能力 国家和移动集团文件政策 2024年《政府工作报告》提出“人工智能+“行动,加快形成以人工智能为引擎的新质生产力 2024年中国移动集团工作会指出要深化AI+赋能应用,提高数智化经营水平。将AI深度运用到经营发展全过程、各领域,使AI成为内外部筑基赋能的核心抓手 行业发展变化 江苏移动 云游戏运维平台现状,对标可观测存在局限性 当前运维能力监控、日志数据、性能指标以局部视角,且数据源单一,业务系统多且复杂,缺少对全栈链路调用关系分析,同时在运维自动化能力待提升 云游戏平台监控存在盲区 业务系统复杂且数据割裂 系统运维能力待提升 × 流量 启动耗时 卡顿 流量 白屏 耗电 磁盘 × 运维工具 基础监控 指标监控 Grafana 日志查询 业务系统及链路调用 A系统 外部系统 B系统 C系统 E系统 D系统 服务器 算力资源 目前快游客户端、服务端及算力平台在端到端流程中存在监控盲区,缺乏终端核心维度和服务端链路数据采集 快游平台涉及众多子系统,涉及服务器多,系统间依赖关系复杂,系统日志数据相互割裂,任何一个系统出现异常无法精准识别 现阶段运维系统工具相互独立,监控分析、问题处理、版本变更等运维工作,当前主要以人工和运维工具辅助相结合,影响运维效率 2024年1至6月变更 次次 版本变更配置变更 2024年1至6月事件处理 1月 2月 3月 4月 5月 6月 小屏服务端 车载服务端 大屏服务端 ARM云平台 中台服务端 主机云平台 瑶光云平台 云网吧 ...... 03 解决思路及取得成效 客户端可用性,用户体验可观测 通过收集咪咕快游客户端的性能数据,分析用户旅程、使用版本、热门页面访问、页面路径和会话详情,及时发现并解决启动时间长、卡顿、白屏和崩溃等问题,以提高客户端的可用性和用户体验 记录用户旅程 客户端崩溃,卡顿监控 业务链路追踪,端到端可观测 用户反馈云游戏出现启动超时、失败和订购失败等场景,业务流程涉及咪咕快游的前端和后端多个系统及服务组件,问题排查需多方协调,导致响应不够及时,影 响用户满意度。通过TraceID实现用户端、网络端、服务端及各应用节点的日志数据全链路关联分析,提升故障定位速度和准确性,快速响应并提升用户满意度 业务指标关联 用户端业务页面性能 服务端Trace 应用日志 4.错误分析 3.下钻APM分析 2.根因下钻辅助分析 1.错误率告警频繁发生 故障快速定位 全栈性能剖析,代码级可观测 快游服务组件代码异常或性能瓶颈场景,开发团队通过在测试环境中埋点日志定位,通过使用链路追踪工具,深入服务端底层捕获应用代码数据,基于链路数据进行性能定位分析,快速追踪到具体代码方法的问题根源,提升问题定位的准确率和效率,缩短故障处理时间 系统能力优化,全域可观测 云游戏平台应对重要活动保障、季节性业务高峰(如寒暑期)、快速的业务发展和版本迭代,以及新游戏首发带来的突发业务量等多样化和复杂场景的挑战 构建云游戏平台的容量预测和健康度评估体系,实时监控服务器、应用服务和网络流量,基于系统运行指标进行健康度评分,实现系统容量的及时管理和优化,确保平台稳定运行 云游戏平台容量预测云游戏平台分析优化 优化建议项 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 业务指标分析,指标可观测 云游戏性能体验通过关键指标如游戏启动成功率、卡顿时长、RTT时延和首帧加载时间进行衡量,指标涵盖省份、运营商、终端、版本及机房等多维度。为提升异常分析效率,通过数据采集、聚合、规范化,并基于各指标特性进行特征提取和训练,实现高效的异常检测和根因分析 维度维度值数据趋势 北京上海 2维交叉2维交叉值 北京_中国电信北京_中国移动 数据趋势 省份 江苏 6项性能指标 游戏首帧加载时长 游戏启动成功率 卡顿时长占比 操作响应时延 RTT时延 丢包率 福建省份_运营商 运营商中国电信 中国移动 iOS12.1.4 上海_中国移动 上海_中国电信江苏_中国电信江苏_中国移动福建_中国移动 福建_中国电信 终端iOS13.7 iOS14.2 iOS14.4 7.2.1 SDK版本 7.9.0 南京 机房武汉 哈尔滨 省份_终端 省份_SDK版本省份_机房 运营商_终端 运营商_SDK版本运营商_机房 终端_SDK版本终端_机房SDK版本_机房 组合维度下钻分析 结论:福建_中国电信趋势变化明显, 根因可能性高 系统告警降噪,事件闭环可观测 通过AI算法提取告警特征信息,对于同类型特征的告警进行合并,将多个相关的低级别告警合并为一个高级别的告警,以减少告警数量并提供更清晰的视图 过去7天告警降噪比98.3% 内部生产故障案例分享(1/4) 故障发生 故障处理过程 查找、分析可疑SQL 主副本切换 回切Oracle 业务恢复 登录系统处理告警 9月14日21:01收到告警,提示小屏OB集群主节点租户线程使用率和CPU使用率告警,以及服务端接口探测等应用异常告警 。 内部生产故障案例分享(2/4) 可观测平台分析过程 (从小屏系统服务吞吐量及数据库吞吐量趋势图上分析,故障发生前,各业务访问量没有极巨的突增情况) (20:55分开始系统监控到gateway-main-beIa*-SNAPSHOT.jar服务出现大量SocketTimeoutException异常,小屏生产业务出现异常) 内部生产故障案例分享(3/4) 可观测平台分析过程 (检查SQL语句执行100%报错,对应服务:cloudgame-operation-task*-SNAPSHOT.jar) (21:00左右出现第一次执行,执行结果是错误,间隔3分钟执行一次) 内部生产故障案例分享(4/4) 故障恢复 (ob数据库切换为oracle后,UserController.checkTokenTemp接口的错误率逐渐下降,完全切换完成后,此业务接口恢复正常) 故障原因分析:后台奖品导出语句由于OB优化器功能不健全导致内存1-2分钟快速占满,造成数据库快速hung,其他业务无法正常运行;程序设计每间隔3分钟重新发起,造成数据库每3分钟