您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[XOps 风向标!GOPS 全球运维大会暨研运数智化技术峰会 2024 · 上海站]:见微知著:业务_技术双轮驱动的稳定性实践 - 林万境 - 发现报告
当前位置:首页/行业研究/报告详情/

见微知著:业务_技术双轮驱动的稳定性实践 - 林万境

AI智能总结
查看更多
见微知著:业务_技术双轮驱动的稳定性实践 - 林万境

见微知著:业务/技术双轮 驱动的稳定性实践 林万境 个人简介 林万境阿里巴巴资深技术专家 •十五年互联网行业技术架构、运维SRE体系建设老兵,早期就职游戏公司,经历了从刀耕火种到业务井喷下的运维自动化体系建设及落地; •先后就职UCloud、阿里云,经历了云技术快速发展的关键时刻,有丰富的云运维devops经验,长期专注互联网各行业技术运维、服务保障工作。 •聚焦电商、泛娱乐、游戏、教育、泛企业等行业客户,打造结合客户业务及云上最佳实践方案、赋能,擅长甲乙方视角行业架构、云实践、疑难问题攻坚等。 •掉过很多坑,填过坑也造过坑,避过坑,追求以“技术洞见”造就业务一片坦途。 业务/技术发展阶段及痛点 围绕问题的行业技术实践 大纲 SRE工程化稳定性体系建设 AI智能化实践引路 聊运维,先从一条曲线开始 业务/技术 时间/人 01 业务/技术发展阶段及痛点 业务/技术发展阶段及痛点 业务不间断业务模式多样 C/B端业务 故障影响重,处理被动架构容灾能力被挑战压测,故障演练 电商秒杀、发红包大促等场景游戏新项目上线、版更活动等大数据搜推,智能货柜 视频直播/点播场景 围绕上下游用户的技术支撑技术与业务拓展怎么融合 如何开放能力,业务如何互补 新兴技术 AI大模型 大算力,多模态技术在未来 技术转换快运维自动化 数实结合的转型实践 现有IT基础架构和云化架构融合高速公路上换轮胎能力 提高效率,实现自动化降低成本,TCO需求 故障自愈能力,前置价值 02 围绕问题的行业技术实践 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 从页游到手游,从IDC到云,游戏行业技术变革实践 网络游戏技术演进下的快稳准 1.0–端游为王阶段 业务演进,CS架构 2.0–页游快阶段 变革萌芽期,快速上线,IDC为主,ALLINON架构 3.0–手游竞争阶段 创业期上线快,加速云化,稳定 最最关键 4.0-手游格局阶段 大作精细化、新游运维、版更,稳定先进性,标准化 1996-2006 2007-2012 2013-2020 2021–2024 业务快速增长下,技术总在追赶 回到2009年,从一款爆款快速扩充上线说起,网页游戏盛起的年代,某游戏一夜爆火,日均开服量暴涨500%,传统运维模式问题挑战多,高速公路换轮胎。 IDC运维时代遇到的问题 •传统部署模式:IDC托管、现场装机、命令行方式部署 •传统操作系统:早期大量的windows系统 •传统游戏架构:LNMT架构,“ALLINONE” •数据灾难不可恢 •故障影响重,大R上门 •…… 1 先扛住再优化 2 人肉规范化、去windows化 运维自动化 3 脚本+CRT并发模式、Ansible 高可用化 备份容灾、架构优化 繁复是运维的耻辱,自动化是昂起的头颅 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 可能的问题 技术不可控 云上黑盒 排查效率低 新技术水土不服 业务快速增长下,技术总在追赶 2012年,运维在合服回收数据库的一次“dropdatabasexx”误操作带来的云认知和思考,故障不可避免,可怕的是只能依赖别人。 故障出现 云云网网络络 网络异常 系统底层 应用异常 数据异常 数据状态 快恢协助 变更异常 可能的场景 1.玩家游戏内操作卡,网络问题自排止步于现象 2.故障业损期,自查许久才发现自己没问题,联合云的排查大量串行 3.业务发展到一定阶段触发某些不可 知云产品瓶颈导致业务故障 4.数据误操作,本地没有实时备份 技术转化前提是稳定,技术结合是基础 进入云时代,让运维工作模式发生变化,云视角下的业务/技术结合是痛点,运维因子变多、范围变广,如何在云上更稳定是该时期最大的挑战。 云产品稳定≠业 务稳定性 通用最佳实践<业 务最佳实践 稳定性建设投入> 业务预期收益 三个矛盾三个坚持 云运维的本质是换位,从“车上看路”到“路上看车”的思维转变。 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 主动运营是稳定性的核心逻辑 治未病ICU 康复 故障跟踪健康管理架构梳理工具巡检性能压测 容量管理业务监控稳定评审故障演练技术保障 实施元件 事前先于故障,主动运营,规避问题 事中业务优先,业务逃逸 基于原子化工作形成结论化技术导向 事后以点带面,复盘总结 已知问题以点带面,由表及里辐射治理可能的隐患;架构梳理结合场景洞察技术隐患和实施最佳实践,主动巡检。 业务快恢能力,业务逃逸、技术容灾。关键依赖前置演练。 一个问题的结束只是开始,复盘总结不再重复出现。关键依赖actions落地。 系统性、工具化支撑主动运营 工程化支撑 技术保障标准化,从不确定实践提炼确定性 业务项目规模化后的技术保障诉求必然是规范化、标准化,保障结果必然是确定性、前置化,战前忙碌、战时平稳、战后归纳, 集团军模式遍地开花。 游戏衰退期 游戏稳定运营期 游戏开服上线期 游戏封测期 项目阶段 业务语言 游戏立项研发期 游戏事件 •版号申请 •游戏业务架构 •游戏开发语言 •游戏玩法 技术翻译 •上线玩家平台/区域 •云产品选型 •封测业务数据 •用云问题 •开服推广形式(直播/广告等) •预估DAU、PCU指标 •玩家次日留存,7日留存 •游戏内功能BUG情况 •充值情况 •游戏版更 •运营活动 •多游戏渠道拓展(云游戏/网页版) •配套游戏周边活动/粉丝见面会 •平台账号/安全治理 •游戏服活跃度下滑 •成本优化 反哺业务 标 准•定义保障级别 方 案•技术栈匹配 库•技术风险识别 技术语 言技术 交游戏业务信息收集表 付技术风险识别表 •项目档案沉淀 •架构及资源选型方案 •运维问题/需求 •技术风险识别 •架构风险识别 封测关键问题&需求汇总表 业务架构/云产品识别风险表 •核实项目关键信息 •制定上线计划及分工 •资源报备/开通 •监控建设方案 •配置基础监控 •业务全链路性能压测 •容灾方案设计与演练 •游戏业务风险预案 核心资源列表 云产品巡检表 压测/容灾演练报告 风险预案/降级预案 故障应急、稳定性治理、技术保障标准体系化,追求永不中断的游戏业务 技术封网 •安全防护方案 •资源风险巡检 •游戏业务风险巡检 •变更封网 •CDN预下载保障 •游戏开服应急响应 •OB上线复盘总结 监控大屏 云产品基础监控 机器人播报 •资源需求报备 •CDN预热保障 •数据库高效备份 •游戏版更应急 •云游戏资源管理 游戏版更checklist 运维月报告 AK巡检报告 云游戏资源报告 技术测试跟进报告 •AK治理 •业务稳定性建设 •Devops建设 •新技术需求功能测试 •资源在线扩容 Devops体系建设 重大活动保障 •资源TCO分析 •资源使用率指标巡检 •业务改造/技术调研 •项目下线支持 成本优化方案 业务技术改造建 议 字体 红色SS级及以上完成 黄色 字体 S级及以上完成 蓝色 字体 AB级及以上完成 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 电商进入弹性时代,高并发大促保障 电商规模化成本,弹性是技术最优解 电商流量拥有天然潮汐特性,IDC托管-属于最大资源供应形态,托管按需扩容-有储备的成本,相对于前两者云上弹性在供需关系、扩容时间上有显著优势。 储备成本N++ 1月++ 提效降本 电商红包秒杀的业务实践,早期保障往往从问题开始 双十一、双十二、店庆等多样性带来带宽波峰较为明显,服务压力是平常的数十、百倍甚至千倍,异常影响也是指数级。 秒级高并发 600+个LB 弹性主机横向扩展 公共DB 业务挑战 保障策略 实现价值 •业务高并发,并发可能带来不可知技术瓶颈 •业务架构耦合度较高,故障引发连带效应 •调整架构时间有限 •梳理业务运营思路和技术匹配逻辑 •LB的CPS性能压测,独享资源集群 •关键业务模块拆分,分散性能及单点故障,启用泳道隔离故障方案 •数据层CACHE缓存及分库、分表 •压测、降级预案准备,后续的架构优化落地 •红包活动保持每天至少300%的用户量增长,实现APP日活增量提升将近8倍 •架构能力优化,为后续打下技术基础 •打磨适配的保障常态化工作 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 全链路压测 异地多活 故障演练 线上管控 电商技术保障checklist 阶段 工作项 描述 验证情况 准备期 业务调研 保障目标,业务活动情况等 Y/N 架构梳理 应用架构、部署架构(业务流+数据流) Y/N 系统评估 业务体量预估映射为系统性能、容量目标 Y/N 规划期 保障团队组建 组成各部门甚至包括协同供应商联合保障团队 Y/N 环境构建 构建业务系统、或已有系统的改造 Y/N 实施期 全链路压测 压测环境构建,场景构建,单接口&单链路&全场景压测 Y/N 性能分析及优化 基于压测的性能分析、瓶颈优化实施,直至达到系统目标 Y/N 风险评估及优化 架构、可用性、安全等风险的评估及优化实施 Y/N 流量防护方案 对于超出系统容量业务的防护措施,即限流方案 Y/N 降级方案 主业务链路保护,可降级链路、服务、模块等方案及实施 Y/N 容灾方案 接入层、应用层、数据层,地域/单可用区级别的故障容灾方案实施 Y/N 预案演练 完成上述限流、降级、容灾等预防的演练 Y/N 收尾期 保障过程监控 资源监控、业务监控、告警播报方案等 Y/N 应急保障 临场应急 Y/N 复盘总结 保障总结报告,总结沉淀 Y/N 围绕问题的行业技术实践TIPS 见微知著 •快速变化的业务,运维大量时间投入在繁复被动支持工作 •当前运维能力有限(个人/团队) •故障较多,都是没见过的问题 •从0到1后,1到100只能靠堆人 •大量时间投入在故障应急,“坑”源源不断 •大型活动保障都是被动救火 •不出问题没人知道运维做了什么,“运维没有价值?” •架构推动不了研发改动,现状不允许 •保持SRE工程化思维,先扛住再优化,扛住是过程优化才是目标 •已知故障复盘,以点带面、举一反三 •主动运营,至少60%时间投入事前 •规范化、标准化、脚本化、工具化、自动化五步法则 •透过表象看本质;通过局部看整体;围绕现在看未来 •业务拆解技术动作,技术回归业务价值 •做稳定性一号位,从挨打到执鞭人转变 •没有绝对的高可用,只有价值互惠 03 SRE工程化稳定性体系建设 SRE工程化关键原则 、 •运维架构设计原则:架构N+1设计,可回滚、可禁用、可降级,实现多业务模块、多架构高可用; •可观测性原则:确保核心指标、核心链路可监控,通过采集业务指标日志、追踪等数据。开天眼在问题发生之前发现问题; •全链路压测原则:通过与可观测性、混沌实验能力的深度整合,实现模拟真实业务环境全链路压测,达到业务上线前的精准资源评估,主动发现潜在性能、版本缺陷等问题; •GOC应急原则:故障不可避免,需要不断去提升MTBF(平均无故障工作时间),降低MTTR(平均修复时间)。制定标准化GOC应急机制,保障事中快速发现、分析、定位与解决问题; •主动运维原则:故障探测、故障压测、故障演练、主动架构优化等事 前的大量混沌实验、故障预案,主动巡检、容量管理等工作,实现风险规避以及打造故障逃逸等能力; •自动化运维原则:DevOps、AiOps等方向,对人肉工作进行标准化、 规范化改造,从而实现自动化。 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 阿里巴巴稳定性保障体系 阿里巴巴云上业务稳定性保障全貌 04 AI智能化实践 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 AI的出现,会取代运维吗? 基于大模型的应用场景 智能编码 ChatBI 知识库问答 AIOPS 广告营销 结构化数据 Chains 文档 Pro

你可能感兴趣

hot

张雁丽--OnCall 驱动下的IT系统稳定性运营实践-版

信息技术
2024 第23届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 北京站2024-07-17
hot

基于数据驱动的系统稳定性保障体系研究与实践-国泰君安证券-胡霞

信息技术
XOps 风向标!GOPS 全球运维大会暨研运数智化技术峰会 2024 · 上海站2024-10-21