阿里云弹性计算稳定性建设和云上运维最佳实践 李刚(东任) 阿里巴巴高级技术专家 大纲 •阿里云弹性计算概念 •阿里云弹性计算稳定性建设实践 •阿里云弹性计算云上运维最佳实践 什么是阿里云弹性计算? •又名云服务器ECS(ElasticComputeService) •云计算最核心基础IaaS服务之一 •让大家像使用水、电、天然气等公共资源一样便捷、高效地使用服务器,实现计算资源的即开即用和弹性伸缩 阿里云弹性计算稳定性建设实践 双轮驱动下的弹性计算极致稳定性诉求 百万级外部客户2019阿里全面上云对弹性计算稳定性强依赖 开机自启动客户占比在线业务场景 10% 游戏 直播 创业期业务…… 90% 无开机自启动有开机自启动 训练集群日化故 障0.8% 率 AI大模型离线场景 7.7% 3.9% 1.6%2.4% 14.8% 21.3% 10203050100200300 模型训练集群节点数 目标:用x86的硬件,提供小型机级别的稳定性 现实目标 体感可用率体感可用率 VM 10x 小型机x86服务器 ECS平台 X86 小型机ECSx86服务器 ECI实例 vm实例 存储 (块存储) 镜像/GuestOSAliyunlinux 挑战:复杂度和规模 AliOS 裸金属实例 20+ 数据中心区域(Region) 基础设施 供应链 数据中心 物理网络 服务器 ~5000+ 集群(Cluster) 80+ 可用区(AZ) ~1000000+ 设备(Server) kvm/Near-MetalHypervisor 轻量虚拟化沙箱 CIPU、块存储TDC网络AVS、管控运维 虚拟网路(vpc) 复杂度 2023年4月 规模 识别问题:宕机、夯机、抖动 •现象:ECS资源100%不可用,多数因基础设施、服务器硬件或底层软件 原因导致。 •影响:所有未持久化的数据和配置都将丢失,该ECS实例上的业务将完 宕机全中断。 •现象:ECS资源服务时断时续,甚至某些核心功能不可用或无法连接和操作。如:OS夯,IOhang等。 夯机•影响:未持久化数据尚未丢失,但整个ECS几乎无法使用,有时甚至无 法恢复、没有备份的机会。 •现象:ECS资源核心服务可以正常使用,但在极端情况下会出现网络或性能抖动。 抖动•影响:着重影响抖动敏感用户,性能抖动可能导致用户压测等容量规划 付之东流,甚至可能因抖动引发用户应用系统雪崩效应,导致整体业务 中断。 量化问题:从客户体感视角全面度量稳定性过程和结果 影响客户稳定性体感的技术指标 客户稳定性体感结果指标 宕机率 GuestOSpanic率 实例宕机 数量 稳定性客诉率 工单时长 实例夯机 夯机率 数量时长积分 有损率 实例抖动 客户侧应用架构容错容灾能力 客户体感可用率 数量 主动运维率 客情时长 事件响应成功率 数量时长积分 实例主动运维 解决问题:弹性计算稳定性系统工程 稳定性重保体系 重保机制重保等级和套餐重保技术支撑平台 线下预防体系线上守护体系客户侧联动体系 产品设计产品适配产品验收 智灰 能度 故发 监异故 控常障 诊调快 事事事 件件件 硬件准入标准 稳定性准入标准 业务适配 基础设施适配 验收报告障布 预能 稳定性准出标准测力 断度恢 能能能 力力力 中订响 心阅应 数据和算法底座 线下预防体系 ECS 产品线 稳定性评估报告 稳定性测试和验收 运维验收准出标准 产品硬件 定义设计 线上准入 软硬件适配 公开对外服务 基础设施 产品验收 产品适配 ECS 产品线 基础设施 供应商实验室ODM实验室阿里实验室 整机测试 部件测试 设计研发阶段工厂制造阶段IDC交付阶段 测试系统-基线库、工具库、用例库 业务监控适配业务部署适配异常业务隔离适配 基础监控适配装机等基础系统适配升级维修等能力适配 产品设计 ECS 产品线 基础设施 功能需求性能需求稳定性需求可运维性需求 硬件准入标准运维准入标准 功能性能稳定性可运维性 线上守护体系:智能故障预测 内存宕机率 数据底座 模型runtime 评价 数据链路(实时/离线) 模型生命周期管理 宕机标签 特征数据 月宕机率(%%)年宕机率(%%) 宕机事实验证 模拟负载 部件压测 自然宕机 异常调度 隔离/热迁移 深层轮转 主动运维 采集系统 硬件 内核 业务 实时故障预测 运维高优先级 运维低优先级 ErrorPattern DryRun 性能评估 推送决策 限流/兜底/开关 模型预测 非预期宕机可预期宕机 模型融合 特征公共层 样本生产特征编码 运维决策 线上守护体系:灰度发布能力 问题解决方案 变更是导致故障和损失的头号杀手 编排 10%服务 单机房故障损失多机房故障损失 待变更范围 地域、组件、资源等维度 用户影响 组合、排序 30% 90% 70% 变更导致其他导致 创建灰度编排获取发布批次资源资源变更状态 变更创建发布任务批次资源变更资源变更状态检查 平台熔断 生成资源变更集熔断保护 熔断指令 熔断通知 服务异常诊断实时计算关联分析熔断判定引擎熔断通知订阅 线上守护体系:监控诊断能力 场景输出异常调度体系全链路诊断(客户侧自诊断)故障恢复事件输出 诊断服务异常特征提取多维特征关联分析关联维度聚合根因诊断 异常数据监控采集 基础设施维度服务器维度飞天核心组件维度实例维度 IDC环境异常 基础设施工单 服务器掉电 硬件故障 资源争抢 网络延迟高 实例crash 实例hang 网络设备异常 …… 资源争抢 …… IO中断/hang …… 心跳异常 …… 基础设施层 服务器层 飞天核心组件层 功耗 温度 IDC 暖通 供电 …… 物理网络 交换机 带宽状态网络延时网络丢包 …… CPU 内存 硬件 主板 电源/风扇 …… OS 内核 OS日志 资源隔离调度状态 coredump …… 虚拟化组件 CIPU组件 云网络组件 块存储组件 管控运维组件 …… 原始数据监控采集 线上守护体系:异常调度能力 数据洞察(Matrix) Dashboard业务策略在线数据分析离线数据分析 机器学习算法 API 事件异常宿主机调度 中心 调度体系 异常实例调度异常库存管理 数据仓库(汇集/清洗) 监控数据 …(其他异常资源管理、调度) 异常调度工作外部 交互 定时任务业务规则工作流引擎系统 诊断 事件中心ECS实例客户监控 异常 事件中心 事飞件天中核心心组件报障中心 物理服务器 基础设施 宿主机调度 实例调度库存管理 …(其他资源管理、调度)正常调度工作 线上守护体系:故障快恢能力 目标:1-5-10 整体思路 故障预案和SOP 故障处理预案 故障快恢系统 故障演练体系 ... 批量掉电 批量脱网 批量夯机 批量宕机 监控系统 异常调度体系 人故障应急处理人员 流程工具 故障处理SOP 故障看板 影响范围 原因 进展 ECS恢复warroom 故障处理 并发止损安全控制 实时状态探测 故障感知 故障漏检录入 告警动态聚合 故障实时更新 演练类型 日常演练 三新演练 开服演练 突袭演练 演练场景 批量宕机 批量夯机 批量脱网 ... 演练环境 Gamma 开服环境 线上环境 故障演练平台 平台支撑能力 场景管理 故障注入 用例创建 报告生成 对象圈定 环境恢复 安全控制 告警设置 故障注入原子能力 故障应急流程 故障预案和SOP 故障快速恢复系统 故障总指挥 故障处理角色 故障 处置客诉处理角色 故障演练全面验收 角色应急角色小组 …… 数据支撑根因诊断 ECS数据中台根因诊断平台 客户侧联动体系 终端客户 事件通知 系统事件类型 钉钉 OOS MQ … •为规避底层宿主机软硬件隐患发起的主动维护事件 计划内运维事件 •底层宿主机突发软硬件故障导致的实例重启或宕机发送的事件 非预期运维事件 登录查看直接调用订阅 控制台OpenAPI云监控 •因本地盘实例故障或单磁盘故障发送的事件 •突发性能实例的CPU积分已耗尽,可能对实例性能产生影响的提醒事件 突发性能实例性能受限事件 事件 本地盘实例事件 事件查询推送 ECS事件服务 • 影响实例安全的事件,例如实例遭遇DDoS攻击或进入黑洞,导致实例安全受到威胁 实例安全事件 •实例的生命周期或其他状态发生变化时发送的事件 状态变化事件 •升级或改造基础设施时,可能影响对应实例,提醒根据系统事件引导进行实例迁移 实例因底层升级需迁移事件 影响费用的事件,例如实例到期、账号欠费,导致实例即将被停止或释放 实例费用事件 异常事件原始数据 运维事件上报 事件来源 虚拟化组件 内核 服务器 基础设施 …… 块存储组件 云网络组件 CIPU组件 • 稳定性重保体系 需求场景重保体系 后台产研专家 中台售后专家 前台服务经理 客户 新业务上线 重保重保分级审批机制重保评估机制重保机制阵型 客户大型运营活动 重保准入标准 客户 重大变更期 极致稳定性诉求 客户业务敏感期 重保等级和套餐 研发与服务人力投入额外资源成本投入对后端服务影响 三级重保 一级重保 研发与服务人力投入额外资源成本投入对后端服务影响 研发与服务人力投入额外资源成本投入对后端服务影响 四级重保 二级重保 研发与服务人力投入额外资源成本投入对后端服务影响 重保策略 重保原子能力 重保业务模型 …… 重保技术支撑平台 阿里云弹性计算云上运维最佳实践 ECS云上运维最佳实践概览 响应ECS系统事件 建设高可用架构 实例健康自诊断 问题报障 通过OPENAPI响应ECS系统事件,优雅规避实例运行风险 通过HA能力提升应用单实例宕机容错和极端场景容灾能力 对实例本身的系统、网络、磁盘等状态进行全方位诊断 可通过OPENAPI等方式将ECS实例问题报给阿里云 弹性能力规划容量 建立应用防抖动能力 网络连通性自诊断 应用侧止损 使用ECS弹性能力,自动规划管理应用系统容量水位 设置合理的访问超时重试机制,规避实例短暂抖动对业务应用的影响 对不同ECS实例之间网络连通性进行全面诊断,定位网络不通的原因 可在应用层通过摘除流量或流量切换等方式先行止损 选择适合的实例规格 选择适合部署方式 问题规避 保持GuestOS更新 问题容错 不选择已经EOL的OS,定期更新系统补丁和软件驱动 结合应用场景,使用专用宿主机或部署集,实现亲和性或反亲和性部署 结合应用实际场景合理选择实例规格,兼顾成本和稳定 问题诊断 问题止损 部署高可用架构,提升应用系统单实例宕机容错和极端场景容灾能力 阿里云ECS实例可用性SLA•负载均衡SLB流量分发•单元化部署,架构消除拧麻花 •容量规划N+1冗余•具备应用系统流量切换能力 99.975% 99.995% 单实例可用性SLA跨AZ多实例可用性SLA 主动响应ECS系统事件,高效优雅规避实例运行风险 阿里云ECS事件体系最佳实践典型示例 云盘宿主机宕机风险 本盘宿主机宕机风险本盘实例单磁盘故障 云盘宿主机故障系统事件 OPENAPI 短信/邮件/站内信 控制台 钉钉 实例硬件风险场景 终端用户 ECS硬件宕机风险 用户恢复ECS流量 本盘实例 阿里云发布系统事件 ECS宕机风险消除 发布磁盘 用户提前摘除流量 OPENAPI 用户响应系统事件 用户响应 新盘插入 本盘宿主机故障 云监控 OOS 磁盘故障 隔离事件 隔离事件 实例性能受损 本地磁盘 MQ故障场景 重启实例(视情况) 隔离坏盘 …… 初始化 ……并挂载新盘 重启实例(视情况) 实例磁盘恢复 更多详见:查询和响应ECS系统事件 伸缩模式(触发伸缩活动) 健康模式 定时模式 自动模式 动态模式 2.ExcuteScalingRule(RuleAri) 1.监控健康状态和性能 伸缩组 3.3创建伸缩活动 ECS ECS ECS 3.1增加多少台ECS? 3.2创建什么类型的ECS实例? RDS RDS RDS 伸缩组 伸缩配置 4.2添加到伸缩组,并配置负载均衡和R