蚂蚁混合云架构及技术风险防控实践 肖鹏(乙未) 蚂蚁集团资深技术专家 个人介绍 互联网技术风险领域10年从业经验 2011年加入百度运维部 2014年加入阿里巴巴高德,作为运维团队负责人全面建设技术风险保障体系,支撑高德业务逐步发展为日活过亿的App 2019年加入蚂蚁集团技术风险部,负责智能容量技术团队和 支付宝小程序云北区解决方案团队,为小程序客户提供云托管技术和营销解决方案 目录 蚂蚁混合云架构实践 蚂蚁混合云技术风险能力建设 蚂蚁混合云应用案例 蚂蚁混合云架构实践 蚂蚁混合云架构实践-背景 网关层 网关 uid00-49 uid50-99 应用层 ServiceA ServiceB ServiceA ServiceB 应用层 单元1 单元2 存储层 m s m s m s m s 存储层 uid00-49 uid00-49 uid50-99 uid50-99 LDC架构 (LogicalDataCenter) 蚂蚁混合云架构实践-背景 proxy proxy 蚂蚁主站 网商银行 ... 阿里云底座 业务主体N 业务主体B 业务主体A 从一朵云演变为多朵云 蚂蚁混合云架构实践-问题 业务主体无隔离 风险能力强依赖主站 数据源/指 变更布防 变更动作 防御规则 执行记录 变更域 核对预警 数据模型 核对规则 风险事件 资金域 应急组织/定位处置管控 预案A 处理能力 预案B 处理能力 应急域 相同环境 经验规则沉淀 应用1 变更服务 防御规则 应用2 各项能力 业务定位决策树 自愈预案 应用3 …… 核对规则1 核对规则2 混合云架构下存在跨云监控、应急等新问题 标/告警 数据源/指标/告警 监控域 平台对外部依赖重,无法独立输出 DB 缓存 应用 运维管控 元数据 单笔数据 链路数据风险数据 共用 业务主体A 业务主体B …… 业务主体N 主站基础设施 基础平台依赖 中间件等 技术风险能力沉淀 变更分批监控 业务影响分析 … 风险防控平台 变更核心 应急平台 … 基础依赖域内域外异构 蚂蚁混合云架构实践-TLDC架构 业务租户A 业务租户B 业务租户C RZ RZ RZ SOFAGW RZ RZ RZ SOFAGW RZ RZ RZ GZGZGZ CZ CZ CZ 独立与互通技术能力 可信原生全局管控区 可信原生管控区 云管理平台 云产品服务 资源运营管理 运维管控 云管理平台 TCMDB元数据 业务Saas区 隔离与互通技术能力,满足独立性要求 TLDC架构 (Trusted-nativeLogicDataCenter) 构建混合云管控平台,提供标准云产品和交付能力 计算资源共享、数据独立存储独立机房,专有云交付依据业务主体数据独立性等级要求做部署架构选型 蚂蚁混合云架构实践-TLDC架构 •数据、权限隔离 •卫星组件拆分 •核心代码多云部署 •异构云底座 •数据/服务的有限互通 •协同防御 技术风险 技术风险 技术风险 技术风险 技术风险 蚂蚁混合云架构实践-租户隔离 纯独立部署 每个租户一套部署 纯全局 所有租户共享一套管控/数据全局部署 卫星 业务租户 业务租户 技术风险功能组件 租户内APP区域中间件 技术风险功能组件 租户内APP区域中间件 全局管控租户 技术风险系统(多租户化) 所有租户共享一套管理侧的全局部署不同租户内卫星部署执行引擎类模块 业务租户 技术风险系统 租户内APP区域中间件 业务租户 技术风险系统 租户内APP区域中间件 业务租户 业务租户 租户内APP 区域中间件通用代 理组件 租户内APP 通用代区域中间件 理组件 全局管控租户 技术风险系统(多租户化) 目标:建设单云多租户管理能力 蚂蚁混合云架构实践-多云输出 轻量化 IAM 产品系统 Paas IAM’ 产品系统 Paas’ … … 客户站点(专有云) 客户自有产品集 Cache’ CMDB’ Cache CMDB 技术风险 技术风险 方式1:产品+依赖底座整体输出 方式2:产品去底座依赖 IAM 技术风险产品系统 Paas … Cache CMDB 产品最小集 IAM 技术风险产品系统 Paas … Cache CMDB 主站 客户站点(专有云) 主站 目标:一套产品系统代码,多异构站点输出部署 蚂蚁混合云架构实践-多云协同 应急域 变更域 跨云数据通路 数据出口管控 跨云数据通道 管控接入 (审批提单/结果回调/…) 管控能力 (审批/熔断/审计/…) 接入层 (发送/订阅/…) 通信信道 (https/ftps/…) 出口元数据管理 (数据类型定义/脱敏规则/…) 结构化 (类型/结构/脱敏/…) 目标:多云独立部署,单元防控体验 蚂蚁混合云技术风险能力建设 蚂蚁混合云技术风险防控-背景 业务风险防控 数据库运维管控 基础设施运维管控 基础架构运行管控 资金安全 变更管控 性能容量 定位应急 红蓝攻防 业务运维防控 质量保证 根基守护 监控 风险模型数据 仿真灰度环境 领域服务 风险智能 基础技术服务 技术风险架构域 蚂蚁混合云技术风险防控-背景 监控 应急 变更 指标数据监控/落地 指标查询 投递 检测结果 跨云传输通道 接口 同步查询 异步投递 管控 信道 关联 根因投递 事件投递 压测风险事件 监控 应急 变更 压测 云A监控云B告警 监控大盘跨云查询 云A事件云B拉起应急 根因跨云分析 云A风险阻断云B 容量风险识别 公网 专线 字段级权限控制 压测 云B监控 监控大盘 风险事件 链路定位 跨云变更 跨云压测 …… 云A告警 跨云查询 跨云传递 根因分析 时间查询 熔断 云A 通过跨云数据通路解决跨云防控问题 …… 云B 蚂蚁混合云技术风险防控-跨云监控 核心业务保障 跨云应急 跨云变更 网络监控 容量 跨云定位 …… 智能化基座 跨云防控 智能托管 智能异常检测 多段渐进检测 特征&样本中心 跨云业务 跨云监控 跨云发现 跨云网络 跨云防控 技术栈覆盖 跨云告警 Maas防控 骨干网专线 SLO覆盖 跨云应急 明细数据监控 DNS网络 智能布控 智能告警 Maas插件 统一数据服务统一模型服务多云权限管控监控元信息计算服务对接 跨云监控应用场景 多云数据引擎解决数据异构 采集注册 监控数据平台 调度中心 采集清洗 执行引擎 时序存储 ceresDB agent agent 多云时序服务 云站点监控RawData 跨云链路 云站点监控 云站点监控 云站点监控 跨云数据链路(通讯、脱敏、管控) 多云数据模块 维表 多云时序管理 跨云数据融合 SQL引擎 跨云数据服务 跨云数据平台 蚂蚁混合云技术风险防控-跨云应急 节点 云A云B 节点 节点 节点 节点 节点 节点 风险预警 (风险事件) 应急处理 (预案/自愈) (定位) 故障根因 节点 云A云B 节点 节点 节点 节点 节点 节点 风险预警 (风险事件) 应急处理 (预案/自愈) (定位) 故障根因 典型场景 云B叶子节点出现问题,传导到云A入口应用,云A监控发现 云B应用变更,传导到云A业务大盘下跌,云B阻断变更 节点 云A云B 节点 节点 节点 节点 节点 节点 应急处理 (预案/自愈) 风险预警 (风险事件) (定位) 故障根因 云B容量不足,云B应用线程积压,云A降级恢复 金融交换 蚂蚁混合云技术风险防控-跨云应急 跨云调用的主站指标 业务指标 云A业务链路 云B业务链路 0.监控触发告警并提供业务失败traceid列表 0’.云上监控触发云上告警的通路0’.系统指标、业务rpc发生异常 异常trace业务日志清洗 应急平台 1.云A告警拉起应急并根据业务租户发起跨云应急 2.云A定位中台将失败的traceid传给云B定位中台 定位中台 5.云A根据传回来的定位根因结论,将云A事件和云B回传的根因串联在一起,帮助恢复预案决策 可信数据通道 云A云B 应急平台 2.云B应急根据业务租户和监控,匹配云应急和启动跨云的新应急 3.云B定位中台对失败的traceid串联trace,做异常特征挖掘 定位中台 4.云B定位中台回传定位结论,包含站点,租户信息 3.自愈通知 监控平台 自愈中台 异常trace日志分析 1.自愈会基于事前在监控的规则产生异常事件 2.自愈引擎会基于场景和动作指标决策出用于止血的恢复手段 •应急拉起 •应急定位 •应急自愈 蚂蚁混合云技术风险防控-跨云变更 应用 应用 应用 应用 应用 应用 应用 变更管理 变更管理 变更场景元数据 变更事件输出 跨云变更事件 变更防御能力 变更防御能力 变更窗口 监控告警 分批监控 变更窗口 智能分批监控 参数校验 <自定义> 跨云风险 新增突增异常 … 云A 云B 云内变更事件 变更搜索 可信数据通道 1.触发变更变更搜索可以查询 2.变更事件同步 产品发布 应用发布 配置发布 … … 变更工单a 4.匹配防御 跨云防御规则 可信数据通道 6.查询变更执行结果 变更工单b 3.匹配规则 监控告警变更窗口变更参数 …… 6.聚合所有规则结果 云A云B •变更记录跨云搜索 •变更跨云防御 •跨云的数据访问权限控制 蚂蚁混合云技术风险防控-跨云活动保障 压力机 云A业务系统 金融交换 云B业务系统 0.云B系统发生异常 3.执行压测熔断 监控平台 1.监控系统触发熔断 压测平台 压测平台 2.监控事件溯源 云A 云B 可信数据通道 应用 应用 应用 应用 应用 应用 应用 大促活动平台 大促活动平台 限流平台 预案平台 … 限流平台 预案平台 … 云A 云B 双11大促预案保障场景为例 链路梳理 预案梳理 定时执行 作战手册 执行前后置依赖 …… 可信数据通道 压力防御链路图 •大促多云联动 •跨云压测熔断 蚂蚁混合云应用案例 蚂蚁混合云应用案例-蚂蚁大促场景 源机房 弹性机房 网关系统 网关系统 应用A 应用A 应用B 应用B 应用C 应用D 应用D 异步任务 异步任务 源机房 流水型主库00.01.02.03 状态型主库00 状态型主库01 状态型主库02 状态型主库03 弹性机房 流水型弹性库01.03 状态型主库01 状态型主库03 Zone层面承载用户减少一倍 APP层面可扩容机器增加一倍 源zone流水型DB承载用户减少一倍 状态型DB拆百后主备切换 应用侧弹出存储侧弹出 蚂蚁混合云应用案例-蚂蚁多主体交互 蚂蚁主站 租户隔离部署 租户隔离部署 租户隔离部署 TLDC技术体系/三地五中心 同城云通基座 同城云通基座 异地云通基座 专线 专线 独立持牌公司 独立持牌公司 租户隔离部署 租户隔离部署 单租户部署 TLDC技术体系/两地三中心 TLDC技术体系/两地三中心 同城专有云基座 异地专有云基座 同城公有云基座 异地公有云基座 从中心化转为去中心化 异构到多云底座实现跨云风险免疫 蚂蚁混合云应用案例-支付宝小程序云 软件代码风险 代码和配置中的静态风险安全漏洞软件合规 服务部署风险 系统部署流程和代码变动风险故障扩大化指标与端侧防御 系统运行风险 系统运行中的风险发现与自动处置 智能监控告警容量弹性伸缩 业务运营风险 业务运营防薅羊毛等场景识别业务“黄牛”容量保障 软件缺陷 配置风险 止血不及时变更影响分析 应用多活容灾单机异常自愈 活动性能压测 隐私合规 愈 软件风险识别与修复服务部署风险识别 运行时风险识别与处置业务运营时风险识别 解决独立输出 自动建模->自动识别->自动修复 自动识别变更风险,智能决策回滚自动配置监控,容量弹性伸缩,异常自 自动压测,容量保障;自动识别业务风险 场景架构问题 风险巡检 变更风险防御 变更异常检测 容量弹性伸缩 智能监控告警 恶意用户识别 安全漏洞 代码SCA