您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[2023 DOIS DevOps 国际峰会 · 北京站暨 BizDevOps 企业峰会]:邓瑞龙-化解多云转型带来的运维熵增 - 发现报告
当前位置:首页/行业研究/报告详情/

邓瑞龙-化解多云转型带来的运维熵增

AI智能总结
查看更多
邓瑞龙-化解多云转型带来的运维熵增

化解多云转型带来的运维熵增 邓瑞龙作业帮SRE负责人 2019年中加入作业帮,负责多云多活建设,推动作业帮传统业务运维进行云原生转型和能力升级;此外,还负责RocketMQ/Kafka等中间件运维。曾就职于百度、滴滴、Cadence等。 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 Content 目录 01多云选型背景 02多云技术要点 03多云运维熵增 04多云管理实践 01 多云选型背景 BASE单云 生于云、长于云。业务量级已达到数千个模块、数十个技术栈、数十万核计算资源,具备复杂化和规模化特征 稳定诉求 单云基础设施故障时有发生。教学经营和供给场景下,用户服务时间特别集中,对服务稳定有极高要求,不能把所有鸡蛋放在同一篮子里 成本诉求 公司对云成本有严格的预算要求。单云部署被厂商锁定,成本优化手段乏善可陈,既无助,又无奈 多云选型需求背景 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 02 多云建设要点 多云模型技术要点 用户 APP/FE 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 优先南北向入口流量调度 服务注册发现闭环在云内 同城多云服务同构部署 DB Slave DB Master DB Slave Proxy MQ 应用 应用 应用 网关 Proxy MQ 应用 应用 应用 网关 DoH/DNS 公网 自建中间件避免云商锁定 打通多云网络低延时互通 Cloud-1Cloud-2 03 多云运维熵增 熵是热力学第二定律中的一个物理概念,用来描述热量不可逆转的 过程。后来随着科学理论发展,熵逐渐被解释为系统内在的混乱程度。 在孤立的系统内,系统从有序向无序的自发过程中,熵总是增加的。自然万物最终都趋向于从有序到无序发展。将熵维持在较小值,意味着系统需要吸收外在的能量。 鲁道夫·克劳修斯 熵增 有序度高混乱度低 有序度低混乱度高 熵增定律普遍适用 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 放之四海皆准。运维作为信息技术体系的一个细分领域,其底层逻辑归根到底就是通过技术能力加持,通过架构化和工程化,维持信息系统的有序性,以延缓熵增,多云运维亦如此 多云管理熵增挑战 传统DNS生效慢 业务域名多触发DNS限流流量 业务域名增删改对流量管理入侵大 管理 多云运维观测对象成倍增加 多云业务定制观测及数据分析诉求多 观测运维/业务全局视角观测难 多云服务复杂度增加服务 多云服务容量快速交付 大中心式的ZNS运维介入大管理 运维熵增 多云业务新增服务或存量迭代 故障演练投入大收益不可持续 演练架构演进长尾不可控 多云低延迟高稳定互通资源 多云网段前瞻规划要求高管理 云上资源选型太宽泛 多云多云变更源多操作不规范 操作多云变更源杂管控不到位业务类型多变更步调不一致 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 04 多云管理实践 资源管理熵增挑战 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 01 定互通 在离线请求互相干扰,带宽时不时打满,延时抖动频繁排查成本高 单根专线中断难止损 多云低延迟高稳 02 要求高 前期网络规划跟不上业务及多云发展,IP段零零碎碎管理难度大,域控 概念不清晰入侵安全组大 多云网段前瞻规划 03 宽泛 云上资源选型太多,加上多云组合后规模变大,资源交付及管理 链路运维容易失控 云上资源选型太 在京/环京IDC 云厂商1 专线供应商1 北京城域网 云厂商2 专线供应商2 北京城域网 云厂商n 单线异常自动切换 BGPECMP 跨云流量/延迟观测和管控 CPEQoS,FullMesh 带宽灵活扩容 双供应商组网 新云接入成本低 星型拓扑 双环组网多云互通 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 生产域 管理域 办公域 测试域 网络分域 子网划分 CIDR 数据中心 IDC-1IDC-2IDC-N 部署环境 ONLINETIPSTEST 服务类型 PaaSor普通服务 更细粒度的网络管理 按子网封禁管控 在离线做到网络隔离 在离线专线调度/QoS 应用层得到大域管控 应用&组件网络行为差异大 网络分段规划先行 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 机型管理 规模场景特化 有限机型 RDS专用大磁盘机型Redis专用AEP机型网关场景AMD型 灾难 普通计算专用机型机器训练专用机型 ...... 套餐抽象生命周期管理 套餐 存储 网络 机型 CMDB 机器诞生 采购 销毁 套餐管理 实例化 实例管理 计算管理套餐抽象 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 服务管理熵增挑战 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 01 增加 数以千计的服务模块,数十个技术栈,数十万量级的算力核数,纷繁 复杂的依赖关系 多云服务复杂度 02 多云服务容量快速 交付 在虚拟机时代,一次大促扩缩容,通常需要几天专项投入;多云后更 加不可想象 03 大中心式的ZNS运 维难度大 传统大中心式的名字服务,运维人工介入太大,降低效率,同时还带 来很多不确定性 服务治理 服务通信 服务观察 流量管控 服务注册/发现 应用层,包含业务应用、中间件 应用赋能 容器技术 容器镜像作业编排作业调度 资源层,包括计算、存储、网络等IaaS 资源管理 资源透明 容器部署原生治理 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 流量管理熵增挑战 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 01 传统DNS生效慢 受LocalDNS影响,长尾流量解析生效时间不可控,不能精准比例放量,应答 可能会被篡改并路由到钓鱼网站 02 业务域名多 服务化和多云化之后业务域名多,集中一个故障演练时间同时进行流量调度,经常触发云DNS限流 03 业务域名增删改对 流量管理入侵大 业务域名新增修改删除,经常破坏已有流量调度管理的完整性 劫持/篡改 缓存时间长 运营商内 LocalDNS 容缓 递归域名服务器 存池 2.请求www.zuoyebang.com的地址 3.指向com服务器的参考信息 4.请求www.zuoyebang.com的地址 5.指向zuoyebang.com服务器参考信息 1.解析请求 www.zuoyebang.com 7.www.zuoyebang.com的IP地址 8.回答(www.zuoyebang.comA106.13.245.50) baiduzuoyebangtaobao NS服务器 www.zuoyebang.com106.13.245.50 9.请求https://www.zuoyebang.com/ 客户端 10.HTTP响应 服务端 应用 网关 浏览器 解析器 zuoyebang.com 权威服务器 6.请求www.zuoyebang.com的地址 . com 权威服务器 根 权威服务器 comcnnet 传统DNS面临问题 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 公网学生及其他用户 生产网 办公网 工区主讲&辅导 DoH协议 工区就近调度 向上权威递归查找 HTTP协议 DHCP强制使用自建DNS解析 若DOH无结果则兜底请求 向上递归查找 SDK 预埋DoH多云IP地址 APP 同时发送IPv4&6请求 APP/FE 应用服务 自建 DNSServer 自建 DoHServer DNS 按ECS来源IP幂等处理 同一用户所有API请求都调度到同一朵云 按多云权重精准比例放量 在幂等处理的基础上进行精准比例多云流量分配 按IPv4/IPv6协议权重放量 云内按IPv4/IPv6协议权重进行精准比例放量 工区�网避开LocalDNS 工区�网走自建DNS,避开LocalDNS,还能统一安全审计 绕开LocalDNS自建DoH 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 南北流量调度预案 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 磨平差异 全局预案 应用于全局故障容灾 二次编排 场景预案 应用于局部业务容灾 一次编排 原子预案 向上提供编排支持,不直接应用 操作固化 运维作业 依托作业平台,可通用操作,可自定义操作 复杂度高 原调度对象 视角下移简化流量管理复杂度 新调度对象 复杂度低 域名数量 一级解析 <3000 二级解析 <200 三级解析 <20 标准化过程 管单标准域名拆分 业务增删改域名解析,不影响流量调度行为 所有业务域名 归属打标C记录解析 管单&云2域名 yun2-xx.zuoyebang.com 业务聚合C记录解析 网关聚合A记录解析 调度下移业务透明 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 南北向7层网关 yun1.baifen.com 管单&云1域名 yun1-xx.zuoyebang.com 南北向7层网关 yun2.baifen.com 多云观测熵增挑战 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 01 象成倍增加 更多的云环境、组件和应用服务, 运维观测对象成倍增加 多云运维观测对 02 业务定制观测及数 据分析诉求多 标准观测固然好,但不能满足所有场景;定制观测诉求出现,可能 会导致日志中心裂变 03 角观测难 大盘成百上千,运维全局视角缺失,故障定界不连贯,责任归属 判断难 运维/业务全局视 定义指标:引入资源指标、服务指标、业务指标等 打标指标:语义打标,赋予多云及业务语义 Metrics Aggregatable 场景化:定义场景,4种类型8份日志 Logging Discreteevents Tracing Request-scoped (输入|输🎧|系统|业务;成功|失败)链路注册:入口生成TraceId并透传到 下游;Mesh层统一注册Trace和Span 结构化:服务日志结构化输� 关系,弱化语言依赖 多云观测三大支柱 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 核心指标监控报警 重构观测 服务观测 资源观测 链路观测 场景应用 成百上千个大盘,没法有效使用 多云观测,开箱即用 异步观测 定义管单视角重构观测方式 上能宏观定位下可微观排查 高峰期生产达4千万+QPS 日志中心 只给大B消费,不对接散户 运维对象 指标定义&采集 运维对象 指标定义&采集 运维对象 指标定义&采集 同步观测 大数据处理 日志检索 观测系统 任务观测 日志消费 指标采集 运维对象,开箱即采 定义视角重构观测 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 业务单元 服务单元 资源实例 给人员看 剥洋葱式,层级下钻 规避成百上千大盘凌乱, 无效使用问题 上线变更 风险评估 给系统看 离散型 多云观测 解决人为检查遗漏的问题,释放更多生产力 打通观测能力 运维巡检 服务检查 定义指标,并抽象为正&泛相关检查 释放人力 定义场景放大价值 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 多云演练熵增挑战 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 01 业务新增服务或存 量迭代 业务新增服务或者存量功能迭代,极有可能破坏已有多活能力,导致 建设投入功亏一篑 02 故障演练投入大收 益不可持续 深夜频繁发起人为故障注入演练,能暴露有