2022数字+大会 快速构建现代化的高可用云原生技术体系 主讲人:网易数帆冯常健 01云原生技术趋势下的不确定性 目录 CONTENTS 02从“可用”到“好用”的架构演进 2022数字+大会 03典型云原生分布式能力增强实践 04云原生分布式体系建设经验总结 2022数字+大会 云原生技术趋势下的不确定性 96% 55% + 2022数字+大会 合并 讨论组 27% 提交数 数据来源:https://docs.google.com/spreadsheets/d/1jjAr_bf82WE8mxQJiztVVfqy_8_O0J0eFMoEcWAnuZE 配置中心 (配置管理) 注册中心 (服务发现) 服务框架 (服务通信、服务韧性) 灰度发布能力 自动弹性伸缩 分布式事务 (数据一致性) 网络代理 (流量转发) API网关 应用路由、流量调拨、协议转换、认证审计… (安全开放、能力复用) 全链路可观测 多中心高可用 统一控制台 云原生 平台 业务应用集群 2022数字+大会 业务应用 计算存储网络虚拟化私有云公有云混合云 容器技术(运行时、网络、存储、编排) (弹性伸缩、故障自愈、不可变基础设施、平台无关) 数据库服务 (数据存储) 中间件服务 消息、缓存、协调… (运维自动化) 服务网格 安全、限流、熔断、灰度、流控、故障注入… (松耦合、能力下沉) 持续交付 (敏捷迭代) (快速交付) 全栈国产适配 安全隔离合规 基础设施 企业级特性缺失 建设云原生平台的期望 2022数字+大会 有利于各组织在公有云、私有云和混合云等新型动态环境中,构建和运行可弹性扩展的应用。 能够构建容错性好、易于管理和便于观察的松耦合系统。 结合可靠的自动化手段,能够轻松地对系统作出频繁和可预测的重大变更。 实际使用云原生技术的困惑 技术演进频繁 版本兼容性 运行稳定性 安全漏洞 自主掌控门槛高 缺乏运维经验 产品化程度低 2022数字+大会 从“可用”到“好用”的架构演进 合 •平台化运营,形成企业级资产,共享复用 •专业化团队运维和 开发支持 •社区回馈,在同业构建技术影响力 起承转 •规模化场景下功能增强、高可用保障、稳定性治理等 •进化式架构,保持技术栈平滑演进 •兼容历史遗留应用 •深度应用,创新应用 •领域专家团队组建 •建立使用规范和最 佳实践 •平台化建设,业务持续平滑迁移,扩大接入规模 •开源社区协同 •根据业务需求进行技 术选型 •技术方案设计和POC验证 •投产部署、业务接入 •转运维,效益评估和 过程复盘 2022数字+大会 关键实践活动 通过应用多活架构,将业务系统的管理层、流量层、应用层、数据层等高可用方案互相结合与联动,保证企业端到端业务的连续性。 转:“可用”到“好用” 2022数字+大会 高可用架构 云原生稳定性治理“运维经验”可交付,建立“稳定性改进循环”,具备稳定性经验沉淀能 力,解决复杂动态异构环境的稳定性保障难题。 稳定性治理 历史兼容性 规模化支撑 构建无侵入式服务框架+服务网格“双引擎”微服务治理模型,实现进化型架构,从微服务框架平滑过渡到服务网格。通过云原生网关实现新系统新架构新版本的灰度引流。 破除单K8s集群容量、弹性、容灾、隔离等方面的限制和约束,实现技术平台基础架构的水平扩展。扩展现有组件,提升服务网格、可观测性等系统关键链路的支撑能力。 2022数字+大会 典型云原生分布式能力增强实践 容灾能力和建设成本 高 2022数字+大会 建设成本 数据备份*阶段1 低 同城和异地主备*阶段3 同城或异地主备*阶段2 同城双活+异地灾备*阶段4 (两地三中心) 异地多活*阶段5 慢(天)容灾能力快(秒) *阶段定义引用银发【2021】38号附件:《金融信息系统多活技术规范》 GSLB GSLB 接入层 2022数字+大会 Region1 Region2 Region1 Region2 接入层 AZ1 AZ2 AZ1 AZ2 AZ3 应用层 应用层 存储层 异步 复制 存储层 同步 复制 异步 复制 GSLB Region1 Region2 RegionN 异步复制 复制 异步 复制 异步 存储层 应用层 id:60-100 由 id:30-60 单元路 路由 id:1-30 单元 接入层 AZN AZ2 AZ1 主备 同城双活+异地灾备 (两地三中心) 异地多活 1将多年沉淀的“运维经验”进行交付 •提供监控、告警的最佳实践,在真正需要用到监控数据的时候能够发挥出较大的价值; 2022数字+大会 •将稳定性巡检的专家经验沉淀到系统中,实现对于系统状况的主动关注,并提出合理的稳定性,容量,使用方法方面的阐述和建议; •根因定位系统则是每当一些有显著性状的事件发生,能够像资深运维人员自动根据经验通过分析给出可能的根因判断与处理建议; 2建立“稳定性改进循环”,具备稳定性经验沉淀和应用能力 •复杂系统的稳定性应当不断主动改进,而这个改进思路就是“发现问题->分析整改->将沉淀经验加入检查避免同类问题->未曾关注的新问题->下一 次循环...”这样不断进行的“稳定性改进循环”; •系统中的分析策略引擎,除了既有经验外,也提供一个可以根据自身情况不断进行经验沉淀和规则迭代的平台,而巡检系统相当于稳定性检查执行工 具,从而辅助用户建立这样的“稳定性改进循环; 稳定性报表 稳定性预警,例如: •容量水位增长过快,近期可能面临容量风险 •服务自身监控难以发现的平台或硬件隐患 •存在显著风险的资源对象,例如冗余缺失的topic •架构风险,例如实例冗余物理资源耦合 •业务使用分析,例如Rediscluster节点水位或负载 不均衡 •配置合规风险,例如分布式集群配置不一致 •…… 巡检、预警和根因分析 通过大量故障排查与总结经验形成巡检逻辑 从多维度获取稳定性巡检数据 •容量水位趋势性问题 •环境与设备隐患 •资源对象使用合理性 •业务使用中的显著问题 用系统和分析引擎代替人工排查步骤 充分结合多方位运维数据系统 快速掌握来自海量经验沉淀的稳定性事件排查分析能力 管控平台 算法与规则 2022数字+大会 给出受管控服务需要主动关注的稳定性隐患: 巡检模块 稳定性定期巡查: •历史监控数据•实时采集数据•容量水位信息•环境信息 受管理服务 受管理服务 受管理服务 历史兼容性:双引擎多模式服务治理,兼容历史应用,演进式架构实践 SDK Spring① Agent ⑤ DubbogRPC 配置中心 ② 微服务框架服务治理能力 服务注册发现 接口限流* …… 流量染色 日志采集 细粒度限流 Agent 面向应用内的服务治理 Sidecar SentinelHystrixApolloNacos SDK+ Agent+ Sidecar 2022数字+大会 ③⑥⑦ envoy Sidecar+ 链路追踪 ④ 熔断降级 流量管理 请求容错 智能路由 故障注入 细粒度监控 负载均衡 NetflixOSSSpringCloud DubboHystrix ApollogRPC NacosArthas 异构技术栈(协议、框架、部署等)统一纳管,兼容历史应用 微服务基础设施复用 多阶段渐进式演进,全场景覆盖,架构平滑升级 Sidecar 通信加密 调用监控 应用诊断 面向应用间的服务治理 访问鉴权 …… 服务网格服务治理能力 配置信息 变更采集 计算集群资源状态监控和关键信息采集 Pythia(资源分发和覆写) 云原生中间件联邦控制器 FederatedOperator 2022数字+大会 多集群状态反复调谐和流程控制 状态状态全局 聚合 管控 聚合全局 管控 状态 全局聚合 管控 多集群容灾级统一调度策略、滚动升级 K8sK8sK8s 多控制器流程协作和一致性保障 故障监控和全局自愈 2022数字+大会 模块名 模块说明 lazyload 自动对接服务网格,自动按需加载配置,解决了Istio全量推送的问题 limiter 支持自适应限流等灵活的服务限流场景,填补了Istio限流功能的短板 plugin 提供了批量插件管理能力,大大简化Istio数据面插件管理的难度 i9s Istio的黑屏半图形化运维工具,简化运维操作 iPerf 性能测试工具集,可直观对比不同版本Istio的性能变化 tracetio Istio的全链路自动化运维助手,提高排障效率,给出智能化判断结果 无侵入扩展Istio,插件化管理模块,实现对服务网格架构性能和运维效率提升 已开源:github.com/slime-io/slime,欢迎关注! 网易X工行联合开源:github.com/loggie-io/loggie,欢迎关注! 一站式数据采集处理 2022数字+大会 云原生形态 生产级可观测性 高性能 1、Loggie和Filebeat消耗的CPU相比,大概仅为后者的1/4,同时发送吞吐量为后者的1.6~2.6倍。2、Filebeat的极限吞吐量存在瓶颈,80MB/s后很难提升,而Loggie则可以达到200MB/s以上。 注:以上数据均基于性能基准测试 2022数字+大会 云原生分布式体系建设经验总结 云原生分布式体系建设经验总结 起 响应业务需求,安全、稳定、 转 合 在功能、可用性、稳定性等 方面进行深度优化增强,以 满足大规模生产环境要求, 可靠、技术成熟度高作为架构设计和技术选型的首要原则。 承 2022数字+大会 循序渐进、分步实施,从局部探索、核心试点再到全面推广落地,充分验证技术成熟度,确保稳定可控。 同时兼容历史架构和应用。 •解决复杂动态异构环境稳定性保障问题 •解决云原生技术快速发 展架构平滑升级问题 技术红利获得,组织级能力沉淀,如软件资产、人才储备、影响力等。业务创新和架构转型动态平衡。 2022数字+大会 THANKS