您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[阿里巴巴]:云卓越架构:云上网络稳定性建设最佳实践 - 发现报告
当前位置:首页/行业研究/报告详情/

云卓越架构:云上网络稳定性建设最佳实践

信息技术2024-09-20张 星阿里巴巴J***
AI智能总结
查看更多
云卓越架构:云上网络稳定性建设最佳实践

云卓越架构 云上网络稳定性建设最佳实践 张星 阿里云智能集团云网络解决方案架构师 2024/09/20 CONTENT 目录 01云上网络稳定性体系建设 02面向失败的架构设计 03可观测、应急快恢和故障演练 04客户案例 Part1 云上网络稳定性体系建设 云上网络的稳定性挑战 网络稳定性是业务稳定性的基石 01 VPC EIP NAT SLB 网络实例异常 02 网络连通性异常 03 DDoS恶 意流量 爬虫 网络安全攻击 云网络稳定性治理的责任共担 稳定性治理的责任分工 故障演练(容灾切换、故障注入) 面向失败的网络架构设计 应急快恢(故障发现、定位、恢复) 综合考虑容量、容灾和容错,实现健壮的网络架构设计 客户 灰度与回滚 可观测 变更管理 客户的责任 计算 网络流量、实例、路径能够被可持续的观测并通过智能化手段实现网络的持续运营 物理硬件 高可用架构设计(容灾、容错、容量) 聚焦可持续的网络运营 云企业网 阿里云 可用区 Regions 阿里云全球基础设施 云厂商责任 存储 数据库 网络 稳定性体系的建设 面向失败的架构设计 解决确定性的架构设计问题 面向精细化的运维管控 解决不确定性的运维管控问题 面向风险的运维处置 解决不确定性风险事件 架构设计原则 变更执行原则 应急处理原则 容错(点) 可灰度 1分钟发现 容量(线) 容灾(面) 可观测 可回滚 5分钟响应 10分钟恢复 混沌工程 容灾演练 红蓝攻防 生产突袭 Part2 面向失败的架构设计 同地域网络设计 VPC网络规划设计 业务场景 稳定可靠的 私有业务环境 安全的业务环境 Region-A VPC-A:10.0.0.0/16 IPv4/IPv6GW EIP映射 Availablezone-1PublicSubnet:10.0.0.0/24 Availablezone-2PublicSubnet:10.0.1.0/24 SLB (跨可用区多活) NACL NACL PrivateSubnet: PrivateSubnet: 10.0.2.0/24 网络ACL/安全组/弹性伸缩 10.0.3.0/24 ECS ECS RDS (跨可用区容灾) VPC-B 10.1.0.0/16 TR VPC-C 10.2.0.0/16 VPC-D10.3.0.0/16 设计方案 设计关键点 容量 地址规划:IP地址统一规划,与现有内网地址不能冲突且留有冗余,可以满足业务长期发展的需求。 弹性架构:ALB/NLB加弹性伸缩实现弹性服务 架构 容错 阿里云机房按照GB50174-2008《电子信息系统机房设计规范》不低于B级或者 《TIA942》的T3+标准建设 容灾 同城多活:VPC内划分的子网均支持多个可用区,应用可以跨可用区部署,实现业务同城多活。 云上跨地域网络设计 设计关键点 容量 TR集群的高性能和弹性:单个TR集群支持100Gbps转发性能,且单个VPC连接支持10Gbps,无需用户配置规格按需弹性。 跨域带宽支持按量弹性付费:开通云数据传输服务CDT 后,TR跨地域带宽支持按流量计费。 容错 多条跨域专线配合主备环网,使2点间不少于3条路径保护基于多平面网络异常检测,多因子分级最优路径决策以及秒级重路由路径调整的全新主动式重路由技术。 容灾 VPC接入双AZ高可靠:VPC实例关联至TR时,请务必确保至少2个及以上可用区VSWENI连接,保障同城VPC多可用区高可靠。 设计方案 北京 杭州 新加坡 深圳 TR-Zoorouting快速重路由技术 降低物理网络故障影响,秒级隔离切换 3 12 3 2 1 3 12 3 2 1 云网关 云网关 网络设备 网络设备 转发路由器TR协同云企业网CEN分钟级构建跨地域互联网络 业务场景 业务数据同步 业务流量按需传输 可视化运维 1 2 3 1 2 3 混合云专线网络设计 设计关键点 容量 对于稳定性要求高的业务可以规划多组小带宽专线,提供独享链路 对于资源灵活共享的业务可以在同一组大带宽专线中,通过vbr/qos等能力实现容量规划 容错 超大规模的城域专用光纤互联冗余连接,毫秒级故障倒换 容灾 通过双专线双接入点,提供线路级/设备级/机房级的高可用能力,提供不同级别的SLA保障 专线构建混合云架构 业务场景 IDC专线上云 专线跨云互通 设计方案 杭州VPC 北京VPC 新加坡VPC CEN云企业网 萧山AVBR1 萧山AVBR1 萧山A萧山AVBR2VBR1 余杭BVBR2 高速高速 通道通道 专线专线 高速通道 专线 杭州IDC 杭州IDC 杭州IDC 混合云专线网络设计 设计关键点 容灾 BGP:在物理专线接入过程中,可以使用动态路由协议BGP实现本地数据中心IDC与边界路由器VBR之间的内网互连,从而搭建高效的混合云链路 BFD:是一种双向转发检测机制,可以提供毫秒级的检测,可以实现链路的快速检测 快速倒换组:当BFD探测到链路故障后,流量自动从故障链路的VBR快速切换到备份VBR,完成毫秒级切换,加快阿里云网络内部收敛,实现业务平滑过渡 BGP+BFD+快速倒换组,实现专线快速收敛和倒换,提升业务的连续性 业务场景 IDC专线上云 专线跨云互通 设计方案 杭州VPC 北京VPC 新加坡VPC VBR1 CEN云企业网 快速倒换组 VBR2 2 1 BGP 高速通道 专线 3 BGP CPE1 CPE2 杭州IDC 混合云VPN网络设计 设计关键点 容量 VPN之间可以通过多个实例横向扩容,单个VPN隧道支持1Gbps的带宽,并且可以通过多个VPN实例快速构建更大级别的链路 容错 VPN网元底层是NFV集群化设计,底层单机故障可以做到实时热迁移 容灾 用户可以在多个VPN链路之间进行ECMP负载均衡接入,从而提高可用性; 双隧道模式的IPsec-VPN连接拥有主备两条隧道,在主隧道故障后,流量可以通过备隧道进行传输,提高了IPsec-VPN连接的可用性 IPSec-VPN结合CEN-TR,提供高效弹性的加密链路上云 业务场景 多分支上云 设计方案 混合云3rdSDWAN网络设计 业务价值 容量 该方案整体不具备弹性能力,端到端链路的弹性受限于本地网络公网出口带宽、专线带宽、3rdSDWAN转发性能的影响,如果需要扩容传输带宽,需要评估传输链路、CPE、SDWAN应用的转发能力 容错 云上部分依赖云原生产品的高可用设计 SDWAN部分依赖厂商自身的容错设计 容灾 分支到阿里云的underlay线路选择不同的线路供应商实现物理通道的高可用 全链路动态路由,BGP中断触发路由自动切换到健康实例 路由自动发布到TR路由表,并向全网自动发布 繁荣的集成生态,助力企业国内外分支便捷上云 业务场景 多分支上云 设计方案 新加坡TR 测试VPC VPCAttachment 开发VPC 上海TRVPCAttachment 路由表 跨地域带宽 路由表 路由自动同步 BGPoverIPSec VPNAttachment 3rdSD-WANECS Internet 分支设备 海外分支 分支设备 海外分支 应用交付网络设计 应用型负载均衡ALB专门面向七层,提供超强的业务处理性能,阿里云官方云原生Ingress网关 业务场景 应用多活 业务安全 VPC 设计方案 Internet HTTP/HTTPS/QUIC WAF安全模块 ALB 自动伸缩 服务器组1 服务器组2 服务器组3 服务器类型 IP类型 函数计算类型 方案核心能力 • • 丰富的转发规则:可以基于源IP、Cookies进行流量匹配并 设置相应转发规则,支持Redirect、Rewrite、Response 方向的转发规则。 服务化WAF:该接入方式WAF不参与流量转发,业务监听与转发由ALB负责,实现转发与防护完全分离,避免了 WAF转发额外带来的各种兼容性和稳定性问题。 设计关键点 容量 单实例100WQps:动态弹性伸缩,单实例支持高达100WQps。 容错 多节点session同步,单机、单节点故障长连接不中断 对ALBproxy的http类型健康检查,故障节点自动摘除 容灾 多可用区部署:避免单可用区故障,单可用区资源瓶颈。 健康检测:健康检查机制避免了后端ECS异常对总体服务的影响,提高了前端业务整体可用性 跨地域调度网络设计 设计关键点 容量 通过自研的高性能DNS解析软件,单机解析并发能力超过千万,支持动态水位扩容升级,确保解析服务的高可用性和弹性伸缩。 容错 GTM采用全球多节点部署的架构设计,实现了各节点之间的互备,有效避免了单节点故障导致的服务中断。 容灾 多中心部署:业务同城双可用区部署,跨地域多活灾备部署 服务可用性实时探测:GTM健康检测探测服务可用性,服务一旦不可用快速切换至双活节点,实现两地三中心应用级容灾 全局流量管理GTM通过DNS实现业务应用访问优化和异地容灾 业务场景 应用容灾调度 提升服务连续性 应用访问优化 提升服务体验 设计方案 上海用户 健康检查 上海 北京用户 云解析 DNS 全局流量管理 GTM 北京 境外用户 • 方案核心能力 • • 美东 精准识别请求来源:提供高精度地址库,支持地域、运营商多类型地址库组合精准识别请求来源。 多维判定服务可用:支持3-7层健康探测,支持健康探测模版配置,多模版综合判断可用性,最快1分钟发现并完成故障切换。 灵活的调度策略:支持顺序、权重、轮询、来源就近多种调 度策略组合,满足更丰富的容灾调度场景。 Part3 可观测、应急快恢和故障演练 可观测、应急快恢和故障演练 网络流量不可见 •流量耗用了多少? •哪些业务耗用的多? •带宽资源使用是否合理? •成本是否最优? •网络质量怎么样? •…… 流量TopN分析:有效抓取流量刺客,解决网络拥塞问题 多维度流量下钻:实例级(一元组) 源目IP级(二元组) 端口应用级(五元组) 可观测 访问源(国家/城市/ISP) 分场景流量分析: 公网流量 TR跨地域流量 TR混合云流量 TR同地域流量 Step1:选场景、选Region,看流量分布 Step2:看流量Top排序,下钻流量分析 Step3:查看趋势图,看流量波动明细 流量洞察分析:应用AIOps智能基线预警,及时感知公网质量劣化和对业务IP的影响 Step1:创建洞察仪添加监测资源 Step2:观测网络质量运行状况 Step3:订阅网络质量事件,分析影响面 Step4:订阅流量周期性波动事件 智能运维:网络流量可视化 覆盖场景 公网访问:EIP、NAT 跨VPC访问:TR、VPC-peering 混合云访问:VBR、ECR、VPN负载均衡:CLB VSW、ECS、IP(公网、云下私网) 可观测、应急快恢和故障演练 实例诊断:选择网络实例一键触发,诊断全面,报告详实 输入实例ID 输出诊断报告 应急快恢 等待十几秒 •按实例类型匹配诊断项; •扫描实例配置和状态; •异常结果给出解决方案; •生成全量诊断报告,供归档审计; 路径分析:输入路径五元组,逐跳分析网络连通性,提供转发拓扑和网络断点根因分析 源: 输入路径的“源”和“目的” ECS:192.168.1.1 协议: TCP 逐跳分析网络配置 输出转发拓扑和分析结果 逐跳配置检查: 路由、ACL、安全组和防火墙拦截日志等断点分析: 路由表无命中条目、ACL/安全组存在拦截规则、防火墙存在历史拦截等 路径推荐: 若访问不通,提供可选路径推荐和配置建议 目的: IP:8.8.8.8端口:8080 服务不可用问题 • • • 实例配置是否完整? 连通性是否达到预期? …… 诊断覆盖产品 负载均衡:CLB/ALB/NLB 弹性公网EIPTR VBR VPN网关 私网连接PVL 全球加速GA