您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[网易]:云原生 PaaS 中间件大规模生产实践 - 发现报告
当前位置:首页/其他报告/报告详情/

云原生 PaaS 中间件大规模生产实践

2023-03-09网易刘***
云原生 PaaS 中间件大规模生产实践

网易数字+大会 云原生PaaS中间件大规模实践 闫明 网易数帆中间件研发专家 目录 网易数字+大会 背景 •社区开源基础云中间件现状 •第一代云化中间件生产缺陷 •新一代云原生中间件大趋势 PaaS云原生化 •中间件云原生化架构 •云原生化特性引入优势 •中间件云原生化的挑战 生产环境实践 •轻量化快速交付 •性能大幅提升 •成本大幅降低 总结规划 •中间件标准化方法论 •快速交付新中间件产品 •融合调度和多活能力 网易数字+大会 背景 01 •运维复杂 •运维效率低 •稳定性保障值守 •弹性能力不够 •专业人才不足 社区开源中间件 网易数字+大会 Redis、Kafka、MySQL等开源中间件广泛应用,运维复杂,需要较强的运维专业知识,误操作极易引发严重线上事故。 02 •基于虚拟机虚拟化,虚拟化较重 •性能虚拟化损耗 •资源利用率低,内存资源内碎片严重 •系统栈复杂,很难私有化部署 •无法实现商业化快速交付 公有云中间件 主流公有云厂商托管大多数主流中间件,Redis、Kafka、MySQL、RocketMQ、MongoDB、Elasticsearch、Pulsar等,但是都存在一些缺陷。 03 •轻量级虚拟化 •灵活编排调度,资源弹性伸缩 •自定义资源灵活扩展,自动化运维 •技术栈统一 •快速私有化部署和商业化交付 云原生中间件 云原生技术K8s、Docker技术飞速发展,并在无状态业务大规模落地,容器技术和云原生编排解决了服务诸多痛点。 网易数字+大会 背景 •云计算的拐点已至,云原生成为驱动业务增长的重要引擎。 •后云计算时代的需求从资源优化转向效率提升。 •云原生技术生态日趋完善,细分项目不断涌现。 •多环境分离部署、跨云部署实现容灾或弹性伸缩,避免厂商锁定。 网易数字+大会 ——《云原生发展白皮书》 63% 44% 70% Kubernetes普及 Kubernetes在受访人群的采纳率高达63%,在容器编排领域扮演非常重要角色。 容器技术普及 43.9%用户在生产环境中采纳容器技术,并线上稳定运行。 微服务架构转型 超70%用户已经或者在计划使用微服务架构对业务开发部署,进行架构升级。 网易数字+大会 网易数帆云原生操作系统 •基于K8s构建云原生操作系统,提供统 网易数字+大会 一的基础云原生能力。 •适配多种基础设施,混合异构资源管理, 实现多云部署。 •运行多种工作负载,无状态应用、有状态应用(典型中间件)、大数据离线/实时负载、服务网格等。 网易数字+大会 PaaS中间件实现架构 中间件管控面 中间件数据面 网易数字+大会 日志/监控/报警 Logger(Loggie) AlertManager Prometheus K8SMaster Etcd API-Server Controller Scheduler 中间件Operator ZK ES MySQL Kafka Redis 平台管理 OpenAPI 计量 控制台 权限 认证 审计 K8SNode StorageClass (本地盘/远程盘) StorageClass (本地盘/远程盘) StorageClass (本地盘/远程盘) exporter filebeat exporter filebeat exporterfilebeat PVC PaaSPod 步 数据同 StatefulSet PVC 拓扑/ PaaSPod 步 PVC PaaSPod 拓扑/数据同 K8SNode K8SNode kube-proxy kube-proxy kube-proxy kubelet kubelet kubelet 网易数字+大会 云原生中间件核心内容 面向交付和运维的Operator技术,利用中间件专业运维知识实现对k8s子资源的有效管理。 •资源模型声明和定义 •高可用灵活调度 网易数字+大会 •运维自动化 •跨集群网络访问 •性能优化 网易数字+大会 资源模型定义-集成专业运维能力 中间件资源定义 k8s内置资源 •Pod •Deployment •Statefulset •Job •Service/Ingress •PV/PVC •副本数 •分片数 网易数字+大会 •版本 •资源规格 •调度策略 •可用区定义 网易数字+大会 高可用灵活调度-多策略保证数据可用性 01 Node均衡调度 单个中间件集群中的pod调度满足多node上均衡分布,容忍任意node宕机仍保证服务高可用 可用区均衡调度 02 04 网易数字+大会 单个中间件集群中的pod调度满足多可用区上的均衡分布,容忍任意可用域故障仍保证服务高可用 03 Node反亲和调度 同一数据副本通过node反亲和,保证分布在不同的node上,保证node级别数据安全性 可用区反亲和调度 同一数据副本通过可用区反亲和,保证分布在不同的可用区上,保证可用区级别数据安全性 网易数字+大会 运维自动化-大幅提升运维效率 Pod异常自动创建 Pod异常退出,异常删除等 Node故障自动恢复 Node宕机、异常、驱逐等异常状态 扩容缩容一键触发 容量扩缩容,数据迁移自动处理 实例故障自动修复 网易数字+大会 实例异常自动拉起、配置、集群状态修复 引擎版本滚动升级 引擎兼容小版本可以自动滚动升级,用于引擎版本快速bugfix 离线负载弹性伸缩 系统根据当前负载,离线任务弹性调度,业务低 峰期充分利用计算资源 网易数字+大会 多模式访问-灵活的协议和网络模型 多访问模式 统一模式 网关代理实现协议兼容,提供多种访问 网易数字+大会 模式,客户端可使用任意模式进行访问 LoadBalancer 通过实现LoadBalancerservice,实现工作负载的跨k8s集群、跨vpc网络或公网访问 七层代理 七层代理实现不同协议的转换,简化客户端复杂逻辑处理,可以实现如读写分离、认证等,业务无需进行修改即可快 速接入访问 集群内直连 集群内访问,直接采用社区原生方式访问,在保证兼容的同时,保证服务性能 网易数字+大会 性能优化-操作系统内核调优 CPU 开启性能模式,降低唤醒延时 调度开启NUMA感知,降低CPU内存访问延迟 内存 网易数字+大会 关闭Swap和透明大页调优内存脏页回写策略和阈值 IO 使能Blockmulti-queue实现高IOPS和低延迟提升预读缓存,提升IO性能 网络 实现SRIOV+DKDP高性 能网络,大幅降低中断消耗 网络处理CPU绑定,避免与业务CPU竞争导致抖动 网易数字+大会 性能优化-操作系统内核调优效果 优化前,相比虚拟化中间件,性能有 40+%提升。 网易数字+大会 系统优化后,性能进一步提升40%~50%,接近物理机部署性能。 网易数字+大会 落地成果-广泛落地和好评 •高SLA保证 网易数字+大会 •自动化运维 •故障检测自动恢复 •资源利用率提升,成本节省约30% •极致性能 •在线水平扩容缩容,服务不中断 网易数字+大会 总结与规划 总结 •借助云原生,实现了常用基础中间件架构升级 •得益于云原生架构改造,实现了服务生命周期管理和运维成本大幅降低 网易数字+大会 •通过技术优化,实现性能大幅提升,IT成本大幅降低 规划 •中间件支持多集群融合调度 •中间件数据面引擎能力增强,增加服务地域多活能力 •沉淀轻舟中间件开发技术白皮书,降低新增中间件种类的研发成本 网易数字+大会 网易数字+大会 THANKS