腾讯自研业务云原生成本及稳定性优化实践
背景
腾讯通过容器化上云实现业务的云原生架构升级,支持包括QQ、腾讯会议、腾讯文档等在内的海量自研业务。
主要问题
- 节点装箱率差
- 资源利用率低
- 运营成本高
- 海量节点运维成本高
解决方案
-
在线混部集群的资源利用率提升方案
- 动态资源超卖:通过自研动态调度器和热点动态补偿算法提高资源利用率。
- 节点负载均衡调度:优化调度策略,减少业务服务质量下降的风险。
- 动态伸缩:支持常规和紧急场景下的弹性伸缩,快速响应集群负载变化。
-
稳定性提升方案
- 从内核层面提供丰富稳定性指标,如OS稳定性指标和内核稳定性事件检测。
- 实现节点及容器级自愈机制,优化容器调度编排。
-
拥抱腾讯云弹性容器服务 EKS
- 采用Serverless架构,以Pod为交付资源,无需额外节点即可部署工作负载。
- 支持异构算力,满足多种业务需求。
- 提供高可用性和安全性保障,支持容器热迁移和多副本管控。
成效
- 使用在线混部超卖方案后,集群CPU平均利用率提升至30%~40%,节点负载均衡性良好。
- 通过EKS服务,显著提升了资源利用率和业务稳定性。
重要技术
- Crane开源技术:支持业务常规和周期性弹性伸缩场景。
- Kubernetes动态调度器:优化调度策略,减少节点负载不均衡现象。
- Pod资源压缩技术:动态调整Pod资源压缩比,提高资源利用率。