如何管理超千万核资源的容器规模
1. 腾讯自研业务容器化上云历程
- 技术路线:腾讯自研业务实现了容器化上云,涵盖计算、网络、存储等多种资源管理。
- 产品架构:包括TKE(Tencent Kubernetes Engine)、TKE-Edge、Tencent Cloud Mesh等。
2. 各种混部场景下利用率提升方案
- 在线离线混部:
- 目标:提高资源利用率,保证服务质量。
- 关键技术:Caelus、Kubernetes、Prometheus、Thanos等。
- 流程:节点资源预测、实时数据采集、资源隔离、冲突处理等。
- 在线混部:
- 手段:动态资源超卖、多集群资源协调、弹性伸缩等。
- 技术:HPAPlus、CronHPA、VPAPlus、Kubernetes原生调度器等。
3. 稳定性面临的挑战及其破解之法
- 监控与告警:完善监控告警体系,确保集群各层级的稳定性。
- 节点稳定性:自动探测节点状态,健康检查,自愈机制。
- 业务稳定性:优化基础镜像,内核参数调整,提升服务质量。
- 案例:Prometheus集群稳定性提升,基于NPD的节点稳定性检测。
4. 从面向集群到面向应用的调度编排
- 应用管理:通过Clusternet实现跨集群应用统一变更、配置管理、弹性伸缩等。
- 多集群协同:应用视角下的跨集群管理,实现应用的全局灰度变更。
- 动态调度:感知子集群资源使用情况,提供标准接口供scheduler调用。
- 弹性伸缩:多集群应用的动态协同弹性伸缩,实现应用副本在子集群间的动态调整。
通过上述措施,腾讯成功提升了容器资源利用率和稳定性,实现了高效、稳定的容器化管理。