您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[ArchSummit深圳2024|全球架构师峰会]:李鹤-如何稳定高效地利用 k8s 集群资源 - 发现报告
当前位置:首页/行业研究/报告详情/

李鹤-如何稳定高效地利用 k8s 集群资源

AI智能总结
查看更多
李鹤-如何稳定高效地利用 k8s 集群资源

如何稳定高效地利用 k8s集群资源 Shopee云原生技术专家/李鹤 东南亚,台湾,巴西领先的电子商务平台 强大的品牌认知度,持续增长 GooglePlay 所有购物App中用户总花费时间第一所有购物App中平均月活第二 所有App中最佳品牌第五 个人简介 •kubernetes,karmadamember •2016~今,sincev1.4 •集群管理,编排调度,资源利用率优化 •GithubID:likakuli •订阅号:云原生散修 •blog:https://www.likakuli.com 内容简介 •浪费量化 •风险量化 •InsightStore 数据驱动 01 •调度 •重调度 能力增强 02 •基于时区混部 •差异化SLO混部 •资源预测 差异化混部 03 •CA •HPA 弹性伸缩 04 KubernetesinShopee 10+数据中心 200+集群 20K+节点 ~500KPod 数据驱动 •浪费量化 •风险量化 •insightstore 数据驱动 1 100%? https://blog.betacat.io/post/2023/05/explain -latency-and-utilization-using-queueing-theory/ 2 Fragmentation 3 Arch 4 Buffer 容量评估 ce 度 ss sa 集群压缩 cc kluster-capacity 模拟调 风险分析 kluster-capacitysa--thresholds=50,60,75,70,75,80 --snapshot=simulationresult.json --metric-url=https://prometheus.url --range-start=2024-04-0400:00:00 --range-end=2024-04-0423:59:59 --step=60 --g=100 能力增强 调度 Orgnizer 安全 woíkload,node,ns,clusľeí级别限流全局黑名单+特定Annoľaľion禁用驱逐 性能 3K+nodes50k+pods PeícycleP995m+→5s 实时eunomiaagenľ为热点node设置annoľaľion,descheduleíwaľchnode变化 定期执行+实时触发 预测 eunomiaagenľ预测节点短期负载变化,平滑处理毛刺 混部 foreveryusageclass:sum(usageofallpods)≤ node.Allocatable*safetythreshold WorkloadQoS Description Examples ProdGuaranteed ●ReservedCPUSet●CPUandmemoryNUMAalignment●UnconditionallysuppressMid~Batch Highlycriticalservices,controlplanecomponents ProdBurstable ●ShareCPUswithotherProdBurstable●UnconditionallysuppressMid~Batch Statelesswebservers ProdRelaxed ●SuppressMid~Batch DaemonSetservices Mid ●Relativelystableresources●SuppressBatch Internalwebservices,non-businesscriticalservices Batch ●Dynamic,unstableresources Lowprioritybatchjobs,cronjobs,bigdatajobs,video/imagetranscoding ● ● 短期 关注趋势 更高的数据准确性和精 确性 避免回收资源频繁波动 长期 ●关注模式(周期性、季节性) ●较低的精确性 ●较长的预测窗口 调度到未来一段时间Pod不会被驱逐的节点 ●降低驱逐概率 ●快速响应资源骤减,利用率突增的场景 长期预测 长期预测数据缓存在调度器中 调度在线Pod 优先调度到已分配回收资源较少的节点上 短期预测 发生或预测到资源利用率突增时优雅驱逐 调度离线Pod 对近期频繁发生驱逐的节点进行惩罚,降低再次调度到其上的概率 调度离线Pod 优先调度到未来一段时间内不会被驱逐的节点上(长期预测) 弹性伸缩