小红书云原生架构的演进
一、小红书基础架构概览
- 月活跃用户:超过2亿
- 在线服务:1.4万+
- 实例数量:30万+
- 业务领域:笔记、电商、短视频、直播、商业化、搜索推荐、音视频、机器学习、数据中台等
二、云原生实践
-
时间轴:
- 2018-2020年:开始容器化部署,离线训练使用K8S容器编排引擎
- 2020年:在线业务容器化改造,引入K8S调度能力
- 2021年:微服务Serverless化,完成近线和在线业务Serverless改造
-
容器架构核心能力:
- CPU精细化调度:设计了自研的CPU精细化调度方案,关闭了K8S默认的CPU管理策略
- 动态资源超卖:通过资源画像和超卖控制器动态调整节点资源
- 混部质量保障:面向负载水位的CPU约束,保障高优先级业务的服务响应质量
- 弹性伸缩:自研Fed HPA支持多种探测策略,满足在线服务弹性需求
- 多级调度:实现服务QoS资源保障模型,满足不同应用的跨集群调度需求
三、挑战与未来
-
当前问题:
- 容器化程度高但云原生化程度低
- 集群利用率低,低于其他互联网公司
- 按照功能划分集群,缺乏完整的多集群管理能力
- K8S版本碎片化严重,难以升级
- 缺乏专门的容器研发团队,问题解决能力不足
-
未来展望:
- 算力归一化
- 大规模资源的精细化运营
- 推动存储、微服务治理、搜索推广等服务云原生架构升级
总结
小红书通过容器化和K8S实现了高效的云原生架构,但在云原生化程度、集群管理和资源利用方面仍面临挑战。未来,小红书将继续推进云原生架构升级,提升整体资源管理能力和业务弹性。