容器服 务Kubernetes版ACK 容器镜像服务ACR分布式云容器台ACKOne 服务网格ASM阿里云云原生公众号阿里云云原生视频号 ACK产品免费试用阿里云开发者“藏经阁” 海量电子手册免费下载 今天,能想到的或是想不到的领域,对容器和Kubernetes的需求都居高不减,使这项技术正在真正走向无处不在。 从2015年正式对外提供服务至今,阿里云容器服务产品家族已经成长为企业的云原生应用操作系统,帮助越来越多的客户实现智能化、数字化创新,包括自动驾驶、智能科研、金融科技等众多新兴领域。其覆盖了从公共云、边缘云、到本地数据中心的各个场景。让所有需要云能力的地方,都有统一的容器基础设施。 2023年,阿里云容器产品能力持续受到业界的广泛认可。2023年9月,在权威咨询机构Gartner发布的容器管理魔力象限中,由于在公共云、专有云、混合云等环境完善的产品体系,阿里云成为全球领导者,亚洲唯一。在2022年 4季度,Forrester公共云开发与基础设施平台Q4/22评测中,阿里云是中国云原生开发者的最佳选择。 智算时代已来。正如一个文明社会的科技水平取决于其对能源的利用能力,企业的智能化水平取决于其对算力的利用能力。云计算为智算时代带来无限可能,2023年云栖大会上,阿里云容器服务宣布了以加速企业构筑现代化应用平台、最大化利用阿里云强大弹性算力为使命,在高效云原生算力、高性能智算应用、智能化运维管理、可信基础设施、分布式云架构5大核心方向带来的产品能力全新升级。 本书精选2023云栖大会中“容器技术与服务”专题分享精华,集合容器服务产品家族最新发布、容器AI工程化创新、容器前沿技术与大规模生产实践、典型场景企业案例等方向内容,希望能够帮助您了解如何基于容器技术与服务,拥抱智算时代,为现代化应用构建加速! 第一章:容器产品最新发布 阿里云ACK新升级,打造智算时代的现代化应用平台6 第二章:容器服务典型企业案例 云原生场景下月省10万元资源成本,这家企业做对了什么26 米哈游大数据云原生实践45 第三章:容器AI工程化创新 智算时代,基于ACK落地云原生AI66 云原生场景下,AIGC模型服务的工程挑战和应对88 第四章:容器前沿技术与大模型生产实践 阿里云ACK云上大规模Kubernetes集群高可靠性保障实战104 基于阿里云ACK与ACR构建企业级端到端DevSecOps流程123 机密计算容器前沿探索与AI场景应用143 Koordinator助力云原生应用性能提升——小红书混部技术实践158 轻松搭建基于服务网格的AI应用,然后开始玩176 阿里云云原生弹性方案:用弹性解决集群资源利用率难题212 基于ACKOne实现简单的跨云协同,让业务管理更高效227 阿里云ACK新升级,打造智算时代的现代化应用平台>6 第一章 容器产品最新发布 阿里云ACK新升级,打造智算时代的现代化应用平台 作者:易立,阿里云研究员&容器服务负责人 今天,能想到的或是想不到的领域,对容器和Kubernetes的需求都居高不减,使这项技术正在真正走向无处不在。 在2023云栖大会上,阿里云云原生产品线容器服务负责人易立关于容器服务ACK在本届亚运会上应用的介绍,让现场观众眼前一亮,“以杭州亚运会为例,作为云原生技术底座,为亚运一站通、亚运钉等众多核心应用提供了高弹性、高可用、异地多中心的架构支持,确保了赛事系统万无一失。” 阿里云容器服务ACK已经成长为企业的云原生应用操作系统,帮助越来越多的客户实现智能化、数字化创新,包括自动驾驶、智能科研、金融科技等众多新兴领域。其覆盖了从公共云、边缘云、到本地数据中心的各个场景。让所有需要云能力的地方,都有统一的容器基础设施。 在过去一年,阿里云容器产品能力持续受到业界的广泛认可。2023年9月,在权威咨询机构Gartner发布的容器管理魔力象限中,由于在公共云、专有云、混合云等环境完善的产品体系,阿里云成为全球领导者,亚洲唯一。在2022年4季度,Forrester公共云开发与基础设施平台Q4/22评测中,阿里云是中国云原生开发者的最佳选择。 智算时代已来,易立介绍了为助力企业构建现代化应用平台,阿里云容器服务在高效云原生算力、高性能智算应用、智能化运维管理、可信基础设施、分布式云架构5大核心方向带来的产品能力全新升级。 1.新一代云原生算力,提升企业计算效能 更大规模:弹性算力池新突破 阿里云提供了丰富的弹性算力,包括Intel/Amd/倚天Arm等多CPU架构,GPU/RDMA等多种异构加速器,以及按量、Spot、节省计划等多样化的售卖形态。使用ACK,客户能够最大化利用阿里云整体弹性算力池能力,根据自己的需求灵活选择,增效降本。 ACK集群支持托管节点池、虚拟节点两种不同的数据面形态: 托管节点池,支持任何ECS裸金属和虚拟机实例作为K8s工作节点,一个工作节点可以运行多个Pod,全兼容K8s语义,兼具灵活性与易用性。 虚拟节点,每个Pod运行在独立的弹性容器实例ECI之中。每个ECI实例是一个独立安全沙箱,具备高弹性、强隔离,免运维等特点。阿里云弹性计算基于CIPU可以统一生产ECS裸金属实例、虚拟机实例和弹性容器实例。这意味这ECI支持弹性计算丰富的算力类型,具备充足的库存保障。 今年ACK集群通过与弹性计算调度相互感知,可以更好调度ECI实例,支持将K8s对集群资源调度能力扩展到整个弹性算力池,确保了ECS节点池与虚拟节点的调度统一和能力一致,用户无需修改现有K8s应用定义即可最大化使用云资源。 越来越多的客户基于ACK集群,构建大规模微服务架构应用和大规模数据计算任务。同时为了满足对集群规模增长的诉求,ACK单集群最大支撑的节点从10000提升至15000,ECI实例从20000提升至50000实例。我们的控制面组件会根据数据面规模按需伸缩,保障稳定性。 更优性价比:倚天架构专属优化 越来越多的ACK客户选择倚天芯片作为新算力选择。客户选择倚天架构实例主要有如下三个原因: ∙高性价比:相比G7实例族,Web应用提升50%,视频编解码提升80%,Spark任务提升28%。 ∙高吞吐:采用ArmV9架构,提供独立物理核心,提供更确定性的性能;相比G7实例族,Web应用吞吐提升22%;SparkTPC-DSBenchmark速度提升15%。 ∙专属优化:容器镜像服务ACR联合基础软件团队、龙蜥社区在制品中心,提供了面向倚天芯片专属优化的基础软件及应用软件镜像。通过基于AI和专家知识库的KeenTune为倚天架构提供专项参数调优。在主流场景中,优化后相比优化前性能提升30%。 为了支持容器应用向倚天架构平滑切换,ACR提供了多架构镜像构建能力,支持一份源码构建出包含x86、Arm架构的应用镜像,同时ACK集群可以同时包含Arm/x86节点池 或虚拟节点,让客户K8s应用在不同CPU架构下按需调度,逐步切换。 更高弹性:全新发布节点池即时弹性能力 最大化利用云的弹性能力是客户对容器产品的重要诉求,易立也带来了ACK的一项全新发布:“在阿里云上,容器服务每天有数百万核的算力资源按需扩缩容,帮助客户优化计算成本。今天,我们正式发布ACK节点池即时弹性能力”。 ACK节点池即时弹性Scaler拥有以下特点: •更快的弹性速度:在100节点池的规模上,保持平均45s的端到端扩容速度,相比社区ClusterAutoscaler提升60%。 •支持用户定义灵活的规格匹配策略:在社区的ClusterAutoscaler中,每个节点池中节点CPU/Memory规格是固定的,如需满足不同需求需要创建多个节点池,会带来配置管理复杂性、资源碎片引入的可能,并增加由于库存不足导致弹性稳定性降低的风险。即时弹性Scaler支持用户定义灵活的规格匹配策略,不同机型节点规格匹配条件下,系统会根据待调度的PendingPod集合的资源请求和调度约束,及对ECS的库存感知,生成优化的装箱结果。这样,只需一个节点池就可以完成对多规格、多可用区 的节点弹性。在降低节点池配置复杂度的同时,减少了资源碎片,提升了弹性的成功率。 即时弹性完全兼容现有节点池能力和使用习惯,可以配合托管节点池实现节点的自动化运维。 更简运维:ContainerOS与全托管节点池结合 对于K8s集群,节点运维是保障系统稳定性与安全的重要日常工作,但是手工操作非常复杂繁琐。ACK托管节点池支持节点的全生命周期自动运维,包括CVE高危漏洞自动修复、节点故障自愈、OS/节点组件自动升级,其中节点自愈成功率98%;集群节点运维时间减少90%。 ContainerOS是龙蜥社区发布的面向容器优化的操作系统,采用不可变基础设施理念构建,具备精简、安全、可编程等特点。千节点弹性时间P9055s,相比CentOS等节点弹性时间降低50%。ContainerOS与全托管节点池可以完美结合,进一步优化了节点池的弹性和可运维性,让企业聚焦在自己的自身业务,而非K8s基础设施维护。 更丰富场景:Serverless容器为AI场景增效降本 对ServerlessContainer的支持是K8s演进的重要方向,基于ECI的ACKServerless在客户场景中得到了广泛的应用。ACK、ECI不但帮助微博热搜,钉钉会议等在线应用的弹性伸缩,也在助力众多AI和大数据客户降本增效。 深势科技基于基于ACK与ECI实现多地域部署AI科研平台,免运维,按需创建实验环境,支持大规模AI镜像秒级拉取,资源利用率提升30%。 米哈游基于ACK与ECI,统一全球各区服大数据平台架构,单日创建200万以上ECI实例执行Spark计算任务。通过高效利用ECISpot实例,整体资源成本下降50%。今年ECI弹性容器实例有四个重要发布: •普惠降本:新增「经济型」规格,相比当前通用型价格下降40%,面向成本敏感的Web应用、计算任务、开发测试等工作负载。此外现有通用型实例价格也将在近期下调,最高下降15%。 •极致性能:计划新增「性能增强型」规格,面对计算密集型业务场景,如科研、高性能计算、游戏,相比现有通用型实例,提供更高性能的算力、更具确定性的性能。 •弹性加速:ECI通过对用户负载特征自学习和预测,实现底层资源的预调度,扩容速度 提升至7000Pod/min,非常适于大规模数据任务处理场景。此外业界首家支持GPU驱动版本选择,为AI应用提供更多灵活性的同时,冷启动提速60%。 •灵活提效:ECI今年发布了对倚天Arm、AMD架构的支持,ACK也在近期上线了Windows容器支持,支持更加丰富的企业应用场景。并且发布对细粒度内存规格支持,帮助用户精细化资源适配,消除空闲资源开销。 2.云原生智算基础设施,构筑高效现代应用平台 全面支持灵骏集群,为大模型训练提效 过去一年,AIGC/大语言模型无疑是AI领域最重要的进展。随着大模型参数规模、训练数据和上下文长度的增长,训练大模型所消耗的计算量呈现指数级增长。ACK全面支持阿里云灵骏智算集群,为大规模分布式AI应用提供高性能、高效率的Kubernetes集群。 ACK提供了对灵骏高性能算力的全面支持,以及批量AI任务调度,数据集加速,GPU可观测与自愈等能力。通过软硬件协同设计与云原生架构优化,ACK助力PAI灵骏智算方案高效利用强大的算力,为AIGC、自动驾驶、金融、科研等众多智算业务场景提效。 ACK云原生AI套件增强,构筑企业专属AI工程化平台。 ACK去年推出云原生AI套件,帮助用户基于Kubernetes充分利用阿里云上弹性算力,支持弹性训练与推理等场景。在此之上既服务了阿里云PAI、灵骏智算、通义千问等AI平台与服务,也提供对开源AI框架和模型的容器化支持。 今年,针对大模型场景,AI套件新增了对开源大模型框架DeepSpeed,Megatron-LM,TGI的容器化支持与优化。通过云原生AI套件的