演讲人:徐可甲 目录 01 云原生智算服务关键技术 02 智算服务可观测需求与挑战 03 下一代可观测Pipeline 04 智算服务可观测Pipeline技术实践 05 未来展望 云原生智算服务关键技术 数据 准备 模型 构建 模型推理 持续发布开发 弹性探索 模型训练 调优提效 •AI在计算机视觉、语音、NLP等领域取得突破,已深入 影响各行各业,并催生出了自动驾驶等领域。 •AI服务上云形成趋势,深度学习/AIGC应用广泛采用容器等云原生技术。 深度学习的特点 •端到端流水线–Rawdatain,executablemodelout •持续迭代优化–梯度下降,超参数调优,Prompt工程 •任务长时运行–小时/天/周/月 •消耗海量数据和大量算力 大模型对基础设施服务能力的挑战是阶跃式的。 对“规模、性能、效率”的要求,成为LLM/AIGC快速落地的高门槛。 效率 •资源效率:高利用率、弹性可扩展 •工程效率:持续快速迭代 性能 •训练:单卡->分布式、混合并行加速 •推理:模型优化、服务质量Qos 规模 •算力:千卡GPU任务,万卡集群 •数据:PB级存储,TB级吞吐 •网络:800Gbps–3.2TbpsRDMA 模型参数量每年10倍指数级增长 AI 工 程 异构硬件 AI工程通常需要多样化的硬件支持。 动态分布式计算 AI工程中的计算需求常常具有高度的动态性,如模型训练和推理负载会随数据量和算法复杂度变化。 资源隔离性 AI工程通常涉及多个团队,不同任务需要独立的资源隔离,避免资源竞争导致性能下降。 环境一致性 AI工程需要在不同环境(如开发、测试和生产环境)中保持一致性。 快速迭代 AI模型和算法需要频繁更新和快速迭代。 设备插件灵活扩展 支持各种设备插件,允许轻松将不同类型的硬件资源集成到集群中。 资源调度与弹性伸缩 K8s强大的调度能力,根据实际负载自动调整Pod数量,实现计算资源的动态分配与回收。 命名空间与资源配额 通过命名空间和资源配额确保不同任务的资源独立性。 容器化应用管理 通过容器化技术,确保在不同环境中运行的AI应用具有一致的运行环境,避免因环境差异引发的问题。 持续集成与持续部署(CI/CD) 与CI/CD工具的集成,支持自动化构建、测试和部署流程。 计算网络存储 CPU、内存 GPUDevice-Plugin RDMA网络 海量小文件数据集读取 Checkpoint大文件读写 AI工程向云原生架构演进云原生架构的容器服务支撑AI智算基础底座 传统架构 •资源管理分散、资源利用率低 •无法弹性伸缩 •生产流程割裂、效率低 •团队协作、共享困难 云原生架构 •资源池化:弹性、灵活 •生产流程高效闭环 •可观测手段丰富 •多角色协同,加速迭代 在云原生架构的Kubernetes集群中管理调度GPU、NPU、RDMA等高性能异构资源,以容器化方式开发、运行AI、大数据任务,部署AI推理服务。 开发模型训练模型发布模型 AI工程平台 存储池 GPU池 更快的创新与迭代更高的稳定性 更弹性的算力 到2025年,接近50%的企业内部的数据密集 型或性能密集型计算工作负载都将迁移到云原生架构上。 云原生AI 利用云计算的弹性资源、异构算力以及容器、自动化、微服务等云原生技术,提升AI/ML的工程效率,降低整体成本,提高可扩展性,并实现端到端的解决方案。 算法与场景框架 AI异构工作负载 TensorflowPytorchDeepspeedHuggingfaceLangchain 统一工作流,统一调度 DockerKubernetesKubeflowKserveFluidMLFlow 统一资源管理持续优化利用率 统一管理 统一任务调度保障规模与性能 GPU异构管理与弹性伸缩 GPU共享 单卡共享:模型推理场景多卡共享:分布式模型训练 GPU监控 GPUExporter+NodeProblemDetector All-or-Nothing任务 任务组(Gang)内的所有任务必须同时调度和执行 将任务打包到尽可能少的节点上,提高资源的使用效率。 解决多租集群固定资源分配下,不同用户使用周期不同导致资源浪费问题。 智算服务可观测需求与挑战 AI生产环境稳定性保障 GPU坏卡检测&自愈 模型性能优化 资源利用率提升 云原生智算服务系统分层架构 可观测 数据驱动 IDC 云 容器平台 异构资源管理 高性能计算、存储、网络 任务调度和流水线 AI框架和运行时优化 任务性能优化 AI作业生命周期管理 工具链、API 生态扩展、集成 模型训练可观测 人工智能平台PAI (PaaS) 模型推理可观测 容器可观测 容器服务ACK (CaaS) 云资源监控 智算服务PAI-灵骏 (IaaS) CPU利用率、GPU利用率、GPU监健康状态、磁盘利用率、存储(CPFS)I/O、网络(RDMA)、GPU物理指标 Workload可观测、控制面可观测、GPU监控、Ingress监控、AI套件、异构算力、事件、审计 AB测试 模型监控 RAG诊断 数据质量 模型任务监控 模型评估 • • • • • • 迫切需要一款采集器: ••全面的数据采集能力、灵活的数 据处理 •强大的弹性能力 •性能好、资源开销低、稳定可靠 •支持多租 •管控能力强,易用 iLogtail 下一代开源可观测Pipeline 下一代可观测Pipeline 多租隔离 广泛的数据接入 高性能高可靠 可编程性 可管控性 云原生支持 定位 LoongCollector是一款集卓越性能、超强稳定性和灵活可编程性于一身的数据 采集器,专为构建下一代可观测性数据传输Pipeline设计。 1、可观测性统一Agent(UnifiedObservabilityAgent) 2、端到端可观测Pipeline(End-to-EndObservabilityPipeline) Star1.7K装机量1000W数据量100PB/天 日志采集 日志处理 iLogtail 可观测数据采集 SCOPE 本地计算 扩展 服务发现 环境协议 中间件 SLS Logs MetricsTraces 输入输出 Telemetry Profiles Events 设计注重性能与可靠性 一个轻量、高效、稳定、可靠的架构,能够实现高吞吐量,同时保持较 低的CPU和内存开销。 通用反馈队列机制 日志流量 日志生产速率 Agent 采集速率(/s) CPU(%) 内存(MB) Filebeat 14530 722 205 45000/slogmock Vector 19630 195 81 Rsyslog 28438 123 17 50M 参数:logs-per-sec=1000pod=15 iLogtail 44886 251 110 FluentBit 7131 106 45 -高低水位反压控制 -At-Least-Once语义保证 Pipeline多租隔离 -数据流隔离 -优先级保证 iLogtail在采集速率上优势明显。 ——《性能与可靠的超强碰撞!第三方测评开源日志采集器》 持续的性能突破 内存管理精益求精 事件驱动模型 MemoryArena:减少内存分配 基于时间片调度 ZeroCopy:减少内存拷贝 无锁化 可持久化缓冲 -容忍短时环境异常数据不丢 多语言Plugin引擎 原生插件C++Pipeline 扩展插件GoPipeline 自定义扩展 灵活组合 事件驱动模型 可编程引擎 分类 特点 多语言Plugin引擎 原生插件 C++实现,开发门槛中性能高,资源开销极低较完善的算子能力 扩展插件 Golang实现,开发门槛低较高的性能,资源开销低较完善的算子能力 SPL引擎 SPL引擎 C++实现列式模型,向量化执行性能高,资源开销低全面的算子能力管道式设计,可以处理复杂数据 Input C++/Go 通用数据模型(EventGroup) Flusher C++/Go SPL引擎 Schema-free处理 (parsejson/csv/regex) Schema固定(where/extend) Schema-free处理 (project-away/keep) Task Task Task Task Task 列式模型 向量化执行 动态列 百万级机器管控、灵活分组及采集配置分发支持采集配置、进程配置、自定义命令 开放的管控协议 采集配置1 Collector(IP1) Collector(IP2) Collector(IP5) Collector(IP6) 为不同来源与架构的Agent提供一个标准化、可互操作的框架,促进配置管理的自动化建设。 Collector(IP4) Collector(IP3) IP型机器组 控制台 采集配置2 谁可以管控LoongCollector? 商业版管控(百万级机器管控,企业级稳定性) 开源版管控服务(完全开源,可自由扩展) 托管版管控服务(免运维,敬请期待)任何遵守开源管控协议v2的自有实现管控 CRD商业版管控 增强型机器组(基于ECS属性,即将支持) Collector(TagB) Collector(TagB) Collector(TagA) Collector(TagA) Collector(TagA) Collector(TagA) 标识型机器组(相同user_defined_id) Collector(标识2) Collector(标识2) Collector(标识1) Collector(标识1) Collector(标识1) Collector(标识1) 采集配置3 SDK 大类 子类 LoongCollector FluentBit OpenTelemetryCollector Vector 采集能力 日志 强。采集、处理插件丰富。尤其是K8s友好,在Stdout采集、AutoTagging方面表现优异。 强 中 中 指标 较强。主机等场景原生支持、Prometheus抓取。后续通过eBPF能力持续增强。 中。刚起步。 较强。数据源较全,但是较多处于Alpha阶段。 中 跟踪 中。主要作为代理场景。 中。主要作为代理场景。 强 中 性能与可靠性 性能与资源开销 性能:高。日志场景极简单核400M/s。资源开销:低 性能:高资源开销:低 性能:中资源开销:高 性能:中资源开销:中 可靠性 完善的checkpoint机制多级高低水位反馈队列多租隔离整体资源控制 可选的磁盘缓冲队列完善的checkpoint机制. 可选的磁盘缓冲队列插件统一发送重试框架 缓冲区模型事件确认机制 大类 子类 LoongCollector FluentBit OpenTelemetryCollector Vector 可编程能力 插件开发语言 C++、Go C++、Go、Lua、WebAssembly Go Rust 高级处理语法 SPL处理/编排能力强、性能高 基于SQL的StreamProcessor OpenTelemetryTransformationLanguage(OTTL) VRL Pipeline能力 多语言Pipeline,可组合性高 基于TagMatch实现 基于Connector插件 基于Inputs参数指定上游插件 管控 全局管控 开放的管控协议支持机器组、心跳管理配置热加载能力ConfigServer实现 无 OpAMPServer 无 K8sOperator与CRD 商业版支持,开源敬请期待 FluentOperator OpenTelemetryOperator 无 行业对比 智算服务可观测Pipeline技术实践 智算集群 Ro