热门搜索：

面向智算服务构建下一代可观测Pipeline

2024-11-22徐可甲全球软件开发大会王***

演讲人：徐可甲目录 01 云原生智算服务关键技术 02 智算服务可观测需求与挑战 03 下一代可观测Pipeline 04 智算服务可观测Pipeline技术实践 05 未来展望云原生智算服务关键技术数据准备模型构建模型推理持续发布开发弹性探索模型训练调优提效 •AI在计算机视觉、语音、NLP等领域取得突破，已深入影响各行各业，并催生出了自动驾驶等领域。 •AI服务上云形成趋势，深度学习/AIGC应用广泛采用容器等云原生技术。深度学习的特点 •端到端流水线–Rawdatain,executablemodelout •持续迭代优化–梯度下降,超参数调优,Prompt工程 •任务长时运行–小时/天/周/月 •消耗海量数据和大量算力大模型对基础设施服务能力的挑战是阶跃式的。对“规模、性能、效率”的要求，成为LLM/AIGC快速落地的高门槛。效率 •资源效率：高利用率、弹性可扩展 •工程效率：持续快速迭代性能 •训练：单卡->分布式、混合并行加速 •推理：模型优化、服务质量Qos 规模 •算力：千卡GPU任务，万卡集群 •数据：PB级存储，TB级吞吐 •网络：800Gbps–3.2TbpsRDMA 模型参数量每年10倍指数级增长 AI 工程异构硬件 AI工程通常需要多样化的硬件支持。动态分布式计算 AI工程中的计算需求常常具有高度的动态性，如模型训练和推理负载会随数据量和算法复杂度变化。资源隔离性 AI工程通常涉及多个团队，不同任务需要独立的资源隔离，避免资源竞争导致性能下降。环境一致性 AI工程需要在不同环境（如开发、测试和生产环境）中保持一致性。快速迭代 AI模型和算法需要频繁更新和快速迭代。设备插件灵活扩展支持各种设备插件，允许轻松将不同类型的硬件资源集成到集群中。资源调度与弹性伸缩 K8s强大的调度能力，根据实际负载自动调整Pod数量，实现计算资源的动态分配与回收。命名空间与资源配额通过命名空间和资源配额确保不同任务的资源独立性。容器化应用管理通过容器化技术，确保在不同环境中运行的AI应用具有一致的运行环境，避免因环境差异引发的问题。持续集成与持续部署（CI/CD）与CI/CD工具的集成，支持自动化构建、测试和部署流程。计算网络存储 CPU、内存 GPUDevice-Plugin RDMA网络海量小文件数据集读取 Checkpoint大文件读写 AI工程向云原生架构演进云原生架构的容器服务支撑AI智算基础底座传统架构 •资源管理分散、资源利用率低 •无法弹性伸缩 •生产流程割裂、效率低 •团队协作、共享困难云原生架构 •资源池化：弹性、灵活 •生产流程高效闭环 •可观测手段丰富 •多角色协同，加速迭代在云原生架构的Kubernetes集群中管理调度GPU、NPU、RDMA等高性能异构资源，以容器化方式开发、运行AI、大数据任务，部署AI推理服务。开发模型训练模型发布模型 AI工程平台存储池 GPU池更快的创新与迭代更高的稳定性更弹性的算力到2025年，接近50%的企业内部的数据密集型或性能密集型计算工作负载都将迁移到云原生架构上。云原生AI 利用云计算的弹性资源、异构算力以及容器、自动化、微服务等云原生技术，提升AI/ML的工程效率，降低整体成本，提高可扩展性，并实现端到端的解决方案。算法与场景框架 AI异构工作负载 TensorflowPytorchDeepspeedHuggingfaceLangchain 统一工作流，统一调度 DockerKubernetesKubeflowKserveFluidMLFlow 统一资源管理持续优化利用率统一管理统一任务调度保障规模与性能 GPU异构管理与弹性伸缩 GPU共享单卡共享：模型推理场景多卡共享：分布式模型训练 GPU监控 GPUExporter+NodeProblemDetector All-or-Nothing任务任务组（Gang）内的所有任务必须同时调度和执行将任务打包到尽可能少的节点上，提高资源的使用效率。解决多租集群固定资源分配下，不同用户使用周期不同导致资源浪费问题。智算服务可观测需求与挑战 AI生产环境稳定性保障 GPU坏卡检测&自愈模型性能优化资源利用率提升云原生智算服务系统分层架构可观测数据驱动 IDC 云容器平台异构资源管理高性能计算、存储、网络任务调度和流水线 AI框架和运行时优化任务性能优化 AI作业生命周期管理工具链、API 生态扩展、集成模型训练可观测人工智能平台PAI （PaaS）模型推理可观测容器可观测容器服务ACK （CaaS）云资源监控智算服务PAI-灵骏（IaaS） CPU利用率、GPU利用率、GPU监健康状态、磁盘利用率、存储(CPFS)I/O、网络(RDMA)、GPU物理指标 Workload可观测、控制面可观测、GPU监控、Ingress监控、AI套件、异构算力、事件、审计 AB测试模型监控 RAG诊断数据质量模型任务监控模型评估 • • • • • • 迫切需要一款采集器： ••全面的数据采集能力、灵活的数据处理 •强大的弹性能力 •性能好、资源开销低、稳定可靠 •支持多租 •管控能力强，易用 iLogtail 下一代开源可观测Pipeline 下一代可观测Pipeline 多租隔离广泛的数据接入高性能高可靠可编程性可管控性云原生支持定位 LoongCollector是一款集卓越性能、超强稳定性和灵活可编程性于一身的数据采集器，专为构建下一代可观测性数据传输Pipeline设计。 1、可观测性统一Agent（UnifiedObservabilityAgent） 2、端到端可观测Pipeline（End-to-EndObservabilityPipeline） Star1.7K装机量1000W数据量100PB/天日志采集日志处理 iLogtail 可观测数据采集 SCOPE 本地计算扩展服务发现环境协议中间件 SLS Logs MetricsTraces 输入输出 Telemetry Profiles Events 设计注重性能与可靠性一个轻量、高效、稳定、可靠的架构，能够实现高吞吐量，同时保持较低的CPU和内存开销。通用反馈队列机制日志流量日志生产速率 Agent 采集速率(/s) CPU(%) 内存(MB) Filebeat 14530 722 205 45000/slogmock Vector 19630 195 81 Rsyslog 28438 123 17 50M 参数：logs-per-sec=1000pod=15 iLogtail 44886 251 110 FluentBit 7131 106 45 -高低水位反压控制 -At-Least-Once语义保证 Pipeline多租隔离 -数据流隔离 -优先级保证 iLogtail在采集速率上优势明显。 ——《性能与可靠的超强碰撞！第三方测评开源日志采集器》持续的性能突破内存管理精益求精事件驱动模型 MemoryArena：减少内存分配基于时间片调度 ZeroCopy：减少内存拷贝无锁化可持久化缓冲 -容忍短时环境异常数据不丢多语言Plugin引擎原生插件C++Pipeline 扩展插件GoPipeline 自定义扩展灵活组合事件驱动模型可编程引擎分类特点多语言Plugin引擎原生插件 C++实现，开发门槛中性能高，资源开销极低较完善的算子能力扩展插件 Golang实现，开发门槛低较高的性能，资源开销低较完善的算子能力 SPL引擎 SPL引擎 C++实现列式模型，向量化执行性能高，资源开销低全面的算子能力管道式设计，可以处理复杂数据 Input C++/Go 通用数据模型（EventGroup） Flusher C++/Go SPL引擎 Schema-free处理 (parsejson/csv/regex) Schema固定(where/extend) Schema-free处理 (project-away/keep) Task Task Task Task Task 列式模型向量化执行动态列百万级机器管控、灵活分组及采集配置分发支持采集配置、进程配置、自定义命令开放的管控协议采集配置1 Collector(IP1) Collector(IP2) Collector(IP5) Collector(IP6) 为不同来源与架构的Agent提供一个标准化、可互操作的框架，促进配置管理的自动化建设。 Collector(IP4) Collector(IP3) IP型机器组控制台采集配置2 谁可以管控LoongCollector？商业版管控（百万级机器管控，企业级稳定性）开源版管控服务（完全开源，可自由扩展）托管版管控服务（免运维，敬请期待）任何遵守开源管控协议v2的自有实现管控 CRD商业版管控增强型机器组（基于ECS属性，即将支持） Collector(TagB) Collector(TagB) Collector(TagA) Collector(TagA) Collector(TagA) Collector(TagA) 标识型机器组（相同user_defined_id） Collector(标识2) Collector(标识2) Collector(标识1) Collector(标识1) Collector(标识1) Collector(标识1) 采集配置3 SDK 大类子类 LoongCollector FluentBit OpenTelemetryCollector Vector 采集能力日志强。采集、处理插件丰富。尤其是K8s友好，在Stdout采集、AutoTagging方面表现优异。强中中指标较强。主机等场景原生支持、Prometheus抓取。后续通过eBPF能力持续增强。中。刚起步。较强。数据源较全，但是较多处于Alpha阶段。中跟踪中。主要作为代理场景。中。主要作为代理场景。强中性能与可靠性性能与资源开销性能：高。日志场景极简单核400M/s。资源开销：低性能：高资源开销：低性能：中资源开销：高性能：中资源开销：中可靠性完善的checkpoint机制多级高低水位反馈队列多租隔离整体资源控制可选的磁盘缓冲队列完善的checkpoint机制. 可选的磁盘缓冲队列插件统一发送重试框架缓冲区模型事件确认机制大类子类 LoongCollector FluentBit OpenTelemetryCollector Vector 可编程能力插件开发语言 C++、Go C++、Go、Lua、WebAssembly Go Rust 高级处理语法 SPL处理/编排能力强、性能高基于SQL的StreamProcessor OpenTelemetryTransformationLanguage（OTTL） VRL Pipeline能力多语言Pipeline，可组合性高基于TagMatch实现基于Connector插件基于Inputs参数指定上游插件管控全局管控开放的管控协议支持机器组、心跳管理配置热加载能力ConfigServer实现无 OpAMPServer 无 K8sOperator与CRD 商业版支持，开源敬请期待 FluentOperator OpenTelemetryOperator 无行业对比智算服务可观测Pipeline技术实践智算集群 Ro

点击免费查看完整报告

你可能感兴趣

面向智算服务构建下一代可观测Pipeline

你可能感兴趣

Oracle 推出面向多云和本地环境的可观测性和管理云平台

面向一云多芯的智能云网全景可观测系统建设

【财联社早知道】重磅!谷歌正在开发安卓原生的卫星通信功能，这家公司已形成“芯片模块终端平台系统解决方案”的全产业链;这家GPU龙头面向Al训练、AI推理等领域的高性能智算模块及整机产品研发成功-20240313

2024面向 AI 智算数据中心网络架构与连接技术的发展路线展望白皮书

面向AI大模型的智算中心网络演进白皮书（2023年）