AI模型时代的多模态数据存储、管理和应用 AlexChen 阿里云智能集团-研究员 2026年亚太地区AI支出 5年复合增长24.5% 2026中国AI 支出占亚太的58% 智能客户服务,业务创新和自动化,销售流程,IT优化,欺诈分析 *Source:IDCWorldwideArtificialIntelligenceSpendingGuide,2023 AI服务器 144TBMem 1EFLOPS DPU 2x200GRDMA 32Core GPU 495TFLOPS 规模复杂度 X软件复杂度 X架构复杂度 万卡集群分布式训练容错多租户隔离和调度 原始数据集 数据收集 数据预处理 反复训练优化 模型模型 训练验证 模型部署 模型部署服务 内容安全 输入 推理场景化 精调 训练数据集 推理结果输出 不断训练优化 模型验证 •内存墙:模型参数量增长10倍 •算力:模型计算量增长68倍 •多模态:从单一的文本(2KB)变成文本、图片(200KB)、音视频(MB)混合 •单个样本的数据量(Token)大幅增加 GPT-3 GPT-3.5 GPT-4-8k GPT-4-32k 2049 4096 8192 32768 模型、参数量 模型参数 计算量 GPT-3(175B) 350GB 314ZFLOPS GPT-4(1800B) 3.6TB 21500ZFLOPS 单个样本的 Token量 GPT-3模型训练内存需求=参数+梯度+优化器+其他>2.8TB>>80GB(A100显存大小)GPU显存几乎没有变化,GPU单卡的算力只增长了3倍 CPU卡 显存大小 计算量 A100/A800 80GB 156TFLOPS H100/H800 80GB 459TFLOPS Initializetraining ListfilesindatasetandshufflePrepareMP&PP 发 Repeat(foreachbatch): ReadfileforthebatchTraining Allreduce Checkpointifnecessary //随机打散数据 //规划模型并发,流水线并 //迭代多轮iteration //读取一批数据用于训练 //所有GPU同步模型参数 //周期性checkpoint 1b模型切片,加载到GPU 5)周期性生成checkpoint 模型并行 …… GPT-3(175B) CPU 4)all-reduce,CPU 更新模型参数 CPU CPU all-reduce FwdBack GPT-4(1800B) …… 3)SGD … 数据并行 1)数据shuffle、切片 2)读取数据集分片 iterations •训练框架利用数据并行、模型并行、流水线并行等技术将数据、模型切片到GPU卡上分布式计算 •每个iteration结束时利用高速网络在所有GPU上allreduce 同步模型参数 •GPU卡规模越大,对高速网络、可靠存储要求更高 模型分片 •算法工程师要经常检查模型质量,如果学习率不够就要利用 checkpoint回溯、参数调优后再继续训练 数据分片 文件类型 •样本数据集:海量小文件,比如Laion-5B数据量250TB,涉及文件数约100亿 文件类型(以200B参数、2064卡为例) •模型文件:16x8GPU节点,128个3GB文件,约384GB •优化器状态文件:2048GPU的zero优化器状态,2048个1.2GB文件,约 2.4TB … CPUs datapart datapart datapart …datapart dataset … CPUs model optimstate optimstate … optimstate checkpoint … CPUs model optimstate optimstate … optimstate checkpoint IOPattern •每个GPU32路并发读 •集群并发读6百万QPS IOPattern •大块写模型文件,16个GPU节点30 秒写完模型文件,单节点写吞吐1GB/s •每张GPU卡单路大块写优化器状态文件,2048卡并发写总带宽48GB/s IOPattern •每张GPU卡单路大块读模型文件、优化器状态文件,并发读总带宽60GB/s 第1帧 第2帧 …… 视频 第T帧 图像分类模型帧特征x1 …… …… 图像分类模型帧特征x2 图像分类模型帧特征xT 平均汇合视频特征z全连接层类别预测 读取文件写小文件 视频文件小文件(特征帧) 读取小文件 小文件 删除小文件 小文件 某客户的视频推理存储性能需求 •分布式元数据:小文件规模最大100亿,具备百万QPS元数据处理能力,比如lookup,getattr,open等 •高性能存储介质和高性能网络:NVMeSSD和2*100GRDMA,checkpoint大块顺序读写,低延时和高吞吐 •P2P分布式读缓存:每张GPU读取同一份模型checkpoint,集群并发读,需要具备最高百GB/s吞吐能力 •数据并行写:每张GPU读写各自的优化器状态,集群并发写,需要具备超过50GB/s吞吐能力 分布式I/O CPFSClientElasticFileClientElasticFileClientElasticFileClient 计算节点并行与所有存储服务器同时读取数据 目录树结构切分到多台服务节点支撑百亿文件 全分布式架构 CPFS 文件锁服务目录树服务 文件锁服务目录树服务 文件锁服务目录树服务 文件锁服务目录树服务 百亿文件下仍可提供超高元数据性能 数据服务 数据服务 数据服务 数据服务 400GbpsLossyRDMA 单集群最大支持2TB/s吞吐,3000万IOPS 单个文件的读写均匀分布至多个存储节点 实现目录树动态的负载均衡避免目录热点 计算服务 .... 万卡GPU集群 GPU服务器GPU服务器 AI应用/PAI-DLC、TensorFlow、PyTorch 应用 客户端支持链接层高可用,链路问题秒级别切换 客户端元数据缓存,查询操作无需跨越网络操作速度提升10倍,与本地EXT4性能相媲美 元数据缓存 ElasticFileClientElasticFileClient 文件客户端 分布式数据读缓存 多链接 .... 元数据缓存 多链接 客户端提供端到端I/O指标,便捷调查访问热点和I/O瓶颈 RDMA 高性能文件存储 CPFS 存储节点 存储节点 存储节点 存储节点 客户端分布式读缓存,有效加速重复访问的热数据读速度,带宽和缓存池随计算规模增大而提升 海量数据的存储成本优化 AI训练 PAI-DLC、Porch、TensorFlow POSIX接口 OSS提供低成本海量数据存储最低0.75分/GB/月 数据块粒度流动,多并发技术可实现百Gbps流动性能 CPFS文件系统 对象接口 OSS冷归OSS档数据和湖存深储度冷归档 OSS数据湖存储 事件驱动的高效元数据同步OSS数据变动在CPFS中分钟级可见 支持配合任务调度预加载或随I/O读取Lazyload 高质量的数据是模型迭代的核心 如何找到高质量数据呢? 生成Bucket维度的元数据管理库支持9大类元数据索引条件筛选 提供5种聚合输出方式 数十亿文件秒级完成数据索引支持Object粒度的搜索与聚合数据更新后10秒内更新至索引池 元数据管理库 存储类型、读写权限、文件名、上传类型、 最后修改时间、文件大小、对象tag、对象Etag、对象版本 元数据组合条件索引自定义聚合输出 秒级返回结果 •通过对存储类型、Object标签及最后修改时间等条件设定,快速完成Bucket的文件扫描 数据管理数据审计数据监管 •实现秒级文件名模糊搜索、数据聚合、按Object标签进行文件筛选等能力 对象存储OSS •提高数据扫描与管理效率 -业务案例:“汽车”“街道”“都市”标签 -但没有“自驾游”这种对内容具有概括能力的语义标签 -业务案例:“服装”“综 艺”“美女”标签 -但没有“明星走秀”这周对视频具有内容语义描述能力的标签 原子标签对视频描述能力不足堆叠标签数量无法满足业务需求 需要使用“原子标签+语义标签”的方式提高视频理解深度 小孩小孩 小孩吃苹果 苹果苹果 全文索引 非结构化数据 图片文本Embedding 信息提取文本提取 时空信息提取 …… 多模态图像描述模型 向量索引 标量索引 以文搜图/视频,图搜图/视频以及“文字+图片”组合搜索精确过滤等多种模态搜索模式 以文搜图、视频、文本、语音 文本分割、问题分析(聊天历史)、答案推理 AIEmbedding 多模型接口(Multi-Model&APIs)+向量API 统一查询接口(SQL) +向量UDF 存储引擎(DataStorage&Index)通道引擎(CDC) 宽表引擎索引引擎 向量引擎(Proxima) 数据订阅数据投递 智能媒体管理 分层共享存储(Auto-tieredStorage) ProxiamSEProxiamDEProxiamCEDashVector 分布式水平扩展全托管 大规模向量索引流式构建向量状态变更即时生效 实现了对大数据的高性能相似性搜索 云原生分布式大规模向量的高性能、高可靠、高可用相似性搜索 支持百万量级TopK向量召回支持多类目召回 基于Proxima内核面对非结构化数据提供高效的向量管理和相似 向量查询功能 快速实现增删改查功能大规模数据低延迟查询自研高效查询算法 支持自定义Schema信息向量+条件过滤组合查询 网盘云相册AI应用社交图库家庭监控 与存储原生集成无需移动,自动处理 文本、图片、视频支持多模态内容审核 数据管理与索引 多媒体处理引擎 语音识别 图片AI AI内容审核 文档转换 文档预览与编辑 数据处理工作流 文件解压缩 故事生成 聚类 索引 场景化构建元数据管理快速实现应用 FPGA硬件实现多种格式编码,热点计算和压缩 对象存储OSS 文件存储NAS 应用层的创新生产效率的提升 让不可能变为可能 •体验是竞争力:1秒的延迟导致7%的用户流失 •业务迭代快:55%应用每周或每天发布更新 •基础设施与架构革新:混合云、云原生容器化微服务DevOps •运维数据多样化:数据容量、种类、可变性增加 •数据联合:融合分析、全链路可观测 •更易使用:无需维护多套系统、易扩展、免运维 •降低噪声:有效通知、便于正确响应 •减少故障时间:自动检测异常、快速根因诊断 DevOps为了调查问题,需花费数小时查找、对比、分析SecOps为了调查Case,需在百TB数据中抽丝剥茧 NL2SQL 智能问答 交互式根因分析 日志自动标注 时序/链路异常检测 智能运维模型 指标异常检测、日志文本智能分词Trace链路高延时诊断 智能问答 分析运维场景多模态数据基于通义千问NL2Query技术 通义模型 Trace基础模型 时序基础模型日志基础模型 人工辅助微调 人工标注、结果打标修正模型根据人工反馈自动微调 通用模型灵活扩展 基础模型开箱即用快速扩容和服务迁移 logmetrictrace 知识 游戏服务系统调用、依赖关系复杂,任何阶段出问题都可能导致游戏操作失败或卡顿,影响玩家用户体验 探测导致Trace高延时或错误的服务关联Log/Trace/Metric,自动检测根因 15:23共有1个入口服务产生2880条慢Trace其中入口服务Front-end的POST/jordrg发现次数最多 共出现2880次占100.0% 在根因分析结果中,主机pay-ment-5b7dBd684b-zjtzv出现比例最高,其中 共出现2892次占34.0% 在根因分析结果中,服务payment出现比例最高,其中 共出现2892次占99.0% 根据服务中的Trace数据自动生成拓扑图 围绕高延时分析、高错误率分析、系统