热门搜索：

阿里云 AI 模型时代的多模态数据存储、管理和应用

信息技术2023-09-15-阿里巴巴董***

AI智能总结

该研报指出，2026年中国AI支出占亚太的58%，智能客户服务、业务创新和自动化、销售流程、IT优化和欺诈分析是主要应用场景。预计到2026年，亚太地区AI支出将以24.5%的复合年增长率增长。AI服务器万卡集群支持分布式训练、容错、多租户隔离和调度，以及大规模、复杂度、软件复杂度和架构复杂度。AI模型时代的多模态数据存储、管理和应用面临内存墙、算力和多模态挑战，需要大量的模型、参数量和计算量。训练框架利用数据并行、模型并行和流水线并行等技术进行分布式计算，每个iteration结束时利用高速网络在所有GPU上all reduce同步模型参数。模型分片、数据分片、all-reduce、更新模型参数和周期性生成checkpoint是训练流程的关键步骤。文件类型包括样本数据集、模型文件、优化器状态文件等，每个GPU卡单路大块读写优化器状态文件，2048卡并发写总带宽为48GB/s。AI模型时代的多模态数据存储、管理和应用需要解决内存墙、算力和多模态挑战，利用数据并行、模型并行和流水线并行等技术进行分布式计算，以及优化训练流程和文件读写。

AI模型时代的多模态数据存储、管理和应用 AlexChen 阿里云智能集团-研究员 2026年亚太地区AI支出 5年复合增长24.5% 2026中国AI 支出占亚太的58% 智能客户服务，业务创新和自动化，销售流程，IT优化，欺诈分析 *Source:IDCWorldwideArtificialIntelligenceSpendingGuide,2023 AI服务器 144TBMem 1EFLOPS DPU 2x200GRDMA 32Core GPU 495TFLOPS 规模复杂度 X软件复杂度 X架构复杂度万卡集群分布式训练容错多租户隔离和调度原始数据集数据收集数据预处理反复训练优化模型模型训练验证模型部署模型部署服务内容安全输入推理场景化精调训练数据集推理结果输出不断训练优化模型验证 •内存墙：模型参数量增长10倍 •算力：模型计算量增长68倍 •多模态：从单一的文本（2KB）变成文本、图片（200KB）、音视频（MB）混合 •单个样本的数据量（Token）大幅增加 GPT-3 GPT-3.5 GPT-4-8k GPT-4-32k 2049 4096 8192 32768 模型、参数量模型参数计算量 GPT-3（175B） 350GB 314ZFLOPS GPT-4（1800B） 3.6TB 21500ZFLOPS 单个样本的 Token量 GPT-3模型训练内存需求=参数+梯度+优化器+其他>2.8TB>>80GB(A100显存大小)GPU显存几乎没有变化,GPU单卡的算力只增长了3倍 CPU卡显存大小计算量 A100/A800 80GB 156TFLOPS H100/H800 80GB 459TFLOPS Initializetraining ListfilesindatasetandshufflePrepareMP&PP 发 Repeat(foreachbatch): ReadfileforthebatchTraining Allreduce Checkpointifnecessary //随机打散数据 //规划模型并发，流水线并 //迭代多轮iteration //读取一批数据用于训练 //所有GPU同步模型参数 //周期性checkpoint 1b模型切片，加载到GPU 5）周期性生成checkpoint 模型并行 …… GPT-3（175B） CPU 4）all-reduce，CPU 更新模型参数 CPU CPU all-reduce FwdBack GPT-4（1800B） …… 3）SGD … 数据并行 1）数据shuffle、切片 2）读取数据集分片 iterations •训练框架利用数据并行、模型并行、流水线并行等技术将数据、模型切片到GPU卡上分布式计算 •每个iteration结束时利用高速网络在所有GPU上allreduce 同步模型参数 •GPU卡规模越大，对高速网络、可靠存储要求更高模型分片 •算法工程师要经常检查模型质量，如果学习率不够就要利用 checkpoint回溯、参数调优后再继续训练数据分片文件类型 •样本数据集：海量小文件，比如Laion-5B数据量250TB，涉及文件数约100亿文件类型（以200B参数、2064卡为例） •模型文件：16x8GPU节点，128个3GB文件,约384GB •优化器状态文件：2048GPU的zero优化器状态，2048个1.2GB文件，约 2.4TB … CPUs datapart datapart datapart …datapart dataset … CPUs model optimstate optimstate … optimstate checkpoint … CPUs model optimstate optimstate … optimstate checkpoint IOPattern •每个GPU32路并发读 •集群并发读6百万QPS IOPattern •大块写模型文件，16个GPU节点30 秒写完模型文件，单节点写吞吐1GB/s •每张GPU卡单路大块写优化器状态文件，2048卡并发写总带宽48GB/s IOPattern •每张GPU卡单路大块读模型文件、优化器状态文件，并发读总带宽60GB/s 第1帧第2帧 …… 视频第T帧图像分类模型帧特征x1 …… …… 图像分类模型帧特征x2 图像分类模型帧特征xT 平均汇合视频特征z全连接层类别预测读取文件写小文件视频文件小文件（特征帧）读取小文件小文件删除小文件小文件某客户的视频推理存储性能需求 •分布式元数据：小文件规模最大100亿，具备百万QPS元数据处理能力，比如lookup,getattr,open等 •高性能存储介质和高性能网络：NVMeSSD和2*100GRDMA，checkpoint大块顺序读写，低延时和高吞吐 •P2P分布式读缓存：每张GPU读取同一份模型checkpoint，集群并发读，需要具备最高百GB/s吞吐能力 •数据并行写：每张GPU读写各自的优化器状态，集群并发写，需要具备超过50GB/s吞吐能力分布式I/O CPFSClientElasticFileClientElasticFileClientElasticFileClient 计算节点并行与所有存储服务器同时读取数据目录树结构切分到多台服务节点支撑百亿文件全分布式架构 CPFS 文件锁服务目录树服务文件锁服务目录树服务文件锁服务目录树服务文件锁服务目录树服务百亿文件下仍可提供超高元数据性能数据服务数据服务数据服务数据服务 400GbpsLossyRDMA 单集群最大支持2TB/s吞吐，3000万IOPS 单个文件的读写均匀分布至多个存储节点实现目录树动态的负载均衡避免目录热点计算服务 .... 万卡GPU集群 GPU服务器GPU服务器 AI应用/PAI-DLC、TensorFlow、PyTorch 应用客户端支持链接层高可用，链路问题秒级别切换客户端元数据缓存，查询操作无需跨越网络操作速度提升10倍，与本地EXT4性能相媲美元数据缓存 ElasticFileClientElasticFileClient 文件客户端分布式数据读缓存多链接 .... 元数据缓存多链接客户端提供端到端I/O指标，便捷调查访问热点和I/O瓶颈 RDMA 高性能文件存储 CPFS 存储节点存储节点存储节点存储节点客户端分布式读缓存，有效加速重复访问的热数据读速度，带宽和缓存池随计算规模增大而提升海量数据的存储成本优化 AI训练 PAI-DLC、Porch、TensorFlow POSIX接口 OSS提供低成本海量数据存储最低0.75分/GB/月数据块粒度流动，多并发技术可实现百Gbps流动性能 CPFS文件系统对象接口 OSS冷归OSS档数据和湖存深储度冷归档 OSS数据湖存储事件驱动的高效元数据同步OSS数据变动在CPFS中分钟级可见支持配合任务调度预加载或随I/O读取Lazyload 高质量的数据是模型迭代的核心如何找到高质量数据呢？生成Bucket维度的元数据管理库支持9大类元数据索引条件筛选提供5种聚合输出方式数十亿文件秒级完成数据索引支持Object粒度的搜索与聚合数据更新后10秒内更新至索引池元数据管理库存储类型、读写权限、文件名、上传类型、最后修改时间、文件大小、对象tag、对象Etag、对象版本元数据组合条件索引自定义聚合输出秒级返回结果 •通过对存储类型、Object标签及最后修改时间等条件设定，快速完成Bucket的文件扫描数据管理数据审计数据监管 •实现秒级文件名模糊搜索、数据聚合、按Object标签进行文件筛选等能力对象存储OSS •提高数据扫描与管理效率 -业务案例：“汽车”“街道”“都市”标签 -但没有“自驾游”这种对内容具有概括能力的语义标签 -业务案例：“服装”“综艺”“美女”标签 -但没有“明星走秀”这周对视频具有内容语义描述能力的标签原子标签对视频描述能力不足堆叠标签数量无法满足业务需求需要使用“原子标签+语义标签”的方式提高视频理解深度小孩小孩小孩吃苹果苹果苹果全文索引非结构化数据图片文本Embedding 信息提取文本提取时空信息提取 …… 多模态图像描述模型向量索引标量索引以文搜图/视频，图搜图/视频以及“文字+图片”组合搜索精确过滤等多种模态搜索模式以文搜图、视频、文本、语音文本分割、问题分析（聊天历史）、答案推理 AIEmbedding 多模型接口（Multi-Model&APIs）+向量API 统一查询接口（SQL） +向量UDF 存储引擎（DataStorage&Index）通道引擎（CDC）宽表引擎索引引擎向量引擎(Proxima) 数据订阅数据投递智能媒体管理分层共享存储（Auto-tieredStorage） ProxiamSEProxiamDEProxiamCEDashVector 分布式水平扩展全托管大规模向量索引流式构建向量状态变更即时生效实现了对大数据的高性能相似性搜索云原生分布式大规模向量的高性能、高可靠、高可用相似性搜索支持百万量级TopK向量召回支持多类目召回基于Proxima内核面对非结构化数据提供高效的向量管理和相似向量查询功能快速实现增删改查功能大规模数据低延迟查询自研高效查询算法支持自定义Schema信息向量+条件过滤组合查询网盘云相册AI应用社交图库家庭监控与存储原生集成无需移动，自动处理文本、图片、视频支持多模态内容审核数据管理与索引多媒体处理引擎语音识别图片AI AI内容审核文档转换文档预览与编辑数据处理工作流文件解压缩故事生成聚类索引场景化构建元数据管理快速实现应用 FPGA硬件实现多种格式编码，热点计算和压缩对象存储OSS 文件存储NAS 应用层的创新生产效率的提升让不可能变为可能 •体验是竞争力：1秒的延迟导致7%的用户流失 •业务迭代快：55%应用每周或每天发布更新 •基础设施与架构革新：混合云、云原生容器化微服务DevOps •运维数据多样化：数据容量、种类、可变性增加 •数据联合：融合分析、全链路可观测 •更易使用：无需维护多套系统、易扩展、免运维 •降低噪声：有效通知、便于正确响应 •减少故障时间：自动检测异常、快速根因诊断 DevOps为了调查问题，需花费数小时查找、对比、分析SecOps为了调查Case，需在百TB数据中抽丝剥茧 NL2SQL 智能问答交互式根因分析日志自动标注时序/链路异常检测智能运维模型指标异常检测、日志文本智能分词Trace链路高延时诊断智能问答分析运维场景多模态数据基于通义千问NL2Query技术通义模型 Trace基础模型时序基础模型日志基础模型人工辅助微调人工标注、结果打标修正模型根据人工反馈自动微调通用模型灵活扩展基础模型开箱即用快速扩容和服务迁移 logmetrictrace 知识游戏服务系统调用、依赖关系复杂，任何阶段出问题都可能导致游戏操作失败或卡顿，影响玩家用户体验探测导致Trace高延时或错误的服务关联Log/Trace/Metric，自动检测根因 15:23共有1个入口服务产生2880条慢Trace其中入口服务Front-end的POST/jordrg发现次数最多共出现2880次占100.0% 在根因分析结果中，主机pay-ment-5b7dBd684b-zjtzv出现比例最高，其中共出现2892次占34.0% 在根因分析结果中，服务payment出现比例最高，其中共出现2892次占99.0% 根据服务中的Trace数据自动生成拓扑图围绕高延时分析、高错误率分析、系统

点击免费查看完整报告