CFSTurbo千亿级样本 大模型训练的实践分享 主讲人:杨飞 目录 03 智能预读策略 02 新一代元数据引擎 01 下一代 大模型训练的挑战 01下一代大模型训练的挑战 存储容量(capcacity) 大模型训练面临的挑战 十亿级→百亿级 文件数 千万级→亿级 目录数 MB级→百KB级 平均文件大小 十万级→千万级 单目录文件数量 文件数量(inode) 如何存的下 支持千亿级的文件,性能不衰减 如何提供更好的性能 支持千亿级的文件,性能不衰减 如何更好的应对极端目录结构 单目录千万级目录,或亿级目录单目录下仅存放个位数文件 02 新一代元数据引擎 MetaTurbo 传统的元数据方案设计 传统主备单MDS架构 dir0file00file01dir00 file10dir10file11file12 file20file21file22 MDS0MDS11.单点瓶颈 动态子树均衡多MDS架构 dir0file00file01dir00 file10dir10file11file12 file20file21file22 1.负载不均,热点问题 MDS0MMDDSS12MDS22.无法预知高压力目录 全条带多MDS架构(上一代CFSTurbo元数据引擎) dir0 file00file01dir00 file10dir10file11 file20file21file22 dir0dir01dir02dir0dir01dir02 MDS2 MDS0MDS1 1.目录开销大,无法支持海量目录2.目录性能较差3.无法动态横向扩容 file12 dir0 dir01 dir02 MDS2 新一代自适应条带化目录 dir0 file00 file01 dir00 file02 元数据性能X10 文件OPS:百万级→千万级 目录OPS:万级→10万级 file10dir10file11file12 file20file21file22 file23系统支持文件数量X10 百亿级→千亿级 MDS0MDS1 MDS2 MDS3 …系统支持目录数量X10 MDS4MDS5 … 千万级→亿级 03 智能预读策略 IntelligentRead-aheadPolicy 大模型AI训练阶段示意图——以混元Dit为例 数据整理 基于原始图片,生成对应的索引 数据转换数据清洗 基于过滤条件的yaml,生成dataindex 开始训练 基于index和打包后的文件进行训练 千万级/亿级的 目录 Mdtvolume stat() dentries ls为例 Mdtvolume Readdir()cookies=0 海量训练样本文件的元数据性能问题分析 Bash:ls、du、find… Python:os.listdir()、os.walk()、glob()… 30分钟readdir 15小时stat client server dentries Readdir()cookies=n 智能预读策略 client Readdir()cookies=0 server Mdtvolume dentriesReaddir()cookies=n dentries bulkio&readahead stat() stateaheadthread Mdtvolume Parallel Readdir性能Stat性能 55% 100万文件1.4s返回 8.6倍 100万文件30s返回 THANKS