大模型训练的实践分享
杨飞主讲人:
大模型训练面临的挑战
十亿级→百亿级文件数
千万级→亿级目录数
MB级→百KB级平均文件大小
02新一代元数据引擎Meta Turbo
传统的元数据方案设计
1.目录开销大,无法支持海量目录2.目录性能较差3.无法动态横向扩容
新一代自适应条带化目录
文件OPS:百万级→千万级目录OPS:万级→10万级
系统支持文件数量X10百亿级→千亿级
系统支持目录数量X10千万级→亿级
03智能预读策略Intelligent Read-ahead Policy
大模型AI训练阶段示意图——以混元Dit为例
数据清洗
数据转换
开始训练
数据整理
基于index和打包后的文件进行训练
基于过滤条件的yaml,生成dataindex
基于原始图片,生成对应的索引
智能预读策略
大模型训练的实践分享
杨飞主讲人:
大模型训练面临的挑战
十亿级→百亿级文件数
千万级→亿级目录数
MB级→百KB级平均文件大小
02新一代元数据引擎Meta Turbo
传统的元数据方案设计
1.目录开销大,无法支持海量目录2.目录性能较差3.无法动态横向扩容
新一代自适应条带化目录
文件OPS:百万级→千万级目录OPS:万级→10万级
系统支持文件数量X10百亿级→千亿级
系统支持目录数量X10千万级→亿级
03智能预读策略Intelligent Read-ahead Policy
大模型AI训练阶段示意图——以混元Dit为例
数据清洗
数据转换
开始训练
数据整理
基于index和打包后的文件进行训练
基于过滤条件的yaml,生成dataindex
基于原始图片,生成对应的索引
智能预读策略