大模型存储基础设施 数据湖存储GooseFS 主讲人:林楠 腾讯云高级产品经理 统一的数据湖存储服务是企业存储的未来形态 降本增效:更大、更快、更全能、更低成本的存储服务 52% 60% 90% 68% • • • 数据 企业数据的生产、存储和消费模式日新月异数据湖存储天然适用于企业级统一存储池 数据源丰 富多样 数据模式 变化快 数据质量 不可靠 数据处理 • • 存储 • • 协议 时间长 • • 敏捷 海量 EB级扩展能力 • 百EB 可靠 高持久性和可用性 • 成本 更低的边际存储成本 • 对象存储 对象存储为数据湖提供经济、可靠的海量存储能力 大模型重塑存储基础设施 TraingComputePFLops 1010 109 108 107 106 105 XceptionInceptionV3 MTNLG530BGPT-3175B MicrosoftT-NLGGPT-21.5B XLNet Xception BERTLarge GPTMoE1.8T ChinchillaBLOOM PaLM RawDataSize 百PB 级 32X 1X 计算 20202024 104 103 VCG-19 AlexNet Resnet DenseNet201 GPT-1 Transformer ELMo 网络 10X 1X TB级 102 2012201420162018202020222024 20202024 存储大模型的存储需求? GPU GPU GPU GPU 显存 显存 显存 显存 GPU GPU GPU GPU 显存 显存 显存 显存 从GPU到存储:如何跨越基础设施之间的性能鸿沟? •,数据规模决定模型精度,存储性能影响算力效率。 。 •规模、性能、稳定 。 •海量数据需求和极致性能需求 RDMA 网卡 RDMA 网卡 RDMA 网卡 RDMARDMA 网卡网卡 RDMA 网卡 RDMA 网卡 RDMA 网卡 NVLink/NVSwitch 对象存储服务 GPU实例 GPU实例 Node GPU实例 接 入 Node 层 PCIe Node VPC网卡 内存 CPU Chipset 本地 NvmeSSD HDD盘 HDD盘 HDD盘 HDD盘 HDD盘 HDD盘 HDD盘 HDD盘 HDD盘 HDD盘 HDD盘 HDD盘 节点间通信机房间通信节点间通信 数据湖存储GooseFS:打通数据从存到用的最后一公里 服务端加速 对象存储COS 计算端加速 计算节点 大带宽 低延迟 高OPS 更高的元数据性能 • • 更低的访问时延 • • 更大的数据吞吐 • 可达百万级 亚毫秒级 优化前 优化后 •备机读扩展 •流量均衡 元数据性能平行扩展 高性能元数据引擎实现,大幅提升元数据性能 元数据规模平行扩展 挑战方案收益 优化前 平行扩展至百亿级 •元数据Hash散列•元数据分层压缩 优化后 数据亲和性调度,大幅缩短数据IO距离 利用数据本地性,大幅度减少IO距离和访问延迟 亲和性调度 对象存储 计算集群 数据吞吐 • • 多协议支持 • • 统一腾讯云生态服务 • • • 云原生管控能力,助力提升业务连续性 提供多种托管部署模式,提升集群稳定性和运维效率。 业务需求 技术收益 业务诉求 客户案例:某客户大模型集群 方案说明 客户价值:作业性能数倍提升 THANKS