登录
注册
回到首页
AI搜索
发现报告
发现数据
专题报告
研选报告
定制报告
VIP权益
发现大使
发现一下
热门搜索:
新能源车
AIGC
Chatgpt
大模型
新质生产力
低空经济
当前位置:首页
/
行业研究
/
报告详情
/
字节跳动云原生机器学习离线训练实践_单既喜
文化传媒
2022-07-19
ArchSummit深圳2022|全球架构师峰会
董***
AI智能总结
查看更多
字节跳动云原生机器学习离线训练实践总结
业务背景与架构
推荐、广告、搜索
等业务背景
计算引擎
:自研的Lagrange和Lagrange-Lite深度学习训练框架
数据处理框架
:HDFS、Kafka、Iceberg等
调度系统
:Primus、Kubernetes、YARN、Reckon等
离线训练架构演进
架构 1.0
:
集中式离线训练
服务化Parameter Server (PS)
Docker on YARN
性能提升
:从0到150万vCores
架构 2.0
:
分布式离线训练
伴生PS
声明式API
Top 3离线计算框架
:Spark、Flink、Primus
架构 3.0
:
集中式API Server + CRDs
自研Godel (Kubernetes)
资源利用率提升
:30%
云原生离线训练架构UI
作业规模
:10000作业/天
vCore总量
:400万vCore
K8s作业规模
:30万vCore
单最大作业数
:4000
计算调度与数据编排
多角色+异构微服务计算调度
容器化弹性API-Server
复杂数据源
:HDFS、Feature Store、Kafka
编排策略
:Group By、Filter、Shuffle Within Partition、Global Shuffle
弹性调度
混部
:智能资源利用,CPU利用率从20%提升到70%
慢启动
:提高训练速度
潮汐/反潮汐训练
:更大资源池
数据传输实践
IPC
:匿名管道、Domain Socket、共享内存、JNI
性能提升
:总吞吐量从3.3GB/S提升到13.5GB/S,单节点吞吐率从411MB/S提升到1.2GB/S
案例与最佳实践
服务化PS vs. 云原生PS
:PS Gang调度、服务发现、性能优化、SavePoint机制
Primus Flow
:特征调研、行级Shuffle、边计算边训练
批流一体
:支持多种数据源、多数据流编排
计算管理
:识别退出码、资源问题
数据管理
:样本丢失或重复问题
总结
核心优势
:超大规模容器化、多环境API声明式API、计算能力和数据处理能力
主要技术
:Primus Flow、Primus Streaming批流一体、超大规模混部训练、Primus Native
应用效果
:显著提升了计算和数据处理效率,实现了高效资源利用和灵活调度。
你可能感兴趣
04-美团大数据及机器学习基础设施云原生改造实践-吴通
信息技术
ArchSummit北京2023|全球架构师峰会
2023-06-06
云原生存储 CubeFS 在大数据和机器学习的探索和实践-唐之享
信息技术
ArchSummit上海2023|全球架构师峰会
2023-06-06
云原生离线在线资源混部实践
中国数据智能管理峰会
2023-04-15
字节跳动云原生微服务架构原理与开源实践
信息技术
CloudWeGO
2023-11-07
李汉波-字节跳动基于 KubeAdmiral 的多云分布式云原生实践之路
信息技术
2024 第23届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 北京站
2024-07-17