登录
注册
回到首页
AI搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP权益
发现大使
发现一下
热门搜索:
AIGC
Chatgpt
大模型
新质生产力
低空经济
DeepSeek
当前位置:首页
/
行业研究
/
报告详情
/
9-2 阿里云云原生深度学习平台 PAI-DLC 实践与落地
信息技术
2022-11-01
DataFunSummit2022:现代数据栈技术峰会
王***
AI智能总结
查看更多
阿里云云原生深度学习平台PAI-DLC实践与落地
一、机器学习平台需要具备的能力
数据处理
:包括数据预处理、特征处理、数据增强等。
模型开发
:涵盖传统机器学习算法和深度学习算法,支持多种算法框架和自定义算法框架。
模型训练
:支持多种数据存储和异构硬件。
模型部署
:支持多种推理框架和自定义推理框架。
二、机器学习平台PAI产品架构
用户管理
:包括用户认证、权限管理和Web UI。
资源管理
:支持容器化和Kubernetes(ACK),实现资源管理、资源利用率和弹性训练。
数据自治
:支持AutoML和数据自治。
弹性可复现
:支持多级Quota管理和资源配额。
三、深度学习平台PAI-DLC架构
核心组件
:Kubernetes(ACK)、Device Plugin、CRIC、NICSI Plugin、Persistent Agent、DLC Operator、Kube-Queue Operator、KubeDLOperator、DLC Service。
容器化引擎
:支持自定义镜像和完整CI/CD流程。
开放API
:支持统一定义资源和权限,实现模块间调用。
AI负载调度
:
默认调度器:依次调度Pod。
AI&大数据任务:多个Pod必须同时配合执行。
调度策略:包括All-or-Northing、Binpack和Capacity Scheduling。
GPU虚拟化
:
显存隔离、算力隔离和故障隔离。
支持双维度显存和算力独立切分。
兼容性:Linux操作系统、CUDA、Driver,硬件支持T4/P100/V100/A100/A10/2080等。
性能:线上业务测试QPS无损失,长尾RT增加约4%。
GPU共享调度
:
按照最小0.1卡的方式创建实例。
支持指标采集(gpu-exporter)、Quota记账和单机多卡/多机多卡场景。
EasyScale弹性训练框架
:
精度无损弹性训练。
GPU Worker支持分时复用。
支持异构场景。
数据访问
:
存储介质:OSS、NAS、CPFS等。
挂载方式:本地挂载、PVC挂载。
数据加速:Fluid(Alluxio/JindoFS)Runtime缓存引擎。
数据安全隔离:通过Namespace进行隔离。
可观测性
:
Node节点日志和事件采集。
Node Exporter、GPU Exporter、Prometheus Custom Exporter。
RDMA/cAdvisor指标采集。
Tensorboard可视化。
四、未来展望
MLOps。
离线在线混部及统一调度器。
国产化芯片。
标准化。
查看更多
你可能感兴趣
移动云(陶捷):海山数仓:移动云云原生OLAP数据库的技术演进与实践
信息技术
-
2024-08-26
9-2 阿里云物联网平台技术解读与实践
信息技术
DataFunSummit2022:大数据存储架构峰会
2022-07-19
阿里云云原生架构容器微服务优秀案例集
阿里巴巴
2023-03-08
2024腾讯云云原生客户案例实践集
腾讯
2025-02-21
微信云原生大数据平台构建及落地实践-涂小刚
信息技术
ArchSummit上海2023|全球架构师峰会
2023-06-06