DAMSiops 中国数据智能管理峰会 DATA&AIMANAGEMENTSUMMIT 业用途 得转载, pse 小米AI数据管理落地实践 演讲人何婵 AboutMe 何婵Aiops 严禁商业用途 小米数据开发平台产品负责人 武汉大学硕士,加入小米4年 Databa 负责Mi-DataWorks一站仅式数供据生学产平习台不得转 DAMS中国数据智能管理峰会 本次分享要点 回顾➶米表格数据管理方案 ➶米”Data+Al“✁设背景与思路 仅供学习不得转载, 平台落地实践与收益 Datab Aiops 禁商业用途 DAMS中国数据智能管理峰会 Aiops 途 01➶米表格数据管理方案概述 Datab仅as供e学习不得转载, DAMS中国数据智能管理峰会 ➶米集团一站式大数据开发平台,面向数据开发工程师、算法工程师、数据分析师等群体提供全链路的分布式基础设施,助力各业务实现数据驱动决策 数据工场 数据 开发数无佳中心数开发中心 数据采费A中 TtT:CreTic 大数据开发平台架构图隐私 ASR DAMS中国数据智能管理峰会 表格数据的统一元数据方案 SparkFlinkHiveSQLPresto数据集成 统一元数据MetaCatcatalog.database.table HiveIcebergKuduMySQLDorisES DAMS中国数据智能管理峰会 >数据管理核心能力:统一元数据管理、SQL/Scala开发能力、统一作业调度、智能运维监控等 》数据治理核心能力:数据血缘链路、权限管理、产出作业、成本管理、生命周期管理 数据开发页面示例数据治理页面示例 DBI工S tdia DAMS中国数据智能管理峰会 02➶米"Data+Al"✁设背景与思路 Datab仅as供e 学习不得转载 DAMS中国数据智能管理峰会 看自己:我们的Data和Al平台的现状 Data平台(大数据开发平台)与AI平台(Al训推平台)的链路割裂,权限不互通,多个平台通过HDFS文件路径对接,存在路径使用不规范、无法追溯审计、无法治理等问题。 统一空用 BIB6 一开发 (Mecatat) 表格数据开发体系(Hive/lceberg)非表格数据开发体系(HDFS/JuiceFS) DAMS中国数据智能管理峰会 从数据使用看:存储类型多、体量大、使用不规范 Butcket多 Butcket大 百PB级别非表格数据 Databo 仅供学习不 归属不清晰 存储成本高 问置惠产天法下 DAMS中国数据智能管理峰会 从算法开发流程看:算法工程师开发流程卡点多 横跨5个平台历经10次跳转数据反复授权直连底层存储 热据处理 (HDFSHIR) 入平8 Pytho Python/Scall Python/Scala(Spark) Hive/nceoergSID PCPUA (SQU DAMS中国数据智能管理峰会 算法数据资产管理痛点 安全隐私有风险01 大量AI数据资产在本地管理,无法进行有效缺乏算法代码调试环境 的管控、审计,安全隐私风险极大 在本地开发环境调试模型训练的代码,并将 AI数据资产管理代码打包上传至训练平台,操作繁 数据使用效率低下02迫在眉睫 存储类型多(HDFS、FDS、JuiceFS、NAS、 KS3等),业务往往需要对接多种类型存储 资产难治理03 仅供学习不 05Al&Data体系割裂 AI+Data快速融合的大趋势下,缺少一个平台能同时承载AI数据开发和大数据开发 血缘缺失导致无法有效治理AI数据资产 浪费(一数多存)、低价值(冷数据热存、过期未清理)普遍存在 DAMS中国数据智能管理峰会 "Data+Ai对数据开发平台能力提出新要求 DataA ·数据处理对象主要是表格数据数据处理对象主要是文件路径 ·以SQL语言为主,进行数据ETL过程。需要更强大的Python处理能力,进行 数据实验调试过程 相通之处 大得转卖 ·都有数据资产管理和治理的需求 都需要DataPipeline,从数据开发调试到数据发布上线 DAMS中国数据智能管理峰会 我们的Data和Al平台融合的设计思路 数据可追溯 数据可管理 资产可治理 平台可联通 知道每个资源单元的写入&读取的人 知道每个资源单元的归属、计 可通过文件生命周期等配 规供Data+AI的在线开发环境, 和时间 费单元、文件配膜 置,对历史文件冷备、对过期文件删除 联通AI开发链路,提升开发效率 关键事项 ①数据的采集与资产的盘点统②统一数据访问及认证、审计③数掘的加速与性能升级 DAMS中国数据智能管理峰会 统一元数据管理解决方案:Fileset catalog.database.table UniyCatalog TableFilesetModel iceberg_ziyprc_hadoop.tmp.testfileset_ziyprc_Hadoop.tmp.test HDFSLavaFSJuiceFS DAMS中国数据智能管理峰会 在线开发解决方案:PythonNotebook web Notebook 文件日录代码编辑结果输出资源/环境配置 Sever 权限认证资源管理runtime管理平台交互 Runtime scalar SQLPythonShell其他语言 DAMS中国数据智能管理峰会 Aiops 03平台落地实践与收益 Datab仅as供e学习不得转载, DAMS中国数据智能管理峰会 Data+AI数据开发平台的产品架构 adoepHadeepin DAMS中国数据智能管理峰会 核心功能①:非表格数据管理 ap Fileset管理列表本地文件上传文件数据在线预览 严禁商业用途 Bigd esr 业务收益①无须直连存储系统②规范文件使用③空间成员协作 DAMS中国数据智能管理峰会 核心功能②:非表格数据治理 Flieset数据血缘链路Fileset冷热数据分析Fileset权限管理 ++-. 数据趋势 TEN 业务收益①资产管理更透明②资源管理有依据③资产管理有手段 DAMS中国数据智能管理峰会 核心功能③:Notebook在线开发 Notebook代码调试环境Runtime在线管理代码在线协作 商业用途 业务收益①统一Runtime管理②Python/Scala调试环境③空间成员协作 DAMS中国数据智能管理峰会 核心功能④:AI开发➶助手 大 开发助手作业运维诊断平台智能助手 113 2在S(tisoit,爱生了ylisgbgtin2F美,m大 728606381 BMR 业务收益①写代码更快②任务排查更快③平台上手更快 DAMS中国数据智能管理峰会 常见问题①:Notebook在开发流程中的定位 NotebookSQL查询开发作业 *定位:·定位: 0解决非表格化数据处理最后一公里的问题。提供表格数据的数据分析能力 定位: 0提供Spark/Flink/Cloudml作业的调度能力 o提供基于Spark的分布式数据处理能力支持Spark/Presto等引擎。提供SQL语言的调试能力 。不适用于单机的模型训练 ·支持语言: ·支持语言:SQL oSQL/Python/Scala/Markdown ·处理对象: 处理对象:Iceberg/Hive/Doris等 Fileset(HDFS/LavaFS/JuiceFS)oIceberg/Hive 总结 ,SQL查询与Notebook:相同点是都支持SQL语言和表格数据处理能力。不同点是SQL查询是交互式分析,Notebook是更强大报表式分析、同时提供算法开发 ·SQL查询Notebook与开发作业:SQL查询和Notebook都是调试环境,而开发作业提供定时调度、运维监控等能力 DAMS中国数据智能管理峰会 常见问题②:Notebook在Data、Al平台的作用 NotebookAiops 严禁商业用途 O 数据平台AI平台 工场NotebookAI工作台 ·AI数据处理,包括数据探索、提取特征等·A根型训炼,包活模型训练、模型评测等 ·资源以CPU为主资源以GPU为主 DAMS中国数据智能管理峰会 DAMSiops 中国数据智能管理峰会 DATA&AIMANAGEMENTSUMMIT 业用途 tabse THANK.YOU! 得转载,