小米数据生产平台产品设计思考与实践 目录 CONTENT 01数据生命周期全流程介绍 02 技术驱动型产品的设计与协同经验方法论 03 小米一站式数据生产平台的产品建设思路 01 数据生产到应用的生命周期 全流程介绍 数据全⽣命周期流程 产生 收集 存储 处理 数据生产链路 应用 举个栗⼦ 雨、江河湖海等自然产生的、源源不断的水 建堤修坝、水库水渠,将自然水分流收集、存储 净化、过滤、消毒、去污饮用、灌溉、生活 数据的产⽣ 产生 收集 存储 处理 应用 ⽣活中的各种⾏为都在产⽣着各种各样的数据 线上(主要):联⽹的智能终端,如⼿机/电脑/⼿表/电视等 ⽀付/收藏/转发/播放/点赞….各种功能操作 滑动/缩放/打开/关闭/拖拽….各种点击或浏览⾏为 线下:基于⾮智能设备或终端产⽣ 逛店/运动/饮⻝/⾳乐…. 各种线下活动 拍照/录⾳/绘画/连接/ 体感….各种实体⾏为 数据的收集 产生 收集 存储 处理 应用 数据的收集是将不同业务系统、终端、源头的数据实现互联互通 线上⾏为采集(端上) •客户端:Web、Andorid、iOS、 Windows •服务端:⽇志、消息 线下⾏为采集(物联⽹) •硬件联⽹:Wi-Fi、传感器、摄像头等等 •传统:问卷、登记 外部数据采集-爬⾍; 业务系统数据同步-跨源MysqltoHive、异构MQtoHive 使⽤场景 (吃/穿/⽤) 查询/扩展/并发 数据的收集 产生 收集 存储 处理 应用 ⽣活中,我们选择⼀个存储物品的容器时,⼀般会考虑哪些因素? 形状/样式/形态 (⽅/圆/固体/液体) 数据格式/结构 规模 (⼤⼩/数量) 数据存储容器的选择也类似 数据⼤⼩/条数 成本 (资⾦/ROI) 存储/计算成本 数据的存储 产生 收集 存储 处理 应用 根据数据的结构、规模、使⽤场景、成本等信息,选择不同的数据存储介质 存储类型 举例 关系数据库 Oracle、MySql、SQLSever、Greenplum NoSQL存储 HBase、Redis、ES、MongoDB 网络及消息队列 Kafka、Talos、RMQ、Http 文件系统 HDFS、FTP、CSV、TXT、Excel 大数据存储 Hive、Iceberg、Hologres、Doris 数据的处理 产生 收集 存储 处理 应用 将汇聚后的原始、堆砌状态的数据进⾏资产内容建设、加⼯处理后使其产⽣业务价值 处理过程 对数据抽取、转换、加 载(ETL),分层建设 关键内容 在各个环节对数据进⾏ 「清洗」 开发方式 ⼀般分为离线开发、实 时开发、算法开发 数据的处理——ETL 将原始,混乱的数据转化为干净,新鲜和可靠的数据的,使其更易于使用,方便从中获取业务见解 SQL:结构化的查询语句 ETL:源端-抽取-转换-加载-目标 数仓分层:归纳整理、化繁为简、减少重复、提升效率 所有关系型数据库的公共语⾔;⽤于存取数据以及查询、更新和管理关系数 据库系统 数据的处理——清洗 产生 收集 存储 处理 应用 提到“清洗”,⽐如洗⾐服⼀般是在做什么?1、洗掉脏东⻄ 2、去除多余 3、补好缺漏 4、晒⼲整理 数据清洗的核⼼: •问题数据的补充、调整 •冗余数据的查重、映射 •数据的整理、统⼀ 数据的处理——离线实时 分类 离线开发 实时开发 基本定义 ⼀般是批处理,批量处理⼀个范围内的数据 ⼀般是流处理,数据如⽔流般产⽣⼀点处理⼀点 时延性 要求不⾼,⼀般周期很⻓(天/周/⽉/年) 毫秒/秒级延迟 数据来源类型 历史已存在的数据 源源不断产⽣的数据 应⽤场景 ⼤数据分析、模型训练、排序索引等 秒杀/抢购、实时数据看板等 ⽔先存蓄起来,然后集中处理或批量 ⽤于发热发电 ⾬⽔落下后直接进⾏分流、去污,转化⼊河 ⼩⽶的数据⽣产平台架构 产生 收集 存储 处理 数据生产链路 应用 数据管理 治理中心 资产目录 数据地图 安全中心 数据质量 核⼼能⼒ 统⼀数据采集与集成 多引擎存储 离线实时计算 分析运维与应 ⽤ 基础服务 元数据 权限 调度器 集成引擎 底层引擎 计算引擎 存储引擎 02 技术驱动型产品的 产品设计与研发协同方法论 数据⽣产平台是技术驱动型产品 技术驱动型产品的核⼼特征 以技术为核⼼竞争⼒ •强依赖技术架构的实现 •技术创新为核⼼导向 •重性能和稳定性 ⽤户以技术⼈员为主 •⾯向技术⼈员使⽤ •核⼼⼯作是写代码 •详细的底层逻辑比抽象概括更有用 可能,你的⽤户⽐你更懂底层技术逻辑 技术型产品常问的⼏个问题 产品如何凸显自己在其中的作用 如何衡量技术型产品的产出价值 方法上会不一样吗,是否更加需要产品做更终局的思考 做桥梁做牵引,将擅⻓的⽅向发挥极致 从核⼼要解决的问题与产品定位出发 没有真正意义上的完美终局 •⽤户调研、需求分析 •顶层规划、产品拆解 •设计落地、验收迭代 •项⽬管理、运营推⼴ •覆盖率(表/作业) •使⽤频率(WAU/DAU) •渗透率(使⽤⼈/⽬标⼈) •效率(操作耗时/运⾏时⻓) •性能/SLA/响应率/成功率 •局部最优解也是最优解 •往整体规划处想,从MVP处落实 •每个阶段的⽭盾和困难都不 ⼀样 •内外部认知都要持续更新 其实,与其他类型产品经理的⼯作模式没有本质区别 技术驱动型产品中,产品经理该怎么做 1 转变 思维 为共同的业务价值⽬标努⼒ 技术与产品不是对⼿,⽽是战友,荣辱与共技术的产品思维,产品的技术理解是相互的 在产品擅⻓的领域做到更专业,更好的 分⼯协作 持续学习,将技术语⾔转化为产品语⾔ 2 体现 专业 技术驱动型产品中,产品经理该怎么做 3 按需 分工 技术主导,产品配合:技术选型与扩展 产品主导,技术⽀持:⼯具体验交互流程 合适的协作流程:引⼊技术评审、技术参与产品 内审 互相深度参与:⽤户调研、产品⾛查、⽅案共创 4 定制 规则 技术驱动型产品中,产品经理该怎么做 专业的⼈做专业的事,各司其职,更⾼效 价值牵引,技术驱动也可能变成产品牵头 技术: •写代码、做实现 •性能/架构/稳定性 产品: •界⾯设计,沟通协调 •运营推⼴,⽤户交流 •避免炫技,做⽤户真正需要的产品 •拥抱变化,持续更新升级(认知/思路/策略/需求) 案例⼀:技术驱动架构升级 技术选型 引⼊数据湖解决Hadoop+传统数仓的成本及事物性问题 数据湖选型:Delta、Hudi、Iceberg(写⼊/并发/性能/成熟度更好) 产生 收集 存储 处理 应用 产品闭环 案例⼆:产品驱动体验效率优化 业务场景复杂,依赖关系建⽴繁琐 •拖拽式的作业编排->快速建⽴关系 •节点及上下游定位->聚焦关键节点链路 •⾃动推荐依赖->智能/⾃动依赖 案例三:技术的升级使得产品能持续完善 OLAP引擎升级促使查询体验交互式改造每查询888s下降至5s Hive引擎机制所限->提交过程长,资源消耗大,耗时长,只能等 •查完通知 •转成作业 •超长的自动终止限制 Presto+Spark3.X的升级->⼤部分查询可直接提交,资源策略优化,查询效率⼤幅上升 •多引擎联查,智能路由 •⽇志诊断 •编辑联想,⾃动补全 •并⾏查询 •⾃定义超时 •…… 03 小米一站式数据生产平台的产 品建设思路 ⼩⽶数据⽣产平台的推进思路 建平台 打破烟囱 推统⼀ 数据开发平台 规范化 开发流程 ⼀站式 数据⽣产 能⽤ ➕ ⽤起来 ➕ ⽤的对 ➕ 好⽤ 效率 成本 安全 质量 基础服务的统⼀为“破烟囱”奠定基础 技术主导 产品->技术 可扩展性⾼的产品形态 功能可灵活快速的补⻬,更稳健的⽀撑收敛统⼀ 6种存储5种计算引擎/10类作业10+种跨源数据集成 特⾊化的⽣产开发流程 规范化的流程,促进⽤户正确的使⽤平台,发挥更⼤效益 业界: 1.物理机房的隔离 2.项⽬/库隔离 3.开发中⼼&运维中⼼完全独⽴ ⼩⽶: 1.通过Workflow的版本进⾏“开发态”与“⽣产态”的区分 2.以测试库/正式库+变量形式做隔 离转换 技术->产品 3.辅助补充各流程环节及检验⼯具 低代码式 拖拽式 ··· 移动端 服务 上云 ··· 产品主导 ⼀站式的数据⽣产体验 IDE 提供最适合开发者的编辑/协同/管 理体验 趁⼿的 ⼯具 Data Ops 完善编译/合并/测试/运维⼀整套操 作流程 智能 结合AI智能化的进⾏数据开发 交互式 ⽣产平台本质是作为趁⼿的⼯具,为业务助⼒ 在更⼤的维度上做全景扩展,提供更多完善的服务⽀持 用 BI可视化 数据智能 口碑舆情 人群圈选 行为分析 团队:分析师/解决方案 服务:数据服务/API 管 数据资产地图 数据安全与质量 标签构建与管理 数据管理与治理 建 离线公共数据 在线业务数据 企业经营数据 数据仓库建设 产 数据采集与集成 数据存储与计算 数据查询与运维 数据生产平台 层次递进的平台建设思路 以各阶段要解决的不同问题为牵引,分级扩展,逐步做透 (不⽌适⽤于数据平台) N-1 0-1 1–10 10–X 从复杂的N个产品现状与⽤户问题中,分析调研,抽丝拨茧,求同存异,找到能唯⼀收敛的⽅向 拥抱变化 持续更新 从0到1构建搭建新平台,MVP路径拆解,⼩步快跑,试点验证 在规范化的基础上扩展产品边界,扩⼤能⼒范围,促进深度使⽤,与历史问题的收敛 聚焦本⼼,克制与创新并重,拥抱更多可能性 感谢观看