平台型数据产品经理能力通识
1. 大数据的历史与发展
- 大数据发展历程:
- 启蒙阶段:20世纪90年代,商业智能和数据仓库出现。
- 拉开序幕:2005年前后,Hadoop的诞生。
- 技术变革:2014年前后,流式计算核心项目Flink的诞生。
- 未来发展趋势:
- 方向1:批处理→近实时处理。
- 方向2:智能化方向,Data Fabric概念的提出。
- 方向3:开源产品→商业化产品。
2. 数据产品与数据产品经理
- 数据产品:降低用户使用数据门槛,提高数据价值的产品,包括数据采集、清洗、存储、发布、分析与展示、挖掘与推荐等功能。
- 数据产品经理:负责设计、维护和优化数据产品的人,分为平台型、分析型、应用型和策略型/算法型四类。
- 平台型数据产品经理:专注于数据采集、清洗、存储、发布环节。
3. 平台型数据产品经理的核心能力
- 通用能力:
- 需求洞察:深度了解业务,提炼通用需求,评估优先级。
- 方案设计:基于业务需求,构思可行方案并进行决策选择。
- 项目管理:设定开发里程碑,管理开发进度,识别风险。
- 专业思维:
- 统一标准:统一数据口径,标准化数据管理体系。
- 分层设计:遵循分层原则开发数据,避免穿透多个组织层。
- 数据共享:提炼共性需求,实现企业内部数据共享。
- 价值驱动:数据价值驱动整体业务。
- 专业能力:
- 技术能力:掌握SQL编写和理解能力,熟悉Hadoop生态及相关工具。
- 常用书籍与网站:《SQL必知必会》、《Hadoop应用架构》等。
- 知识体系:掌握离线数仓和实时数仓的构建流程。
- 工具使用:熟练使用Pentaho(kettle)、Hadoop生态相关工具等。
4. 离线数仓构建流程
- 需求调研:收集业务部门的数据需求,确定数据/指标的使用场景。
- 梳理指标:整理所有指标,拆解出原子指标和衍生指标,明确指标计算逻辑。
- 分层建模:确定指标层级,设计数仓分层结构,整理事实表和维度表。
- 数据开发:基于设计好的分层结构和指标计算逻辑,开发ETL任务。
- 数据校验:检查数据准确度,确保数据可用。
- API开发:将数据开发成API发布。
关键数据与工具
- 技术工具:
- Hadoop生态:HDFS、YARN、MapReduce、Spark、Hive、HBase等。
- 数据开发工具:Pentaho(kettle)、Informatica、DataX、DataWorks等。
- 书籍与资源:
- 书籍:《离线和实时大数据开发实战》、《数据产品经理-实战进阶》等。
- 文章:大数据的发展历史、数据中台概念等。
总结
平台型数据产品经理需要具备全面的能力,从需求洞察到技术实现,再到数据管理与价值驱动,涵盖通用能力和专业思维、专业能力。通过掌握大数据技术工具和方法论,可以更好地为企业构建高质量的数据平台。