快狗打车数据仓库建设与演进之路 演讲人:申琦 申琦 技术的变革,一定是思想先行 数据仓库架构师现就职于快狗打车数据智能部,数据仓库团队负责人、数据仓库架构师。经历过互联网广告平台、电商平台、自营电商等,不同业务主体、不同发展阶段的数据仓库建设,积累有丰富的数据仓库建设实践经验。 数据仓库背景与挑战数据仓库架构数据管理与运营数据仓库建设思考 数据仓库 掌舵业务方向 务 商 制定业务目标 克服连 管理 管理通决策 层之管 制定业绩目标 间的理 管理层 通信层基础 障碍次 执行业务动作 执行层 操作 数据仓库背景 数据仓库挑战 任务增长造成资源挤占、修改上线造成任务报错、逻辑变更导致数据失真 有限的资源无限的需求 成本挑战 数千个数据表选择困难、插入需求频繁打断 需求资源大于可用资源、核心任务分配不到资源、任务排布造成资源峰谷 数据仓库挑战 01完善数据平台工具,减少人为不稳定因素 应对策略 02分类分级任务治理,提高资源利用率 03低效任务自动化处理,聚焦价值能力输出 数据仓库架构-应对挑战问题 稳定性、效率、成本下的数据管理与运营 尽量不出错误出错及时发现发现快速恢复 解决思路 1修改保存 语法错误检查 2测试执行 逻辑是否正常运行验证数据是否正确与线上1:1测试环境 3提交 添加任务依赖配置任务参数配置重试策略 代码评审4 新老版本代码对照,高亮不一致部分 5发布 发布后,可线执行补完成 数据操作刷新线上数据 触发条件 完成、未完成、出错、超时 报警接收方 值班表、任务责任人、指定接收人 报警方式 短信、电话、邮件、 webhook 监控规则 监控对象 任务节点、工作空间、基线、资源组 疲劳度控制 报警次数报警间隔免打扰时段 一键重跑下游一键版本回滚 减少重复计算快速查找数据表 解决思路 合理利用每一滴资源 解决思路 基于叶子任务节点倒推出任务分类及优先级别 思考:数据仓库的核心是什么? 数据仓库演变史 启蒙期 信息时代来临,企业拥有大量业务数据待挖掘利用。信息系统库,业务相互独立,跨库场景统计乏力 成长期 辅助决策系统,帮助企业基于数据统计分析做出科学宏观决策 成熟期 大数据处理技术体系成熟,帮助企业精细化管理企业海量数据 黄金期 云原生时代来临,基于多年沉淀,已有可以一键启动的商用决策系统 未来时期 数据湖仓,流批一 体 数据仓库核心:数据全景 数据主题 数据仓库可能是第二懂业务的人 数据模型 组织数据呈现业务模样 思考:未来数据仓库会是什么样子? 流批一体化分析与事务引擎统一 未来? THANKYOU!