三角洲生活表 价值主张和利益 现代数据分析平台(DAP)经历了快速建筑模式在过去几年中的变化,独立于用例,为消费者提供最大的利益。 这一观点旨在提供对以下方面的见解:的好处来增强“三角洲住表” 现代DAP架构,基于我们的经验转型之旅。 三角洲生命表不仅是一种技术进步,也着重于实现 金色的数据传递给业务以接近实时的用户: 实现自助服务分析能力更快的上市时间 执行 总结 业务目标。使更快和更可靠的数据 驱动的决策 运营效率转化为高 进而转化为客户服务 增加ReturnOn我nvestment(ROI)。允许数据科学团队开发 预测分析模型和集成的数据管道预测结果 成为一个问题 三角洲生活表 增量实时表(DLT)是一个使用简单声明性的ETL框架构建可靠数据管道并自动管理的方法 大规模基础设施,因此数据分析师和工程师可以花费更少的时间在工具和专注于从数据获取价值。 来源:砖 我需要 /英语教学,设置通知,重试, g运营nforcement,管理、数据里巴特飑计算籍的 支持 价值主张的三角洲生活表 增量实时表(DLT)具有以下许多优点,同时不断在其路线图中引入新功能。这些好处不是 不仅提供更高的投资回报率,而且还加速ETL开发,除了 使简单的维护和支持。 业务和技术价值主张 自动 血统& 可视化无进取心的人 数据质量 及误差处理 慢慢地 改变维 操作 指标 自动 基础设施管理 工作流 集成 与DLT 流媒体 和批处理简化 自动 的处理数据结构变化 多个 语言支持 集成 与 编制 工具 DLT允许开发人员通过以下方式专注于核心转换逻辑抽象出所有周围的操作复杂性。 自动血统& 可视化无进取心的人 开发人员可以在单个笔记本中按任何顺序开发代码,或者跨笔记本。DLT自动确定跨 数据管道并创建可视化DAG,同时自动检查表依赖关系和语法错误。 USECSE(年代) 确定管道中的语法错误 确定表在笔记本电脑的依赖关系 提供谱系的可视化表示(可观察性)简化对下游系统和流程的影响分析 运行状态(失败) Air_Quality_Ind…… 失败的 Latest_Air_Qual…… 跳过 ---- weather_raw Location_Master Daily_Avg_Air…… 完成-56 -2米43秒完成 完成-40年代 20 -- 70 运行状态(成功) 运行时Num的记录 写/下降weather_history 完成-45 Daily_Avg_Temp 完成-32s --70 Daily_Max_Min…… 完成-40年代70 DLT自动创建上述DAG可视化,规定 基础设施,执行管道并进行所有操作统计为用户可用。 数据质量和错误处理 DLT提供内置的质量控制、测试、监控和实施帮助确保在数据为 流式处理以根据数据质量规则的严重性进行修复、允许或失败。 USECSE(年代) 国旗坏记录没有停止的过程 如果不满足某些条件,请删除无效记录失败如果有数据质量问题的工作 存储规则并在多个对象中重复使用它们 捕获并存储已处理行、已失败行和数据的运行时统计信息质量期望指标,包括历史记录(可观察性) DLT简化了多个数据质量检查的实施,而无需 在流或批处理数据上开发复杂代码。它还可以存储DQ规则并将它们应用于多个对象(可重用/可移植)。它有助于防止不良数据流入表格,测量数据质量并提供工具 排除错误数据。 旗,继续:记录违反的期望。 违反预期的记录将添加到目标中数据集和有效的记录 行,继续下降:下降的记录违反了期望 失败,回滚:记录时立即停止执行 验证失败。如果操作是表更新,则系统自动回滚事务 您还可以定义多个期望,即质量检查在一个声明中。 缓慢变化维度 无需编写复杂的SCD逻辑。简化的功能可处理复杂性 USECSE(年代) 实现类型1SCD(如果存在,则更新记录;否则插入)和SCD-2(使旧记录过期并创建新记录以进行更新以进行维护可审核性/版本;插入新记录) 处理的订单数据到来的化合物 从以前可用的数据中填充缺失的列数据。源系统可以发送部分更新(几列) 使用传统的ETL/ELT工具或SQL技术实现SCD是复杂。数据砖通过隐藏复杂的实现来简化这一点在简单的规范后面,包括使用处理无序事件 运营指标/可观察性 提供每个表级别过去运行统计信息的详细信息,历史运行管道在其生命周期中,作业成功/失败状态,单个和总计 运行时间,以及指向SparkUI/Ganglia图表、日志和操作的简单链接度量性能调优。 USECSE(年代) 监视数据管道的历史运行状态,运行时 统计信息,例如已处理的记录、已拒绝的记录、表依赖关系、运行时,运行时使用等。 观察数据质量趋势并识别数据偏移实例 为火花UI/神经节图表提供易于访问的链接更好地了解CPU和内存使用情况以及其他运营指标 数据砖存储管道的所有事件日志,监视 您的数据管道并使其在其用户界面中可用,甚至更好的通过API调用。 DLT跟踪表依赖关系并提供沿袭关系图,同时 将所有数据质量指标存储在日志中以了解数据质量问题在您的管道中。DLT日志公开为包含所有数据的增量表期望指标生成报告以监视数据质量 砖SQL或BI工具的选择。 DLT提供监视UI,这些UI提供运行时统计信息,如已处理、失败的行以及基于每个预期的指标。用户可以查看历史性能(以前的运行),允许他们跟踪管道的性能和数据质量。 自动的基础设施管理 通过自动执行复杂且耗时的活动消除开销 如任务编排、错误处理和恢复、自动缩放以及性能优化。 USECSE(年代) 可根据数据量自动向上/向下、向外/向内的基础架构不会过度或不足配置,同时获得最佳性能 智能扩展集群,根据以下因素决定何时扩展或缩减从基于事件的系统(如Kafka)中提取的数据量,EventHub、运动流等。 自动重试管道以更好地处理意外情况基础设施故障 DLT可自动执行操作并消除服务器大小调整的挑战。它处理在基础结构操作问题期间重试管道的故障,以及使用 数据卷和事件队列详细信息,以优化集群扩展。 工作流集成与DLT 复杂的逻辑可以写在单独的笔记本中,但可以通过工作流程结合DLT(工作流) USECSE(年代) 集成现有的笔记本电脑与DLT管道提供对数据流、表依赖关系和 跨所有数据管道的聚合数据质量指标 为操作、质量和状态提供行级别日志记录的数据管道 使用作业流,可以轻松定义具有要集成的依赖关系的工作流具有DLT的传统笔记本电脑中的逻辑,而无需使用 单独编排/调度工具。 流媒体和批处理简化 允许开发人员将流式处理和批处理相结合的体系结构无需开发单独的管道即可实现功能。 USECSE(年代) 在数据可用时立即处理数据,以提高速度市场和决策;调用机器学习模型以 预测结果而流 无需设置、管理和支持流媒体技术 使企业能够开发流媒体应用程序!(流式传输于用户的指尖) DLT使与自动加载程序集成变得更加容易,从而有效地流式传输数据文件因为它们在没有设置复杂的云服务的情况下实时到达,并且不会 重新处理重复文件。DLT会自动处理无序到达的数据,实现所有数据质量,业务逻辑,调用预测模型和存储跨所有层的数据,并在数据到达后立即使数据可用。没有更多的批处理,调度或等待。 多种语言支持 能够为 易于开发。 USECSE(年代) 分析师:希望使用通用语言,如SQL 数据科学家和数据工程师:灵活使用Python可以拉入更复杂的库并利用它除了SQL之外,Python还提供的复杂性 用户/开发人员可以利用SQL或Python来构建声明性管道-轻松定义“做什么”,而不是“如何”做。 自动处理 数据结构的变化 当数据源生成的更改记录仅包含 目标表中的字段和未修改的列表示为 NULL、增量活动表可以将这些部分更新组合(合并)成一个完整/最新的行。 USECSE(年代) 源系统表可以改变结构,但应用 不仅要保护自己免受这些变化的影响,还要保护自己免受这些变化的影响 。 适通应过变添化加 列,将获救的数据存储在自己的列中,使管道或忽视模式变化 DLT处理这些变化,即模式进化,因此无需开发复杂的DDL以改进目标表的架构。相反,列是自动添加到目标表,包括复杂/嵌套架构。 集成 编制工具 DLT管道可与您的企业编排集成/ 调度选择的工具。 USECSE(年代) 从企业编排工具调用DLT管道在DLT集成定制开发PythonUDF 计划管道数据,以在计划的管道上运行间隔或者连续 DLT与阿帕奇气流或ADF(Azure数据工厂)集成良好,而提供按计划间隔或连续运行的功能,以便数据获得 数据一到,就从青铜>银>金层处理。 DLT公开报告和仪表板 DLT管道与用于报告和仪表板的商业智能工具集成。 USECSE(年代) 根据DLT创建近乎实时/批量的仪表板和报告具有连续的表数据刷新 发现异常行为,并立即直观地显示出来发生以避免机会损失,设备故障,安全性违规、欺诈交易等。 通过SQL端点(数据砖运行时/服务器)公开的DLT可以是配置为即席或计划运行的查询。结果可以暴露 报告/指示板。 回顾 DLT不仅仅是我的力量上述用例 让用户友好δt生活预计将bec的功能开发和业务com 从现代Lakehousepl 一个UTHORS 摩尼KandasamyVijayBalasubramaniam 技术的 德勤咨询律师事务所 mkandasamy@deloitte.com Mani是德勤管理咨询的技术主管LLPAI与数据工程产品并领导@Scale云数据现代化和分析解决方案 德勤的全球投资组合的客户。 合作伙伴解决方案架构师砖 vijay.balasubramaniam@databricks.com 维杰·巴拉苏布拉马尼亚姆是合作伙伴解决方案架构师在砖。他利用他的专业知识在数据 管理,帮助合作伙伴和客户成功的大规模分析计划。 本刊物仅包含一般信息,德勤并非通过本刊物提供会计、商业、金融、投资、法律、税务或其他信息。专业建议或服务。本出版物不能替代此类专业建议或服务,也不应将其用作任何决定或行动的基础 可能会影响您的业务。在做出任何可能影响您业务的决定或采取任何行动之前,您应该咨询合格的专业顾问。德勤对任何依赖本出版物的人士所蒙受的任何损失概不负责。 关于德勤 德勤指德勤有限公司(一家英国私人担保有限公司(「德勤」)旗下的一个或多个有限公司、其成员所网络及其相关机构 实体。德勤有限公司及其每一成员所在法律上都是独立自主的实体。德勤有限公司(亦称「德勤全球」)不向客户提供服务。在美国,德勤是指德勤在美国使用“德勤”名称运营的一个或多个美国成员所及其相关实体 各自的附属公司。根据公共会计的规则和条例,某些服务可能无法证明客户。请参阅www.deloitte.com/about以学习更多关于我们公司的全球网络成员。 版权所有©2022德勤发展有限责任公司。保留所有权利。