数据流概述
数据流是指数据从输入到输出端的流动,包括一系列帮助企业使用、整合和利用各种数据的实践、工具和架构程序。数据集成不仅整合不同系统的数据,还确保数据的干净和准确,从而优化其对业务的价值。
现代数据流趋势
数据引领发展
- 企业数据定位变革:数据成为一种产品。
- 组织与数据关系变革:数据民主化,数据流正式化。
- 模型变革:从复杂到简单,从强耦合到声明式和低代码。
- 业务变革:从ETL到ELT,转向数据,转向业务,转向模型。
- 关注:数据本身价值,分离复杂耦合架构,重视数据服务企业工具的正规化和简单化,实现数据的稳定化和明确的数据责任分配,促进数据共享和重用。
现代数据流特性总结
实时化
- Flink:Apache Flink是一个用于在无边界和有边界数据流上进行有状态计算的大数据计算框架。
- 性能:支持事件驱动应用,批流分析,数据管道和ETL,具备正确的事件驱动应用和批流分析能力,提供分层API和SQL on Stream & Batch Data。
- 运维:支持灵活部署、高可用性、保存点和大规模计算水平扩展,提供超大状态增量检查点机制。
大数据技术整体发展
- 实时化趋势:Apache Flink已成为实时计算的标准,特别是在阿里巴巴的应用。
- 解决方案:阿里云的StreamSQL更加面向数据分析领域,提供Exactly-once的处理语义,内置优化算法,支持多种函数和算子,提供丰富的SQL功能,如内置SQL函数、SQL语法校验、版本管理、Web-IDE可视化编辑器等。
企业级解决方案
StreamSQL
- 特点:简化SQL开发体验,支持Exactly-once处理语义,内置优化算法,提供丰富的函数和算子,支持自定义UDF接口。
- 应用场景:适用于业务代码编写,提供高效的流式处理逻辑。
Serverless化集群
- 优势:支持3万+作业,90+峰值,40亿记录/秒,150万+CPU计算能力。
- 功能:支持自动资源调优,实现按需使用资源。
元数据管理
- 功能:支持Hive Metastore、Hologres Catalog、MySQL Catalog和DLF Catalog,提供丰富的元数据管理和数据血缘追踪。
最佳实践
入湖入仓解决方案
- 痛点:全量和增量两套架构,Schema变更难以维护,整库开发工作量大,ETL清洗和分析难度大,资源和费用过高。
- 解决方案:Flink CDC支持全量和增量自动切换,表结构变更自动同步,整库同步只需一条SQL,支持双流JOIN和维表JOIN,性能规格无限制,CDC不单独收费。
实时入仓解决方案
- 主要特性:支持实时同步单表或整库级别数据,自动解析类型,支持宽表Merge和局部更新,支持分区表和攒批写入,支持Hudi和Iceberg源表及结果表,支持Hive和DLF Catalog,支持Hologres Binlog消费。
以上总结了阿里云实时计算Flink构建的现代化数据流的核心内容和关键数据,展示了其在实时计算领域的领先地位和技术优势。