数据湖计算DLC 产品介绍 2023.04 腾讯云大数据基础产品中心 目录 01行业趋势及挑战 企业级数据湖技术架构的趋势及挑战 02数据湖计算DLC产品介绍 数据湖计算DLC产品简介·优势特性 03数据湖计算DLC应用场景 大数据数据价值应用场景 04客户成功案例 客户成功实践案例 05产品路线图 数据湖计算DLC产品 06附录 产品演示、计费方式、竞争分析、销售一指禅、产品接口人2 01 行业趋势及挑战 企业级数据湖技术架构的趋势及挑战 3 业务挑战 基础可用规范标准开放自由优势融合 关系方法和关系数据理论建立,数据库技术进入关系型数据库时代。 特征: 以面向事务交易场景为主,数据分析仅作为附带提供的场景,扩展性差,很难支持大规模数据分析,性能也无法满足需求。 随着数据分析需求的增大,数据仓库应运而生。最从初的一体机形态,逐步发展到基于x86的MPP架构。 特征: •相对封闭,约束较多,但在要求极致的性能的场景下有较多优化 •硬件资源弹性;多种数据类型;数据挖掘等方面都面临新的挑战。 基于Hadoop生态建设数据湖,使用HDFS作为数据存储,使用MapReduce、Hive等引擎。 特征: •开放自由,更好地保留原始数据,用以挖掘数据价值。 •开源组件众多,使用成本较高 •可能导致数据沼泽 云原生一体化湖仓,兼具数据仓库和数据湖的优势,全面覆盖大数据分析场景。 特征: •云原生,极致弹性、存算分离 •实时性强 •简单易用 •扩展性强 •交互式分析 传统数据库 数据仓库 数据湖 现代数据湖仓 4 02 数据湖计算DLC产品介绍 数据湖计算DLC产品简介·优势特性 5 数据湖计算DLC(DataLakeCompute)是基于Spark、Presto、Iceberg构建的云原生Serverless湖仓分析服务,具备存算分离、资源弹性、开箱即用、托管运维、自研内核增强等优势特性,灵活覆盖离线/近实时分析、交互式查询、跨源联邦分析、数据科学等大数据场景,助力企业敏捷构建一站式的数据分析平台。 产品概述 产品定位 实时分析 离线分析 联邦分析 交互式分析 BI报表 数据科学 特征工程 数据预处理 csvJSONXML 结构化 半结构化 非结构化 产品优势 新一代LakeHouse形态 先进Lakehouse架构,全面覆盖湖场景(大模型数据预处理、数据科学)和仓场景(离线/近实时分析、交互式分析),满足企业大数据各类分析需求。 DLC+行业应用WeData数据开发治理平台DLC数据湖计算 湖存储 实时极速分析 自研数据优化服务,支持百万级QPS实时入湖,端到端分钟级时延。自研加速层,三级缓存结合自适应Shuffle,兼顾稳定性的同时大幅提升查询效率,提供企业级大数据分析服务。 极致性价比 为降本而设计的云原生存算分离架构,计算和存储均按需使用,支持按量弹性付费,在兼顾性能的同时综合降本50%+。 开箱即用 云原生Serverless产品形态,一键部署,即买即用,免底层运维。统一接入点、数据智能优化等产品能力,无需维护复杂组件。 应用场景 仓场景 BI报表|离线分析|近实时分析 湖场景 数据科学|数据预处理|交互式分析|联邦分析 技术架构 云服务层 运维管理 权限管理 弹性资源管理 湖仓计算层 统一接入点 自研增强版ServerlesSpark 自研增强版ServerlesPresto 加速层 稳定保障 Spark自适应shuffle 数据优化SmartOptimizer 写入优化|索引推荐|生命周期管理 缓存加速 localcache|resultcache|fragmentcache 湖存储层 存储格式IcebergACID事务支持|Schema演化|时间旅行|实时Upsert增量写入 DLC托管湖存储 对象存储COS 产品功能与特点 下一代Lakehouse架构 先进Lakehouse架构,全面覆盖湖场景(大模型数据预处理、数据科学)和仓场景(离线/近实时分析、交互式分析),满足企业大数据各类分析需求。 实时极速分析 自研数据优化服务,支持百万级QPS实时入湖,端到端分钟级时延。自研加速层,三级缓存结合自适应Shuffle,兼顾稳定性的同时大幅 提升查询效率,提供企业级大数据分析服务。 极致性价比 为降本而设计的云原生存算分离架构,计算和存储均按需使用,支持按量弹性付费,在兼顾性能的同时综合降本50%+。 开箱即用 云原生Serverless产品形态,一键部署,即买即用,免底层运维。统一接入点、数据智能优化等产品能力,无需维护复杂组件。 8 新一代LakeHouse架构 湖仓双引擎,全面覆盖大数据分析场景 LakeHouse产品形态 湖仓双引擎+数据湖存储 湖计算引擎 湖仓一体计算 DLC配备自研增强Spark引擎 数仓引擎 数据开发平台 +Presto引擎,一体化分析湖仓融合数据,无需割裂架构,解决传统架构中数据冗余、数据口径不一致等问题。 湖上建仓 在湖内处理后的数据可直接使用数仓引擎进行查询,实现湖上建仓,对外提供敏捷极速数据服务,兼顾一体化与灵活性。 AI+BI一体化 作为AI数据基座,DLC提供高效稳定的分布式计算架构,支持对大模型海量原始数据的并行处理。在AI数据预处理场景中,云原生弹性能力综合降本达50+%。同时,企业可以直接在DLC中构建数据仓库,实现AI+BI一体化的湖仓一体架构。当前,多家头部AI企业的湖计算与数仓稳定运行在DLC上。 湖数据管理与服务 统一湖存储服务,能力全面,兼顾性能&成本 数据湖统一存储 湖仓统一存储 基于iceberg湖格式实现的湖仓统一存储,可大规模存储数据,支持事务性操作,确保数据的准确性和一致性,并允许您跟踪数据和数据结构如何随着时间的推移而变化。 数据统一治理 自研数据优化服务统一对湖内数据进行治理,解决数据湖在大规模应用上的数据沼泽问题,使数据湖在落地场景中真正开箱即用。 9 实时极速分析 增强增Ic强eIbceebregr能g能力力,,离离线线TT++11无无痛痛升升级级→→分分钟钟级近级实近时实时 FlinkCDC写入可靠性提升 •增加上游数据同步限流 •Checkpoint内预分类与预聚合 •并发关闭资源 小文件合并性能提升 •通过bloomfilter提升合并效率 •产品化默认sort策略合并进一步降低合并范围 •按照equalitydeletes数量调度分配任务 •优化快照Summary统计信息 小文件合并可靠性提升 •优化在对象存储上并行提交逻辑,减少了对存储系统的依赖同时提高提交成功率 •解决bloomfilter对timestamp字段类型支持不完善,导致数据重复问题 过期数据清理可靠性提升 •优化移除孤儿文件/快照过期输出结果,优化不必要的数据输出 •优化移除孤儿文件/快照过期执行计划,支持分布式执行 自研自数研据数优据化优S化mSamratrOtOpptitmimiizzeerr,,业业内内率率先先突突破破百百万Q万PQS/P秒S入/秒湖入湖 SmartOptimizer •基于事件与时间驱动的可靠性模型 •后端旁路优化服务,高度解耦Iceberg内核 •基于策略事件规则的优化任务,任务间相互独立且扩展性强 •智能化优化任务管理,支持任务反馈优化策略和规则 服务产品化,解决社区iceberg使用的高门槛 •一键建表、可视化及SQL建表、自动分区分桶、自动填充合理表属性参数 •库级策略,表继承库策略;智能策略,根据写入情况动态调整;可视化配置及SQL配置 •资源管理、超时自动重试、任务超时失败告警 自研自研加加速速层层,,用用户户实实测测1100倍倍性性能能提提升升 多级缓存,亚秒级分析 •Localcache/Segmentcache/resultcache •交互式场景达到秒级、亚秒级分析 •提升元数据获取效率 索引推荐,性能升级 •全链路索引,确保每个环节机制的查询性能 •ODS层索引,大量减少ODS数据扫描量 自适应Shuffle,稳定可靠 •优先使用disk保证性能,少数情况spilltolakefs保证任务稳定性 •用户无须感知shuffleservice运维 •用户无须购买,零成本10 存储成本节约 基于云原生存储的共享经济,实现无限拓展、弹性伸缩,降低使用成本 存算分离架构,存多少买多少,极高性价比 存算分离架构,资源无感伸缩 包年包月+按量计费组合计费带来弹性成本优势 按数据扫描量计费,数据分区和压缩进一步减少成本 存储可靠性,99.9999999999% 服务可用性,99.995% 支持热、温、冷分层存储需求 低频存储 1TB≈82元/月 智能分层存储 1TB≈101元/月 还能省更多 3备份 归档存储 1TB≈34元/月 深度归档存储 1TB≈10元/月 至少预留 25%空间 真实用量 存多少付费多少:节省90%以上存储成本 秒级算力调度,自动扩容,优雅缩容 计算成本节约 自动/定时启停,有任务时自动/定时拉起集群,任务结束自动关闭集群。集群关闭不收费。 集群即服务,轻量级集群彻底解决资源抢占和分配问题 自动扩容满足高并发场景 良好的job隔离解决资源优雅缩容 多部门共享同一份数据和元数据 DLC企业元数据中心 业务A 稳定业务运行,业务业务峰值需要自动弹性能力,低谷需要缩容 独立伸缩,多种计费方式,更精细化匹配不同业务,带来更低成本 针对不同业务,合理定制不同的工作负载和计费模式:更优隔离型,更优成本 业务D 稳定业务日常使用,无明显波峰波谷 自动开启100CU 自动停止0CU 业务B 白天业务人员跑交互式分析,半夜跑离线任务 定时开启自动扩容40CU150CU 业务C 数据分析人员,偶尔有数据挖掘需求 优雅缩容自动扩容优雅缩容60CU150CU30CU 定时关闭0CU 传统集群约: 74元/小时X24小时=1776元 规格:16cu*2master,8cu*3common,16cu*10core,云盘1000G DLC无弹性一天约: 216CU*24小时*0.35元=1814元 DLC弹性模型: 1300CU时=455元 以按量计费同等算力计算,DLC结合弹性节省70%+成本! DLC企业数据中心 包年包月 按量计费 Presto按量计费 Spark按量计费 扫描量计费 包年包月 敏捷使用运维和使用成本节约 无需选配、安装、调优,开箱即用,几分钟内快速开始数据探索 无需关注底层架构和服务运维 无需选配、安装、调优,开箱即用 丰富的控制台交互能力,数据可视化探索提供更好的产品体验 统一多引擎SQL语法,直接输入SQL开始分析 提供20多种云上数据流转快速通道 开箱即用,丰富的控制台交互能力 概览页新手指引,快速上手 多引擎的SQL语法一致,创建数据库和数据表即可开始分析 创建投递规则 ·按时间分区自动投递 创建库表 ·自动推断元数据 ·可视化建表 加载分区 ·MSCK自动加载分区 ·addpartition添加增量分区 提交SQL ·标准SQL多引擎分析 自动推断元数据信息,仅需几分钟即可开始分析 13 03 数据湖计算DLC应用场景 大数据数据价值应用场景 14 数据湖计算DLC应用场景 离线/近实时数仓分析 数据科学 交互式数据湖探索 联邦查询 “企业进行海量数据分析时,通常面临性能、稳定性、时效性、复杂性等方面的挑战。” •离线/实时数据增量入湖 •分布式计算引擎、查询引擎、湖存储引擎 •自适应shuffle、多级缓存、分区、索引推荐等内核增强特性 •提供极速、稳定、经济、开箱即用的PB级数据离线/实时分析服务 “数据是AI的基础,数据湖则是最适合AI场景数据预处理的大数据平台。” •