您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[腾讯]:数据湖计算DLC产品介绍 - 发现报告
当前位置:首页/其他报告/报告详情/

数据湖计算DLC产品介绍

2024-05-15腾讯福***
数据湖计算DLC产品介绍

数据湖计算DLC 产品介绍 2023.04 腾讯云大数据基础产品中心 目录 01行业趋势及挑战 企业级数据湖技术架构的趋势及挑战 02数据湖计算DLC产品介绍 数据湖计算DLC产品简介·优势特性 03数据湖计算DLC应用场景 大数据数据价值应用场景 04客户成功案例 客户成功实践案例 05产品路线图 数据湖计算DLC产品 06附录 产品演示、计费方式、竞争分析、销售一指禅、产品接口人2 01 行业趋势及挑战 企业级数据湖技术架构的趋势及挑战 3 业务挑战 基础可用规范标准开放自由优势融合 关系方法和关系数据理论建立,数据库技术进入关系型数据库时代。 特征: 以面向事务交易场景为主,数据分析仅作为附带提供的场景,扩展性差,很难支持大规模数据分析,性能也无法满足需求。 随着数据分析需求的增大,数据仓库应运而生。最从初的一体机形态,逐步发展到基于x86的MPP架构。 特征: •相对封闭,约束较多,但在要求极致的性能的场景下有较多优化 •硬件资源弹性;多种数据类型;数据挖掘等方面都面临新的挑战。 基于Hadoop生态建设数据湖,使用HDFS作为数据存储,使用MapReduce、Hive等引擎。 特征: •开放自由,更好地保留原始数据,用以挖掘数据价值。 •开源组件众多,使用成本较高 •可能导致数据沼泽 云原生一体化湖仓,兼具数据仓库和数据湖的优势,全面覆盖大数据分析场景。 特征: •云原生,极致弹性、存算分离 •实时性强 •简单易用 •扩展性强 •交互式分析 传统数据库 数据仓库 数据湖 现代数据湖仓 4 02 数据湖计算DLC产品介绍 数据湖计算DLC产品简介·优势特性 5 数据湖计算DLC(DataLakeCompute)是基于Spark、Presto、Iceberg构建的云原生Serverless湖仓分析服务,具备存算分离、资源弹性、开箱即用、托管运维、自研内核增强等优势特性,灵活覆盖离线/近实时分析、交互式查询、跨源联邦分析、数据科学等大数据场景,助力企业敏捷构建一站式的数据分析平台。 产品概述 产品定位 实时分析 离线分析 联邦分析 交互式分析 BI报表 数据科学 特征工程 数据预处理 csvJSONXML 结构化 半结构化 非结构化 产品优势 新一代LakeHouse形态 先进Lakehouse架构,全面覆盖湖场景(大模型数据预处理、数据科学)和仓场景(离线/近实时分析、交互式分析),满足企业大数据各类分析需求。 DLC+行业应用WeData数据开发治理平台DLC数据湖计算 湖存储 实时极速分析 自研数据优化服务,支持百万级QPS实时入湖,端到端分钟级时延。自研加速层,三级缓存结合自适应Shuffle,兼顾稳定性的同时大幅提升查询效率,提供企业级大数据分析服务。 极致性价比 为降本而设计的云原生存算分离架构,计算和存储均按需使用,支持按量弹性付费,在兼顾性能的同时综合降本50%+。 开箱即用 云原生Serverless产品形态,一键部署,即买即用,免底层运维。统一接入点、数据智能优化等产品能力,无需维护复杂组件。 应用场景 仓场景 BI报表|离线分析|近实时分析 湖场景 数据科学|数据预处理|交互式分析|联邦分析 技术架构 云服务层 运维管理 权限管理 弹性资源管理 湖仓计算层 统一接入点 自研增强版ServerlesSpark 自研增强版ServerlesPresto 加速层 稳定保障 Spark自适应shuffle 数据优化SmartOptimizer 写入优化|索引推荐|生命周期管理 缓存加速 localcache|resultcache|fragmentcache 湖存储层 存储格式IcebergACID事务支持|Schema演化|时间旅行|实时Upsert增量写入 DLC托管湖存储 对象存储COS 产品功能与特点 下一代Lakehouse架构 先进Lakehouse架构,全面覆盖湖场景(大模型数据预处理、数据科学)和仓场景(离线/近实时分析、交互式分析),满足企业大数据各类分析需求。 实时极速分析 自研数据优化服务,支持百万级QPS实时入湖,端到端分钟级时延。自研加速层,三级缓存结合自适应Shuffle,兼顾稳定性的同时大幅 提升查询效率,提供企业级大数据分析服务。 极致性价比 为降本而设计的云原生存算分离架构,计算和存储均按需使用,支持按量弹性付费,在兼顾性能的同时综合降本50%+。 开箱即用 云原生Serverless产品形态,一键部署,即买即用,免底层运维。统一接入点、数据智能优化等产品能力,无需维护复杂组件。 8 新一代LakeHouse架构 湖仓双引擎,全面覆盖大数据分析场景 LakeHouse产品形态 湖仓双引擎+数据湖存储 湖计算引擎 湖仓一体计算 DLC配备自研增强Spark引擎 数仓引擎 数据开发平台 +Presto引擎,一体化分析湖仓融合数据,无需割裂架构,解决传统架构中数据冗余、数据口径不一致等问题。 湖上建仓 在湖内处理后的数据可直接使用数仓引擎进行查询,实现湖上建仓,对外提供敏捷极速数据服务,兼顾一体化与灵活性。 AI+BI一体化 作为AI数据基座,DLC提供高效稳定的分布式计算架构,支持对大模型海量原始数据的并行处理。在AI数据预处理场景中,云原生弹性能力综合降本达50+%。同时,企业可以直接在DLC中构建数据仓库,实现AI+BI一体化的湖仓一体架构。当前,多家头部AI企业的湖计算与数仓稳定运行在DLC上。 湖数据管理与服务 统一湖存储服务,能力全面,兼顾性能&成本 数据湖统一存储 湖仓统一存储 基于iceberg湖格式实现的湖仓统一存储,可大规模存储数据,支持事务性操作,确保数据的准确性和一致性,并允许您跟踪数据和数据结构如何随着时间的推移而变化。 数据统一治理 自研数据优化服务统一对湖内数据进行治理,解决数据湖在大规模应用上的数据沼泽问题,使数据湖在落地场景中真正开箱即用。 9 实时极速分析 增强增Ic强eIbceebregr能g能力力,,离离线线TT++11无无痛痛升升级级→→分分钟钟级近级实近时实时 FlinkCDC写入可靠性提升 •增加上游数据同步限流 •Checkpoint内预分类与预聚合 •并发关闭资源 小文件合并性能提升 •通过bloomfilter提升合并效率 •产品化默认sort策略合并进一步降低合并范围 •按照equalitydeletes数量调度分配任务 •优化快照Summary统计信息 小文件合并可靠性提升 •优化在对象存储上并行提交逻辑,减少了对存储系统的依赖同时提高提交成功率 •解决bloomfilter对timestamp字段类型支持不完善,导致数据重复问题 过期数据清理可靠性提升 •优化移除孤儿文件/快照过期输出结果,优化不必要的数据输出 •优化移除孤儿文件/快照过期执行计划,支持分布式执行 自研自数研据数优据化优S化mSamratrOtOpptitmimiizzeerr,,业业内内率率先先突突破破百百万Q万PQS/P秒S入/秒湖入湖 SmartOptimizer •基于事件与时间驱动的可靠性模型 •后端旁路优化服务,高度解耦Iceberg内核 •基于策略事件规则的优化任务,任务间相互独立且扩展性强 •智能化优化任务管理,支持任务反馈优化策略和规则 服务产品化,解决社区iceberg使用的高门槛 •一键建表、可视化及SQL建表、自动分区分桶、自动填充合理表属性参数 •库级策略,表继承库策略;智能策略,根据写入情况动态调整;可视化配置及SQL配置 •资源管理、超时自动重试、任务超时失败告警 自研自研加加速速层层,,用用户户实实测测1100倍倍性性能能提提升升 多级缓存,亚秒级分析 •Localcache/Segmentcache/resultcache •交互式场景达到秒级、亚秒级分析 •提升元数据获取效率 索引推荐,性能升级 •全链路索引,确保每个环节机制的查询性能 •ODS层索引,大量减少ODS数据扫描量 自适应Shuffle,稳定可靠 •优先使用disk保证性能,少数情况spilltolakefs保证任务稳定性 •用户无须感知shuffleservice运维 •用户无须购买,零成本10 存储成本节约 基于云原生存储的共享经济,实现无限拓展、弹性伸缩,降低使用成本 存算分离架构,存多少买多少,极高性价比 存算分离架构,资源无感伸缩 包年包月+按量计费组合计费带来弹性成本优势 按数据扫描量计费,数据分区和压缩进一步减少成本 存储可靠性,99.9999999999% 服务可用性,99.995% 支持热、温、冷分层存储需求 低频存储 1TB≈82元/月 智能分层存储 1TB≈101元/月 还能省更多 3备份 归档存储 1TB≈34元/月 深度归档存储 1TB≈10元/月 至少预留 25%空间 真实用量 存多少付费多少:节省90%以上存储成本 秒级算力调度,自动扩容,优雅缩容 计算成本节约 自动/定时启停,有任务时自动/定时拉起集群,任务结束自动关闭集群。集群关闭不收费。 集群即服务,轻量级集群彻底解决资源抢占和分配问题 自动扩容满足高并发场景 良好的job隔离解决资源优雅缩容 多部门共享同一份数据和元数据 DLC企业元数据中心 业务A 稳定业务运行,业务业务峰值需要自动弹性能力,低谷需要缩容 独立伸缩,多种计费方式,更精细化匹配不同业务,带来更低成本 针对不同业务,合理定制不同的工作负载和计费模式:更优隔离型,更优成本 业务D 稳定业务日常使用,无明显波峰波谷 自动开启100CU 自动停止0CU 业务B 白天业务人员跑交互式分析,半夜跑离线任务 定时开启自动扩容40CU150CU 业务C 数据分析人员,偶尔有数据挖掘需求 优雅缩容自动扩容优雅缩容60CU150CU30CU 定时关闭0CU 传统集群约: 74元/小时X24小时=1776元 规格:16cu*2master,8cu*3common,16cu*10core,云盘1000G DLC无弹性一天约: 216CU*24小时*0.35元=1814元 DLC弹性模型: 1300CU时=455元 以按量计费同等算力计算,DLC结合弹性节省70%+成本! DLC企业数据中心 包年包月 按量计费 Presto按量计费 Spark按量计费 扫描量计费 包年包月 敏捷使用运维和使用成本节约 无需选配、安装、调优,开箱即用,几分钟内快速开始数据探索 无需关注底层架构和服务运维 无需选配、安装、调优,开箱即用 丰富的控制台交互能力,数据可视化探索提供更好的产品体验 统一多引擎SQL语法,直接输入SQL开始分析 提供20多种云上数据流转快速通道 开箱即用,丰富的控制台交互能力 概览页新手指引,快速上手 多引擎的SQL语法一致,创建数据库和数据表即可开始分析 创建投递规则 ·按时间分区自动投递 创建库表 ·自动推断元数据 ·可视化建表 加载分区 ·MSCK自动加载分区 ·addpartition添加增量分区 提交SQL ·标准SQL多引擎分析 自动推断元数据信息,仅需几分钟即可开始分析 13 03 数据湖计算DLC应用场景 大数据数据价值应用场景 14 数据湖计算DLC应用场景 离线/近实时数仓分析 数据科学 交互式数据湖探索 联邦查询 “企业进行海量数据分析时,通常面临性能、稳定性、时效性、复杂性等方面的挑战。” •离线/实时数据增量入湖 •分布式计算引擎、查询引擎、湖存储引擎 •自适应shuffle、多级缓存、分区、索引推荐等内核增强特性 •提供极速、稳定、经济、开箱即用的PB级数据离线/实时分析服务 “数据是AI的基础,数据湖则是最适合AI场景数据预处理的大数据平台。” •