AI智能总结
数据湖计算DLC产品介绍 2023.04腾讯云大数据基础产品中心 目录 0102行业趋势及挑战企 业 级 数 据 湖 技 术 架 构 的 趋 势 及 挑 战数据湖计算DLC产品介绍数据湖计算D L C产品简介·优势特性数据湖计算DLC应用场景大 数 据 数 据 价 值 应 用 场 景客户成功案例客户 成 功 实 践 案 例附录产品演示、计费方式、竞争分析、销售一指禅、产品接口人030405产品路线图数据湖计算DLC产品06 业务挑战 基础可用 开放自由 规范标准 优势融合 基于Hadoop生态建设数据湖,使用HDFS作为数据存储,使用MapReduce、Hive等引擎。 云原生一体化湖仓,兼具数据仓库和数据湖的优势,全面覆盖大数据分析场景。 随着数据分析需求的增大,数据仓库应运而生。最从初的一体机形态,逐步发展到基于x86的MPP架构。 关系方法和关系数据理论建立,数据库技术进入关系型数据库时代。 特征: 特征: 特征: •云原生,极致弹性、存算分离•实时性强•简单易用•扩展性强•交互式分析 特征: •相对封闭,约束较多,但在要求极致的性能的场景下有较多优化•硬件资源弹性;多种数据类型;数据挖掘等方面都面临新的挑战。 •开放自由,更好地保留原始数据,用以挖掘数据价值。•开源组件众多,使用成本较高•可能导致数据沼泽 以面向事务交易场景为主,数据分析仅作为附带提供的场景,扩展性差,很难支持大规模数据分析,性能也无法满足需求。 现代数据湖仓 传统数据库 数据仓库 产品概述 数据湖计算DLC(Data Lake Compute)是基于Spark、Presto、Iceberg构建的云原生Serverless湖仓分析服务,具备存算分离、资源弹性、开箱即用、托管运维、自研内核增强等优势特性,灵活覆盖离线/近实时分析、交互式查询、跨源联邦分析、数据科学等大数据场景,助力企业敏捷构建一站式的数据分析平台。 新一代LakeHouse形态 先进Lakehouse架构,全面覆盖湖场景(大模型数据预处理、数据科学)和仓场景(离线/近实时分析、交互式分析),满足企业大数据各类分析需求。 实时极速分析 自研数据优化服务,支持百万级QPS实时入湖,端到端分钟级时延。自研加速层,三级缓存结合自适应Shuffle,兼顾稳定性的同时大幅提升查询效率,提供企业级大数据分析服务。 极致性价比 为降本而设计的云原生存算分离架构,计算和存储均按需使用,支持按量弹性付费,在兼顾性能的同时综合降本50%+。 开箱即用 云原生Serverless产品形态,一键部署,即买即用,免底层运维。统一接入点、数据智能优化等产品能力,无需维护复杂组件。 产品功能与特点 下一代Lakehouse架构 极致性价比 开箱即用 实时极速分析 自研数据优化服务,支持百万级QPS实时入湖,端到端分钟级时延。自研加速层,三级缓存结合自适应Shuffle,兼顾稳定性的同时大幅提升查询效率,提供企业级大数据分析服务。 为降本而设计的云原生存算分离架构,计算和存储均按需使用,支持按量弹性付费,在兼顾性能的同时综合降本50%+。 先进Lakehouse架构,全面覆盖湖场景(大模型数据预处理、数据科学)和仓场景(离线/近实时分析、交互式分析),满足企业大数据各类分析需求。 云原生Serverless产品形态,一键部署,即买即用,免底层运维。统一接入点、数据智能优化等产品能力,无需维护复杂组件。 新一代LakeHouse架构 湖仓双引擎,全面覆盖大数据分析场景 湖仓一体计算 AI+BI一体化 湖上建仓 LakeHouse产品形态湖仓双引擎+数据湖存储 作为AI数据基座,DLC提供高效稳定的分布式计算架构,支持对大模型海量原始数据的并行处理。在AI数据预处理场景中,云原生弹性能力综合降本达50+%。同时,企业可以直接在DLC中构建数据仓库,实现AI+BI一体化的湖仓一体架构。当前,多家头部AI企业的湖计算与数仓稳定运行在DLC上。 在湖内处理后的数据可直接使用数仓引擎进行查询,实现湖上建仓,对外提供敏捷极速数据服务,兼顾一体化与灵活性。 DLC配备自研增强Spark引擎+Presto引擎,一体化分析湖仓融合数据,无需割裂架构,解决传统架构中数据冗余、数据口径不一致等问题。 湖计算引擎数据开发平台 统一湖存储服务,能力全面,兼顾性能&成本 数据统一治理 湖仓统一存储 基于iceberg湖格式实现的湖仓统一存储,可大规模存储数据,支持事务性操作,确保数据的准确性和一致性,并允许您跟踪数据和数据结构如何随着时间的推移而变化。 自研数据优化服务统一对湖内数据进行治理,解决数据湖在大规模应用上的数据沼泽问题,使数据湖在落地场景中真正开箱即用。 实时极速分析 增强Iceberg能力,离线T+1无痛升级→分钟级近实时增强Iceberg能力,离线T+1无痛升级→分钟级近实时 Flink CDC写入可靠性提升 小文件合并性能提升 小文件合并可靠性提升 过期数据清理可靠性提升 •通过bloom filter提升合并效率•产品化默认sort策略合并进一步降低合并范围•按照equality deletes数量调度分配任务•优化快照Summary统计信息 •优化在对象存储上并行提交逻辑,减少了对存储系统的依赖同时提高提交成功率•解决bloom filter对timestamp字段类型支持不完善,导致数据重复问题 •优化移除孤儿文件/快照过期输出结果,优化不必要的数据输出•优化移除孤儿文件/快照过期执行计划,支持分布式执行 •增加上游数据同步限流•Checkpoint内预分类与预聚合•并发关闭资源 自研数据优化Smart Optimizer,业内率先突破百万QPS/秒入湖自研数据优化Smart Optimizer,业内率先突破百万QPS/秒入湖 服务产品化,解决社区iceberg使用的高门槛 Smart Optimizer •基于事件与时间驱动的可靠性模型•后端旁路优化服务,高度解耦Iceberg内核•基于策略事件规则的优化任务,任务间相互独立且扩展性强•智能化优化任务管理,支持任务反馈优化策略和规则 •一键建表、可视化及SQL建表、自动分区分桶、自动填充合理表属性参数•库级策略,表继承库策略;智能策略,根据写入情况动态调整;可视化配置及SQL配置•资源管理、超时自动重试、任务超时失败告警 自研加速层,用户实测10倍性能提升自研加速层,用户实测10倍性能提升 索引推荐,性能升级 多级缓存,亚秒级分析 自适应Shuffle,稳定可靠 •全链路索引,确保每个环节机制的查询性能•ODS层索引,大量减少ODS数据扫描量 •优先使用disk保证性能,少数情况spill tolakefs保证任务稳定性•用户无须感知shuffle service运维•用户无须购买,零成本 •Local cache/Segment cache/result cache•交互式场景达到秒级、亚秒级分析•提升元数据获取效率 存储成本节约 存算分离架构,存多少买多少,极高性价比 基于云原生存储的共享经济,实现无限拓展、弹性伸缩,降低使用成本 存算分离架构,资源无感伸缩包年包月+按量计费组合计费带来弹性成本优势按数据扫描量计费,数据分区和压缩进一步减少成本存储可靠性,99.9999999999%服务可用性,99.995%支持热、温、冷分层存储需求 计算成本节约 自动/定时启停,有任务时自动/定时拉起集群,任务结束自动关闭集群。集群关闭不收费。 集群即服务,轻量级集群彻底解决资源抢占和分配问题 多部门共享同一份数据和元数据 独立伸缩,多种计费方式,更精细化匹配不同 敏捷使用 运维和使用成本节约 无需选配、安装、调优,开箱即用,几分钟内快速开始数据探索 无需关注底层架构和服务运维无需选配、安装、调优,开箱即用丰富的控制台交互能力,数据可视化探索提供更好的产品体验统一多引擎SQL语法,直接输入SQL开始分析提供20多种云上数据流转快速通道 多引擎的SQL语法一致,创建数据库和数据表即可开始分析 ·MSCK自动加载分区·addpartition添加增量分区 ·自动推断元数据·可视化建表 数据湖计算DLC应用场景 离线/近实时数仓分析 数据科学 联邦查询 交互式数据湖探索 “企业进行海量数据分析时,通常面临性能、稳定性、时效性、复杂性等方面的挑战。” “数据是AI的基础,数据湖则是最适合AI场景数据预处理的大数据平台。” “灵活自助地探索数据,随时满足个性化查询需求。” “多源异构数据联邦分析,打破数据孤岛。” •分散在不同系统中的数据,统一查询•统一元数据管理,一个数据视图•极速联邦查询引擎 •白屏化操作,使用标准SQL即可•各类业务指标灵活的交互式查询和数据探索•领先的多级缓存加速技术•排队并发模型提升查询效率 •容器化部署,按需弹性,随用随走•Serverless免运维,专家全程支持•支持python作业•提供内置机器学习包和自定义镜像 •离线/实时数据增量入湖•分布式计算引擎、查询引擎、湖存储引擎•自适应shuffle、多级缓存、分区、索引推荐等内核增强特性•提供极速、稳定、经济、开箱即用的PB级数据离线/实时分析服务 成功案例:某新能源汽车客户-车联网数据分析 使用门槛降低 查询效率大幅提升 运维效率大幅提升•免运维 •标准SQL,普通分析人员直接使用•计算引擎按使用时计费,分析成本极低 •按车辆、采集时间分区建模、构建稀疏索引 方案架构 应用场景 成本节约按量计费,按需使用,节约分析成本 效率提升交互/批量分析满足多种场景,高效建模查询效率提升 快速入门SaaS化体验,开箱即用 信息采集海量车联网数据数据入湖 成功案例:某教育行业客户-高性能联邦分析(高途) 客户痛点 方案架构 •数据开发、运维难度高,人力成本高•多源异构数据,数据散落无章形成数据孤岛,企业数据治理困难•日均数万任务,温冷热数据不同诉求 方案适用客群 基础能力要求 头腰部客户为主,兼顾中长尾客户(轻量化运维、技术复杂度低) 客户机会点•多源异构数据造成数据孤岛 •海量日志高性能分析•实时业务数据敏捷探查 “0”成本,高性能 综合运行成本降低50%+ 运维效率大幅提升 •大规模数据秒级分析•“0”成本缓存加速方案•“0”成本提升ETL稳定性 •免运维操作,降低人力成本•联合分析工具,解决数据孤岛•标准sql,快速上手,开箱即用 •运维效能提升,大幅节省人力投入•多数据源降本方案 成功案例:某游戏客户-基于DLC构建低成本数仓 数仓搭建效率大幅提升 亚秒级高性能分析 综合成本下降70%+ •存储成本下降90%+•计算成本下降60%+•多数据源降本方案 •新一代建模,高效数据过滤助力秒级分析•“0”成本缓存加速方案•“0”成本提升ETL稳定性 •免运维操作 •各种集成/投递/联合分析工具,分钟级轻松搭建数仓 方案架构 应用场景 敏捷易用快速上手,体验流畅 零运维,低成本 实时洞察高性能实时洞察数据 成功案例:某电竞直播-基于DLC数据湖计算实践 算力资源节约30%+•弹性伸缩,轻松应对业务高峰低谷 湖计算性能提升35.5%•计算引擎优化,大幅提升场景化效能 综合运行成本降低50%+ •运维效能提升,大幅节省人力投入 方案架构 应用场景 敏捷易用快速上手,体验流畅 成本节约零运维,低成本 安全可靠安全加固、权限控制 成功案例:某传统企业-基于WeData+DLC的数据入湖分析实践 全链路一站式调度和集成 任务调度能力增强 •业务多种数据源实时入湖•任务上下游依赖调度 •支持复杂场景下的任务调度•原始数据快速加工运维到业务应用数据 •多种同步方式,多个数据