TBDS新一代数据湖仓助力企业数据架构升级 主讲人:莫亦寒 01TBDS新一代数据湖仓架构 TBDS全新一代产品形态一套平台统一两种产品形态,服务全场景 Spark Flink Trino Impala Yarn Kafka ES HDFS 多类型工作负载 虚拟计算 虚拟计算 虚拟计算 虚拟计算 … 统一元数据 开放表格式存储(iceberg,hudi…) 全新一代大数据平台 基于云原生+大数据+AI技术生态构建 具备稳定易用、极致弹性、湖仓一体等特性 经典大数据平台 基于传统Hadoop技术生态构建 具备开箱即用、极致性能、安全可靠等特性 产品说明 技术架构 存算按需伸缩 采用全新Lakehouse数据架构设计 计算无限伸缩 容器 服务器 基础设施 TBDS全新一代数据湖仓架构 OpenTableFormat:Iceberg,Hudi… HDFS COS 工具 计算 存 储 集成 DataInLong全场景数据集成 统一元数据统一安全 数据仓库计算 … 缓存&物化视图 虚拟计算 TCHouse 虚拟计算 TCHouse 数据湖计算 … 缓存加速 虚拟计算 虚拟计算 … TI-ONE 探索分析 腾讯云BI WeData 开放敏捷 兼容自主软硬件生态,遵循开放标准,架构敏捷灵活,易扩展 弹性伸缩 云原生架构设计,极致弹性 混合负载 实时离线一体化,计算隔离无干扰,减少数据移动 集约成本 存算按需伸缩,智能调优,使用与维护成本低 全面统一 入湖 存储 计算 开发 管理 作业 轻,快,易用,安全 传统大数据平台挑战 全新升级解锁卓越优势 资源成本高 计算存储资源无法提前准确估算,成本非常高 技术复杂性高 需要数名资深工程师才能管理运维数据湖系统 更轻 •技术栈统一、聚焦 •架构敏捷,存算按需伸缩 •无服务形态,一次部署随开随用 更快 •海量数据查询3倍提速 •秒级启停,极致弹性 •T+1升级为近实时 技术抗风险能力弱 开源技术繁多,规范各异,企业难应对技术高速迭代挑战 运维配套设施匮乏 迁移、容灾备份、监控、异常告警等运维设施匮乏 更易用 •全面云原生,易运维 •开放不锁定,易与生态集成 •调优全托管、优化可观测 更安全 •多级多租户,隔离无干扰 •数据与资源权限集中管控 •全面强化5A安全体系 ALLinOne一站式全场景数据分析 实时场景 实时打点 分钟-小时推送 ODS DWD DWS ADS 数据湖 海量数据高性能分析 丰富数据科学分析 开放高效联邦分析 数据中台敏捷搭建 近实时批流一体分析 数据源 实时 数据集成 离线 T+0T+1 日度指标 离线场景 实验指标 交互场景Ad-hoc探索 数据入湖、存储、分析、应用大数据场景全覆盖 新一代腾讯云大数据--业务场景应用 全行级 统一数据湖 解决方案 提供能力 业务提升 典型应用场景 更新 支持 高性能批计算 手机银行、小程序、网点智能柜台等数字化渠道的数据统一存算 全量数据统一入湖,先存后用,价值 不断挖掘 找数、用数更便利 新一代 湖仓平台 (allinone) 核心对账、历史铺底 可以更快的看到数据运算结果,支持 客户的长期兴趣画像 交易反欺诈、反洗钱 市场指标计算与订阅 量化交易 客户的短期兴趣画像 秒级 查数更快,从 跨源查询时不需要再搬迁数据 湖上查询加速 支持 更及时的市场洞察 更快业务响应而构建的竞争优势 低延时流计算 全行审计业务 分析师平台 业务指标探索 02全新架构全新体验 统一数据管控面,实现全方位湖仓管理 UnifiedCatalog 统一数据管控面,旨在帮助用户快速构建和管理湖仓架构,实现全方位湖仓管理 智能数据和业务诊断,托管式数据调优,大幅提升性能,降低管理成本 支持多种触发方式 平台智能优化 集中权限管控,全域无缝访问 精细化权限控制,安全合规无忧 权限与Ranger生态互通 统一权限管控 支持多租户和权限认证 兼容HMS,与大数据生态天然融合 统一数据/元数据管理视图 DataLake 统一元数据服务 REST JDBC 破局数据孤岛,实现数据高效共享与互操作 统一的在线目录和数据模型,支持动态注册,可扩展支持湖/仓/数据库等多种数据源 Thrift 统一的元数据访问,提供多种接入方式,可扩展支 Schema Catalog Connector FilesModel Topics 持多种计算引擎 TableViewFunction DatalakeWarehouseFilesRDBMSModelMQ 直接元数据管理支持,实时性和一致性有保障 企业级特性增强,支持多租户和访问控制 生态友好,兼容HMS,与大数据生态天然融合 统一权限服务 设置用户访问权限策略 IAMABAC 统一权限管控 全域一致性权限策略管理 安全策略集中管控,全局访问安全合规 集中管控数据访问权限,一处配置,全局可享无差别数据访问权限体验 提供DDL/DML操作及文件/目录/库/表/记录/列等精细化访问权限控制,安全合规无忧 生态友好,权限与Ranger生态兼容互通 大数据集群B Ranger Ranger权限同步 大数据集群A Ranger Ranger权限同步 统一用户权限体系,实现平台CAM用户与集群账号的一体化管理,集功能、资源以及数据权限于一身,提供与CAM一致的用户操作体验,一处配置全局生效 统一身份识别与访问管理 CAM 数据安全服务 LADPKerberosRanger 身份权限 用户用户组角色凭证策略 服务器 浪潮曙光紫光… CPU 鲲鹏海光飞腾… 跨集群虚拟计算服务 VirtualClusterVirtualClusterVirtualCluster TCHouse 联邦控制平面 集群A 集群B 集群C 跨集群统一资源调度,实现安全稳定的虚拟计算 全面支持国内软硬件生态,涵盖CPU、服务器、操作系统、数据库等,支持多租户模型下跨集群资源统一调度,对上提供统一资源池支持 面向大数据、AI等场景提供特定工作负载调度支持 ,支持在离线混部以及灵活的调度策略选择 操作系统 麒麟红旗统信… 无感弹性扩缩容支持,可支持秒级启停和扩缩容 基于K8S原生能力实现,不锁定私有云设施 跨集群虚拟计算服务 聚焦存算资源可观测、智能洞察诊断,易运维 存储统计分析诊断 存储分析 文件状态可观测;风险智能感知 横向维度 拓展业务场景支持 服务数据开发工程师和业务分析师,提供更多引擎作业洞察能力服务作业提效 主动发现任务效率瓶颈,提升单点任务运行和资源效率,提升数据开发效能 全面覆盖OLAP查询引擎,业务查询信息实时展示,慢查询信息全面掌握 纵向维度 深挖系统运维优化 服务系统运维工程师,提供运维和资源洞察能力,提升集群稳定性和资源效率 提供全面系统运维能力,多层运维体系清晰感知集群状态,全面提升集群稳定性 覆盖关键存算服务,洞悉关键优化点。运维问题主动优化提前预警;有效提升集群资源利用率 SystemOperations系统运维能力 DataETLTask 批任务分析 Ad-HocQuery 作业分析 资源消耗分析;历史执行比对;智能感知优化空间 即席查询管理 PerformanceOptimization服务优化 任务诊断 03环境全面适配 全面信创合规支持 核心信创资质 15+ 兼容互认证 40+ 已获专利 40+ 软件著作权 30+ 获奖个数 20+ 信创项目 50+ 经典模式 TBDS信创与合规能力矩阵图谱 云原生模式 国密算法 存储和传输支持国密,如HDFS透明加密 信创迁移 通过工具化能力实现大部分迁移自动化 IPv6 支持单双栈协议和配置 灾备 跨集群容灾+数据备份恢复+一致性校验 资质认证 信通院等权威机构认证以及企业间互认证 性能突破 信创软硬件定向优化 KonaJDK 基于大数据业务模型的专项优化 多芯混部 实现混合异构CPU机型无差别部署和调度 信创适配:CPU、操作系统、数据库… 鲲鹏 海光 飞腾 兆芯 CPU … 操作系统 TencetOS 麒麟 统信 红旗 … 数据库 TDSQL 达梦 金仓 神通 … 已收录进 《信创技术图谱》 产品库 全面支持国产化软硬件生态,涵盖主流芯片、操作系统、服务器、数据库、国密、IPv6等领域。 云数一体融合让大数据存算随“云”触手可及 云数一体是指大数据平台与云平台相结合,大数据平台可以借助云平台的云虚拟机、云存储、容器化底座、用户体系、运维监控、网络安全等基础能力实现云 底座、大数据之间多种能力的融合统一,降低大数据建设及使用成本。 运维轻松智能 专业云上下沉信创一云多芯 云底座 TCE 统一用户租户统一运维告警统一云资源管理和分析 精细双端运营 基础设施TIX+IDC 灾备多地多活 CPU架构 操作系统 体验如公有云般丝滑 引擎安全可靠部署自动轻量 TCenter大数据 经典集群(半托管)虚拟集群(全托管) HadoopTBDSESVC 数据库 中间件 大数据 计算 存储 网络 安全 TBDS 租户精细管理 04企业数据架构升级实践案例 Iceberg 数 据 源离线同步 hive Spark hive(ods/dwd/dws) SRspark Flink CK Flink 数据源 腾讯方案(分离—>统一) ClickHouse并发低,跨表复杂分析能力弱 Hive跑批T+1时效低 多数据源分析,数据多份存储 客户业务问题 保险行业排名前列标杆客户。从23年6月攻坚,针对统一数据湖、实时分析、***等诉求进行有效响应,与友商PK中最终获胜,于24年5月签订合同。 某头部保险公司湖仓架构助力客户大数据平台全场景升级 【统一数据湖】助力客户实现大数据湖(CDH\CDP\华为)统一:Iceberg+SR 湖仓架构符合客户对技术先进性的长期要求 【近实时分析】核心业务(客户经营、监管报送、数据BI、智能应用)时效由T+1、小时级升级为分钟级;同时支持客户上线更多实时业务(营销活动平台于24年4月顺利启动上线) 【湖资产治理】湖仓数据通过WeData数据资产平台,从数据集成、开发、治理到数据资产盘点、资产运营全链路无缝贯穿 客户价值 WEDATA 开发治理 建模 开发治理安全资产服务 数据源 离线分析 经营数据 实时分析 批量数据 用户数据 批量 产品数据 交易数据 Wedata -集成 ODS 线 计 算 DWD 计算入仓 行为数据 实时数据 实时 Flink DWS 物化视图外表查询 …… 点击日志 方案架构 集市 ADS Starrock s数仓 Trino 查询 P A R K 离 ICEBERG 数据湖 S TBDS管控平台-TM 业务集市即席BI分析 高并发查询 BI大屏 实时交互式分析 保险行业首个国产化数据湖仓一体落地实践,在TBDS+SR湖仓融合领域积累了首例宝贵案例 业务突破 一湖二区 湖上仓 实时/近线/离线湖仓全覆盖 + 数据方案 大规模联邦 数据容灾 国密/SM4 小文件治理 + 硬件资源 海光X86 兼容鲲鹏 混布优化 我们的解决方案(利旧、升级) 版本开放、湖仓能力双方联创 大规模性能瓶颈 资源利旧(X86、ARM混布支持 ) 数据容灾支持 客户核心诉求 TOP3股份制银行,是中国十大银行品牌之一,某行大数据集群4000+节点,我司从22年开始接触客户,经过50次+内外部案例方案交流、最终在与多个友商的激烈竞争中胜出。 某头部股份制银行让大数据存算随“云”触手可及 【全栈国产化】从硬件、大数据平台到上层行内应用全面实现国产化产品升级, 并且大数据平台26年可实现全行统一 【可控+安全合规】大数据平台不被厂商绑定,信创资源下的数据隔离、数据安全治理、数据容灾能力全面满足监管 【技术先进性】4000+节点下的技术规模