大数据国产平台实践 孙云龙 腾讯云大数据专家架构师 主题内容 目录 大数据国产趋势 核心需求与驱动 腾讯云大数据实践 成功案例介绍 自主创新的国产替代迫在眉睫 主题内容 对华出口管制事件: 自2018年以来,面向半导体、计算、材料等重要先进技术领域,某 “2+8+N”体 系 2020年 XC元年 2021年 扩大试点 2022年 行业XC元年 国持续加强对华出口管制措施 颁布5项政策为XC提供顶层规划 颁布6项政策,进一步深化十四五规划,明确自主创新并强调数据要素价值 继续出台若干政策,推动数字产业化进程,强化数据赋能,明确自主创新 2022年5月初 2022年5月底 2022年6月 CentOS停服事件: CentOS82021年12月31日停止维护 CentOS72024年6月30日停止维护 工信部发文 要求全行业全面替代 CentOS 银监会发文 要求提供CentOS的处置计划 网信办13号文件要求新项目禁止使用 Redhat和CentOS 关键基础技术领域被形势倒逼加速国产替代 国资委79号令:复杂国际形势加速安可(XC)替代 总纲节点组织 全面替换(OA,门户等); 应替就替(ERP,CRM,风控等);能替就替(生产制造,研发等); 2027:央企100%完成信息化系统安可替代,必选替换范围已明确;2022.11:要求央企100%完成方案报 送; 国资委每季度Review进展; 中央:国资委成立安可推进领导小组;各央企:党委/党组书记牵头,作为定期向国资委汇报进展的负责人; XC替代进度与国际形势复杂度显著正相关,预计未来将显著加速 日渐丰富的XC生态对大数据平台兼容性提出更高要求 XC生态 应用 平台中间件 操作系统 办公OA 企业微信泛微 腾讯会议蓝凌 数据库 TDSQL 达梦 …… ……·…… 大数据 TBDS TCHouse …… ERP 用友金蝶 …… 流版签WPS福昕法大大 ……· 移动端HarmonyOSMIUI …… 中间件普元东方通 …… 信息安全 桌面端统信麒麟 …… 服务器端TencentOS统信UOS …… CPU 飞腾鲲鹏海光兆芯 …… 存储长江长鑫嘉合劲威 …… 网络华为中兴迈普锐捷 …… 服务器浪潮紫光中科曙光 …… 基础硬件设施 XC生态具有全技术栈属性,自底向上都需要满足最严苛的兼容性需求 企业部署自主创新的国产大数据平台已成必然趋势 CDH&HDP停更无法获得持续支持 安全 国产软硬件适配受限 许可证受限风险(法律与国际形势) CDH/HDPCDP可控 CDH/HDP国产商业发行版 基于开源能否自主创新和自主创新? 是否具备专业化大数据产研服务团队? 开源社区版问题 •无法直接贴合企业内部复杂的大数据业务场景 •技术迭代快,开源生态丰富,但缺乏顶层设计 •组件间架构松散,缺乏体系化的协作 •版本混乱、组件安全问题 •…… 传统平台四大核心需求 国产需求 1.基于开源Hadoop组件或CDH构建,无法支持国产软硬件的适配; 2.CDH集群组件版本低,Hadoop新特性无法支持; 3.缺少新兴大数据组件能力来满足快速变化的业务需求; 4.无统一运维入口,平台运维复杂度高、压力大 5.缺乏有效的平台安全管控能力,无法进行一体化管控,系统安全风险高; 6.缺乏多租户与项目空间构建能力,无法有效利用系统资源并做好资源与相关权限的管控 降本增效需求 1.多集群环境管理困难,不支持集群间的纳管,元数据/数据资产不统一; 2.在离线分开部署,资源利用存在波峰波谷、利用率低; 3.存算一体架构水平扩展时导致资源利用存在浪费; 4.无法实现真正弹性伸缩; 5.无法支持更广泛的数据文件格式,混合存储能力弱; 6.由于内存限制的元数据扩展性缺陷、块汇报风暴、全局锁等问题; 复杂业务需求 1.仅能处理结构化与部分半结构化数据,处理非结构化数据困难 2.计算风格单一,流计算、图计算支持能力弱; 3.超大规模的批量计算能力差,无法支持海量数据处理; 4.无法有效利用普通的、廉价的硬件资源,集群存在理论上限,扩展性能力差 5.缺乏云化大数据能力,集群伸缩时效性低; 6.缺乏云化计算层,无法实现完善的资源隔离、弹性伸缩与高可用能力; 数据治理需求 1.数据集成、开发工作无法在线调试和发布;元数据管理及应用能力不足,缺乏数据血缘、数据权限控制等; 2.数据开发与治理工作分离,沟通成本高,开发治理长效执行困难; 3.偏重治理而非资产运营,不符合 DataOps研发运营一体化理念 4.缺乏数据跨源跨IDC的联邦查询能力,多源异构的多集群造成数据孤岛,需要数据搬迁后才能统一计算 5.需要选择不同引擎负责不同的计算,缺少统一查询计算的入口 6.普通人员缺乏专业知识来选择最佳执行引擎以应对不同数据场景 方案理念 依托三项能力建设,解决传统大数据平台四大核心需求,实现国产自主创新目标要求 湖仓统一底座引擎 1湖仓统一存算底座引擎 适应BI\AI数据应用需求,同时支持数据湖、数据仓库的云原生存算底座引擎,实现平台数据存算管理、技术栈统一的目标 2DataOps工具链 3依托DataOps数据研发运营一体化理念,构建WeData工具链实现敏捷、协同的一站式数据开发治理运维,确保数据高效生产、数据安全可靠。 国产XC大数据平台 3XC适配能力 国产生态产品的全面适配,完全自主创新的开源/自研组件功能,在满足安全可靠前提下,实现平台性能稳定性全面提升。 XC适配能力 DataOps 工具链 1 大数据存算底座引擎 2 TBDSV5.3 (一体化) TBDSV5.3.1 (云原生) TCHouse (OLAP数仓) 腾讯大数据XC大数据平台框架 金融政务工业能源零售教育交通文旅医疗其它 3全链路数据开发治理工具WeData •1腾讯云TBDS(TencentBigDataSuite)是基于开源体系,融入腾讯内部海量数据处理先进实践,面向数据全生命周期,提供一站式的,满足政企级性能、全 数据规划 数仓数据 规范标准 模型指标 设计管理 数据集成 离线实时 同步同步 数据整库 转换迁移 离线开发 任务开 发 工作流 编排 版本管 理 发布管 理 实时开发(Oceanus) 实时数据接入 实时应用开发 数据质量 规则自定 管理规则 SQL/画布 /jar包 质量质量 检测分析 数据运营 数据数据 地图发现 数据数据 洞察权限 数据服务 即席数据 查询导出 数据数据 API推送 面支持XC、安全可信、多级多租户的大数据统一存储、计算、分析平台; •2TCHouse是腾讯自主研发的分布式超大规模在线分析数仓,支持行列混存,具备极速OLAP响应、超高性能计算、存储计算分离、租户资源隔离、高效数据压缩、企业级数据安全、多级容灾等能力; 腾讯专有云PaaS底座+TencentOS+自主创新硬件 •3WeData是基于DataOps理念设计的一站式敏捷数据开发治理平台,提供数据规划、数据集成、数据开发、数据质量、数据服务等全链路开发治理能力,能够灵活应对不同应用场景,助力产业数字化转型升级。 大数据统一存储、计算、分析平台 批处理 流处理 即席分析 点查 搜索 场景 调度层 元数据层 统一存储与加速 存储层 表格式存储ICEBERG TBDS(TencentBigDataSuite)是基于腾讯多年大数据实践,面向数据全生命周期,对外提供的安全、 可靠、易用的一站式、高性能、企业级大数据存储计算分析平台。 可视化分析腾讯云BI 一站式数据开发和治理WeData 主要应用场景 数据仓库 离线仓库 Hive 实时仓库TCHouseStarRocks 平台管控TM 平台升级/国产替换: 云原生调度 K8S 资源调度 Yarn 列式存储 HBase 交互查询Trino|Impala 搜索引擎 ES 流计算 Flink 批处理 Spark CDH替换:TBDS+迁移工具Greenplum/Vertica/Teradata替换:TCHouse 企业大数据中心: 统一元数据&权限服务 数据仓库:TCHouse(传统), 实施工具Tools StarRocks(实时) 日志分析和全文检索:ElasticSearch 海量数据存算:TBDS 对象存储 COS 文件存储 HDFS 湖仓融合:TBDS(Iceberg)+SR orTBDS+TCHouse 六大核心能力 生态兼容&开箱即用 兼容更广泛的云服务以及Hadoop生态系统组件,使历史构建在hadoop上的大数据平台可以平滑迁移。全开放的数据存储格式,可按需灵活搭配、多驱动接入,二次开发API,无需额外配置,不怕绑定、专业支持 极致性能与可扩展性 单项目10万+节点,单集群万节点,日接入百万亿条数据,日实时计算5万亿次。 基于开源组件深度优化其性能稳定性,综合性能提升30%+,资源利用率提升50%+,运营成本降低30%+ 产品核心能力 全景湖仓能力 虚拟计算服务,支持跨集群统一调度资源,支持秒级启停和扩缩容;弹性伸缩控制,支持多层级资源隔离,存算根据资源动态、伸缩策略等进行弹性伸缩;自带敏捷探索分析,轻松发掘数据价值。 统一管控服务 管控与优化服务,提供统一元数据服务和一键建仓能力,权限集中管理,一次配置,多处无忧使用 国产适配安全可信 国产信息技术融合创新生态全面适配和落地经验,高可用热备与故障秒级切换,TBDS提供了严格的数据安全分类管理策略,完整4A安全体系完全满足安全合规要求,支持kerberos认证、国密安全算法等。 多场景生态融合 按需提供多场景解决方案,包括云原生数据湖、实时/离线数仓、湖仓一体、云数一体、国产数据中台,联合行业TOP级大数据合作伙伴,构建集成与被集成生态圈,有效支持全行业在统一存储、弹性计算、高效应用、低成本运营、国产替代的诉求。 安全自主创新-全面信息技术融合创新与合规支持,CDH替换最优选择 经典模式 国密算法 IPv6 云原生模式 资质认证KonaJDK 核心信息技术融合创新资质 15+ 软件著作权 兼容互认证 40+ 获奖个数 已获专利 40+ 信息技术 融合创新项目 存储和传输支持国密,如HDFS透明加密 信息技术融合创新迁移 通过工具化能力实现大部分迁移自动化 支持单双栈协议和配置 灾备 跨集群容灾+数据备份恢复+一致性校验 信通院等权威机构认证以及企业间互认证 性能突破 信息技术融合创新软硬件定向优化 基于大数据业务模型的专项优化 多芯混部 实现混合异构CPU机型无差别部署和调度 30+ 20+ 50+ 信息技术融合创新适配:CPU、操作系统、数据库… CPU 操作系统 数据库 •已收录进《信息技术融合创新技术图谱》产品库 鲲鹏海光 飞腾兆芯… TencetOS麒麟 统信红旗… TDSQL达梦 金仓神通… •国密算法软模块符合商密一级要求 •KM4密钥管理符合商密二级要求 全面支持国产软硬件生态,涵盖主流芯片、操作系统、服务器等领域。 安全自主创新--国产生态全面适配 全面支持XC国产生态,涵盖国产芯片、操作系统、服务器、数据库等领域,支持对常见的鲲鹏、海光、飞腾、申威、兆芯、中标麒麟、银河麒麟、中科红旗、统信UOS、腾讯云TDSQL等XC产品的适配。 腾讯云大数据产品获得工信部网安中心的“2020年度信息技术融合创新解决方案”典型案例,并于2022年10月被工信部下属XC工委会收录于 《XC技术图谱》产品库 安全自主创新—平台组件自主创新 完成组件全量XC适配改造,实现自主创新 2018年 TubeMQ贡献社区 2020年 腾讯云大数据产品在坚持核心技术自主创新的同时,持续回馈开源社区,主导发布了Hadoop2.8.4、2.8.5和Spark2.3.2,也是多个项目的核心贡献者,包括Hadoop、Spark、Flink、HBase、Hive、MXNet、Parquet等 主导发布Ozone1.0 安全自主创新-立体防护全面增强 强大的