—2023— 数据湖和湖仓一体产业观察 云计算与大数据研究所 数据湖和湖仓一体技术发展及现状介绍 数据湖&湖仓一体产业观察 信通院未来工作计划 数据湖和湖仓一体技术发展及现状介绍 我国大数据发展态势好动力足 多年来,我国大数据高速发展,不断取得重要突破,发展态势良好。 产业规模 1.3万亿 论文全球占比 31% 全球专利受理占比 >50% 大数据市场主体 超18万家 企业获投总金额 超800亿元 近一年,我国在政策、人才、资金等方面持续加码,为大数据后续发展注入强劲动力。 部分代表性政策 时间文件名称 2021.11 工信部 《“十四五”大数据产业发展规划》 2022.1 国务院 《要素市场化配置综合改革试点总体方案》 中共中央国务院 •147所“双一流”高校中有87所已开设了大数据专业,占比达到59% 人才•广东实施“十万”产业数字化符合性人才培训行动;浙江围绕 数字人才制定“高精尖缺”人才目录;福建明确要求县级以上地方人民政府制订大数据人才发展计划 •宁夏对于区内符合标准的优质大数据企业给予最高300万的资 2022.4 《关于加快建设全国统一大市场的意见》 金支持 资金•山东、黑龙江等省份要求省内县级以上人民政府每年需统筹安 2022.12 中共中央国务院 《关于构建数据基础制度更好发挥数据要素作用的意见》 排资金专项扶持大数据相关企业 •江苏省每年在省级财政安排12亿元专项资金支持工业企业“智改数转” 大数据技术进入深度优化阶段 经过60余年发展,大数据技术框架趋于成熟,进入深度优化阶段。目前已经形成了以分布式数据库、数据仓库、批处理平台、流处理平台为代表的总体技术框架,并广泛应用,已能够支撑具有高并发、低延迟数据处理分析需求的极端场景。 20世纪60年代 支撑数据存储计算的软件系统起源于本时期的数据库 20世纪70年代 关系型数据库诞生,并成为沿用至今的数据存储计算系统 20世纪80年代 数据仓库理论被提出,成为之后一段时期内发掘数据价值的主要手段 2000年前后 面向非结构化数据的 NoSQL数据库兴起 来源:中国信通院,2022 2010年前后 计算实时性和数据源多样性存储使用需求催生了数据湖概念,同时随着云计算技术的深入应用,数据平台技术完成了从私有化部署到云上部署再向云原生的转变 融合性 复杂多变的业务诉求 实时性 湖仓一体数据平台 企业复杂多变的业务诉求需要湖仓一体平台 系统复杂 昂贵数据移动成本 高延迟 限制了对机器学习的支持 缺乏开放性 1个 数据湖 N个 数据仓库 N个 专用系统:流、时间序列、图像数据库等 随着数据类型多样化、分析场景的多元化,企业需要搭建数据平台来支撑各种数据应用系统,比如SQL分析、实时监控、机器学习等,进而助力企业加速实现数据价值变现。当前常见的数据平台架构是使用多个系统来平衡数据仓库和数据湖的优劣势。 1 统计分析预测分析转变 2 单领域分析跨领域分析转变 需求 3 被动分析主动分析转变 4 非实时分析实时分析转变 5 结构化数据分析多元化数据分析转变 湖仓一体提升数据管理效率和灵活性 湖仓一体是为解决大数据场景下的实时处理诉求高、非结构化数据治理难、系统运维复杂等问题的一种新型架构。湖仓一体打破数据仓库与数据湖之间的壁垒,融合两种架构的优势:构建在数据湖低成本的数据存储架构之上,同时具备数据仓库的数据处理和管理能力。 实现方案: •基于Hadoop体系的数据湖向数据仓库能力扩展 •基于云平台进行架构构建 •基于三大开源数据湖(Hudi、 Iceberg、DeltaLake)的解决方案 •基于数据库的自研平台 应用 安全 统一元数据管理 计算流动 数据源 数据仓库 数据湖 湖仓数据治理 统一数据管理 统一湖仓血缘 七大技术特性: •多种数据类型分析 •数据治理 •事务支持 •BI支持 •存算分离 •开放型 •实时性 数据湖&湖仓一体产业观察 中国信通院—信息社会创新发展的思想库和使能者 1957年1994年1998年2008年2014年 邮电部 邮电部邮电分营 组建信产部 组建工信部 工信部 邮电部邮电科学研究院 邮电部 电信科学研究 规划院 信产部电信研究院 工信部电信研究院 中国信息通信研究院 发展使命 信信息息社社会会创创新新发发展展的的思思想想库库和使和能使者能者 发展定位 国家高端专业智库 产业创新发展平台 文化理念 国家高端厚专德业实智学库 兴产业业致创远新发展平台 14个业务部门 政技产 策术业 与与与 经标规 济准划 研研研 究究究 所所所 云 计 算 与 大 数 据 研 究 所 中国信通院—信息社会创新发展的思想库和使能者 4个分院(深圳、重庆、上海、广州) 信息 工业 安全 泰尔 泰尔 泰尔 无线 移动 知识 工业 化 互 研 系 终 认 电 通 产 和 与 联 究 统 端 证 研 信 权 信 工 网 所 实 实 研 究 创 中 息 业 与 验 验 究 中 新 心 化 化 物 室 室 所 心 中 法 融 联 心 律 合 网 服 研 研 务 究 究 中 所 所 心 19个省通信管理局行业支撑中心 20家创新中心(京外) •智能制造与工业互联网领域【上海、江苏、湖北、广东、重庆…】 •车联网领域【上海、四川】 4个部属中心 4个分院 •人工智能、大数据等新一代信息技术领域【江苏、河南…】 电 电 信 信 南 西 华 广 信 信 息 息 方 部 东 州 设 用 通 通 分 分 分 智 备 户 信 信 院 院 院 慧 认 申 业 工 城 证 诉 务 程 市 中 受 受 定 研 心 理 理 额 究 中 质 院 心 监中心 鼎力支撑国家大数据战略 中国信通院秉持“国家高端专业智库产业创新发展平台”的宗旨和要求,在大数据领域积极落实国家战略,为国务院及工信部、网信办、发改委等部 委完成了大量支撑工作,获得广泛认可2022 2016 2015牵头起草工业和信息化部《大数 据产业发展规划(2016-2020 2021 参与起草工业和信息化部《大数据产业发展规划(2021-2025年)》并参与宣贯实施工作 参与起草《关于构建数据基础制度更好发挥数据要素作用的意见》,支撑相关政策未来的细化和落地。 国务院以国发〔2015〕50号印发 《促进大数据发展行动纲要》成为我国发展大数据产业的战略性指导文件,中国信息通信研究院是主要起草单位。 年)》并参与宣贯实施工作 持续发布大数据研究成果 名称 发布时间 《大数据白皮书(2014年)》 2014.5 《中国大数据发展调查报告(2015)》 2015.5 《大数据白皮书(2016年)》 2016.12 《中国大数据发展调查报告(2017)》 2017.3 《数据资产管理实践白皮书(1.0版)》 2017.11 《大数据白皮书(2018年)》 2018.4 《数据资产管理实践白皮书(2.0版)》 2018.4 《中国大数据发展调查报告(2018)》 2018.4 《金融分布式事务数据库白皮书》 2018.6 《大数据白皮书(2019年)》 2019.12 《数据库迁移技术报告》 2020.7 《大数据白皮书(2020年)》 2020.12 《数据库发展研究报告(2021年)》 2021.6 《大数据白皮书(2021年)》 2021.12 《数据库发展研究报告(2022年)》 2022.6 《云原生数据库白皮书》 2022.6 …… …… 在大数据领域深入研究,共计发布白皮书等研究成果50余份 供给侧:产品评测、服务能力评估、方法论提炼输出、联合研究报告 中国信通院大数据工作体系 生态侧:政策支撑、标准制定、人才培训、案例征集、产业大会、合作平台 应用侧:政策解读、项目咨询、项目验收、应用水平评估、方法论提炼输出、实验室共建、联合研究报告 提供存储、计算、分析等数据智能基础能力 数据基础设施的功能、性能、稳定性、安全性 数据基础设施实施服务体系、运维保障 数据基础设施 数据基础设施工作体系 数据基础设施工作体系从2015年起开始搭建,核心围绕数据采集、存储、计算领域的技术产品、解决方案以及 供给侧服务能力 应用侧运维能力 平台建设服务商平台建设服务商平台建设服务商咨询规划能力实施部署能力运维运营能力成熟度模型成熟度模型成熟度模型 数据基础设施 稳定性保障组织制度能力 数据基础设施 稳定性保障技术工具能力 数据基础设施系统稳定性能力 技术产品(功能、性能、稳定性、安全性) 基解础分布式批处理分布式流处理对象存储文件存储决数据平台整体平云原生云原生方解决方案数据中台解决方案台消息中间件云原生数据湖实时数仓湖仓一体案类类 开数据集成工具数据管理平台数据开发平台数据质量分商务智能分析工具数据可视化产品数据科学平台发管理平台析管数据标准数据标注数据模型数据资产应理管理平台管理平台管理平台目录管理平台用图计算平台知识图谱工具用户行为分析类类 供应商,覆盖其选型、实施、应用、运维全流程,从而指导大数据实现技术突破、合理应用。 截止2022年 底: 已有144家企业参与测试; 依照标准的贯标测试次数达到360次 国际标准(2项)行业标准(9项)团体标准(50余项) 持续进行理论研究,自研多款测试工具 •ITU-TF.FDAM"Frameworkfordataassetmanagement" 3款测试工具,覆盖多场景、多能力 •ITU-TF.AFBDI"Assessmentframeworkforbigdatainfrastructure" •大数据数据挖掘技术要求与测试方法 •大数据数据集成工具技术要求与测试方法 •大数据分布式批处理平台技术要求与测试方法 •大数据分布式事务型数据库技术要求与技术方法 •大数据大数据分布式分析型数据库技术要求与测试方法 持续发布大数据研究成果 •大数据用户行为分析技术技术要求与测试方法 在大数据领域深入研究,共计发布白皮书等研究成果30余份 中国信通院从2014年起,开始发布 《大数据白皮书》,内容包括大数据领域内政策、技术、产业、应用等,旨在梳理产业现状、定位产业问题、引导产业方向。目前已经发布7版,已经成为业界洞察大数据产业发展的重要参考。 云原生数据湖技术要求 数据湖 9 存储 运维 安全 计算 兼容性 数据管 理 湖应用 高可用 数据格式 计量 认证 弹性-扩容 计算生态支持 数据源管理 数据处理 故障恢复能力 存储分级 配置管理 授权 弹性-缩容 数仓生态支持 统一元数据管理 数据工作流 容灾能力 缓存加速 监控告警 审计 数据湖格式 CPU/操作系统兼容 性 文件/对象操作 事件通知 加密 存算分离 版本兼容 数据可靠性 多租户 完整性保护 支持多场景分析 多语言支持 域名管理 支持混合节点扩缩容-1 身份鉴别 容器化 存储生态支持 计算下推 支持混合节点扩缩容-2 合规保留 数据格式加速 容器生态支持 跨域访问 支持混合节点扩缩容-3 防盗链 存储系统限流 运维授权 阿里云、腾讯、星环等9家企业产品通过测评 标准牵头单位:标准参与单位: 云原生数据湖技术要求包括存储、计算、安全、数据管理、兼容、运维、湖应用、高可用共计8大能力域,46个能力项 云原生湖仓一体数据平台技术要求 湖仓一体 4 阿里云、科杰、新华三、南大通用等4家企业产品通过测评 湖仓数据集成 湖仓存储 湖仓计算 湖仓数据治理 湖仓其他能力 数据源管理 存算分离 存储生态支持 统一元数据管理 异地容灾 湖仓数据转换能力 存储分级 认证授权 统一数据管理 入湖仓能力 数据湖格式 统一开发平台 统一湖仓血缘 存储加速 弹性能力 数据评估能力 存储加密 多场景融合分析 数据标准及数据质量 统一资源管理 动态数据加密 多计算模式支持 数据建模能力