作者 摘要 吴金翼 2023年中国数据管理行业词条报告 伴随着大数据时代支撑数据交换共享和数据服务应用的技术发展,不断积淀的数据开始成为一种新型资产,数据管理解决方案的重要性逐渐凸显。数据管理是数据处理的核心,是指对数据的组织、分类、编码、存储、检索、维护等环节的操作。从细分领域来看,数据管理系统主要分为数据标准管理、数据模型管理、元数据管理、主数据管理、数据质量管理、数据安全管理、数据价值管理、数据共享管理共八大模块。数据资源已经成为数字经济时代的软件底座,几乎所有的企业级数据、终端数据和边缘设备数据都需要系统地数据管理和分析才能够赋能上层应用或企业决策,发挥其最大的价值。在中国进入数字时代后,随着存储技术和云计算的发展,数据管理解决方案对数据进行调用、处理和分析,再通过人工智能技术让数据资产化并赋能企业和应用发展。 行业头豹分类/信息传输、软件和信息技术服务业/软件和信息技术服务业港股分类法/信息科技/软件服务 数据管理行业定义 1. 原始数据通常存在质量差、价值密度低等问题,在经过采集和存储后,通常需要再经过多次加工,包括但不限于治理、建模和分析挖掘等工作,才能达到数据的规范化、资产化,实现数据的共享和流通,进而发掘数据的使用价值。数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的流程,旨在从原始数据中抽取、推导出有价值的信息,以支撑企业决策。数据管理解决方案支持和优化各项数据管理流程的运行,助力企业用户更好的整合数据资产、提升数据质量。 数据管理行业分类 2. 数据资产管理的管理职能包括数据标准管理、数据模型管理、元数据管理、主数据管理、数据质量管理、数据安全管理、数据价值管理以及数据共享管理共八个方面。一般情况下,数据管理是自下而上的模式,从元数据管理、数据质量管理两项核心数据资产管理任务作为切入点,逐步扩展到数据模型管理、数据标准管理、数据安全管理等其它数据管理职能。 类型名称 类型说明 数据标准管理 数据标准是指保障数据的内外部使用和交换的一致性和准确性的规范性约束,通常可分为基础类数据标准和指标类数据标准。基础类数据标准一般包括参考数据和主数据标准、逻辑数据模型标准、物理数据模型标准、元数据标准、公共代码和编码标准等。指标类数据标准一般分为基础指标标准和计算指标(又称组合指标)标准。基础指标一般不含维度信息,且具有特定业务和经济含义,计算指标通常由两个以上基础指标计算得出。 数据模型管理 数据模型是现实世界数据特征的抽象,用于描述一组数据的概念和定义。数据模型从抽象层次上描述了数据的静态特征、动态行为和约束条件。数据模型所描述的内容有三部分:数据结构、数据操作(其中ER图数据模型中无数据操作)和数据约束。 元数据管理 元数据(Metadata)是描述数据的数据。元数据按用途不同分为技术元数据、业务元数据和管理元数据。元数据管理是数据资产管理的重要基础,是为获得高质量的、整合的元数据而进行的规划、实施与控制行为。 主数据管理 主数据(MasterData)是指用来描述企业核心业务实体的数据,是企业核心业务对象、交易业务的执行主体。主数据管理是一系列规则、应用和技术,用以协调和管理与企业的核心业务实体相关的系统记录数据。 数据质量管理 数据质量是保证数据应用效果的基础。数据质量管理的几个典型的指标有:完整性(数据是否缺失)、规范性(数据是否按照要求的规则存储)、一致性(数据的值是否存在信息含义上的冲突)、准确性(数据是否错误)、唯一性(数据是否是重复的)、时效性(数据是否按照时间的要求进行上传)。 数据安全管理 数据安全管理是指对数据设定安全等级,按照相应国家/组织相关法案及监督要求,通过评估数据安全风险、制定数据安全管理制度规范、进行数据安全分级分类,完善数据安全管理相关技术规范,保证数据被合法合规、安全地采集、传输、存储和使用。 数据价值管理 数据价值管理是对数据内在价值的度量,从数据成本和数据应用价值两方面来测算。数据成本一般包括采集、存储和计算的费用(人工费用、IT设备等直接费用和间接费用等)和运维费用(业务操作费、技术操作费等)。数据价值(收益)主要从数据资产的分类、使用频次、使用对象、使用效果和共享流通等方面计量。 数据共享管理 数据共享管理主要是指开展数据共享和交换,实现数据内外部价值的一系列活动。数据共享管理包括数据内部共享(企业内部跨组织、部门的数据交换)、外部流通(企业之间的数据交换)、对外开放。 数据管理行业特征 3. 在数字管理解决方案主要向企业客户提供数字化基础设施底层、中间层的基础软件和技术服务,支持客户的技术团队及合作伙伴构建数据和业务应用系统,助力客户进行数字化转型。随着管理数据对象越发复杂,数据处理技术越发成熟,数据应用范围越发广泛,数据管理解决方案在数据处理架构、组织职能、管理手段等方面逐渐呈现了一些新的特点和发展趋势。 中国互联网行业的蓬勃发展与数字化转型促成了海量的数据规模和繁杂的数据来源 数据对象数据作为数据管理解决方案的对象,呈现数据增速快、来源多样化的特征。在数据量方面,单一机构的数据规模由以前的GB级上升到TB 持续变化级,甚至PB级、EB级。在数据格式种类方面,除传统的结构化数据之外,文本数据、图像数据、语音数据、视频数据等半结构化数据或 非结构化数据占比越来越大,种类日益丰富。在数据来源方面,数据既包括内部数据,也包括来自第三方的外部数据,既包括传统业务处理采集的业务数据,也包括手机终端、传感器、机器设备、网站网络、日志等技术产生的数据。 数据处理的底层架构正从ETL结构向ELT转变,分布式“计算+存储”的数据处理架构成为主流 数据处理数据的预处理流程正在从传统的ETL结构向ELT转变。传统的数据集成处理架构是ETL结构,这是构建数据仓库的重要一环,即用户从数架构更新据源抽取出所需的数据,经过数据清洗,将数据加载到数据仓库中去。而大数据背景下的架构体系是ELT结构,其根据上层的应用需求, 换代随时从数据湖中抽取想要的原始数据进行建模分析。以Hadoop、Spark等分布式技术和组件为核心的“计算+存储”的数据处理架构,能够支持批量和实时的数据加载以及灵活的业务需求。 数据管理 为了更好地数字化转型,越来越多的企业专门设立数据管理部门,带动新的岗位需求 职能独立传统的管理制度体系中,数据管理职能主要由IT部门来负责,是IT部门的一项工作,业务部门配合IT部门执行数据管理,提出需求。随着 化数据分析与业务融合越来越深入,业务部门逐步成为大数据应用的主角,因而数据资产管理在企业中扮演越来越重要的角色。重视数字化 转型的企业设置专门的“数据管理”职能部门或首席数据官岗位。在这种变迁背景下,数据管理的组织架构也面临革新的需求。 数据管理发展历程 4. 数据库理论自1978年进入中国,数据库通常服务于业务,数据来自各种业务系统软件程序产生的数据,或者是由和这些业务系统软件交互的用户产生的数据。1988年,数据仓库理论被提出,数据仓库通常服务于分析,数据来源是业务系统的一个或者多个数据库或者文件。数据仓库在形式化数据体系结构和数据管理实践方面迈出了重要的第一步,有效消除冗余数据源之间的不一致性。随着数据仓库的普及,数据管理开始从产品端逐渐发展成为独立的行业。 开始时间:1978结束时间:1996阶段:萌芽期 行业动态:1978年,萨师煊将数据库理论引入中国。1985年,中国数据库技术首先应用于国防、军工等领域。1988年,BarryDevlin和PaulMurphy在IBMSystemsJournal上发表了一篇文章,描述了一种用于数据管理的体系结构,其中的核心组件被称之为业务数据仓库。1989年,Oracle在中国注册中文名称“甲骨文”。在1991年,IBM宣布数据仓库作为一个产品。1992年,BillInmon的《开发数据仓库》一书开始普及数据仓库。 行业影响/ 阶段特征:数据管理伴随着数据仓库概念的发展,自1990年代开始逐渐热门。随着数据仓库落地应用与展开,企业的业务数据结构问题开始出现,数据管理的重要性凸显。数据管理的提出,在早期主要是为了解决数据对硬件、软件资源的占用问题,通过体系化的管理,降低数据冗余,同时提高数据适配性、准确性、可用性以及规范性。 开始时间:1997结束时间:2005阶段:启动期 行业动态:1997年,Oracle承接中国东三省邮电管理局5期工程项目,中国第一代DBA(数据库管理员)诞生。DBA的核心目标是保证数据库管理系统的稳定性、安全性、完整性和高性能。1999年,国产数据库企业,北京人大金仓信息技术股份有限公司成立。2000年,中国数据库商业化企业,武汉达梦数据库有限公司成立。2003年,普元信息技术股份有限公司成立, 行业影响/ 阶段特征:依靠手工人力的电子表格数据管理模式被自动智能的专业工具取代,越来越多的数据库管理员、业务分析师等数据管理相关岗位出现。以数据库为代表的数据管理工具和应用增强企业的数据管理能力,包括梳理元数据、管理主数据,优化数据集成、提升数据质量等。自动智能的专业数据管理工具逐渐发展成系统化的数据管理解决方案。 开始时间:2006结束时间:2025阶段:高速发展期 行业动态:2006年,中国头部的数据可视化厂商,帆软软件有限公司成立。同年,数据智能应用软件开发商明略科技成立。2013年,互联网行业开始进入高速发展阶段,电子商务的市场需求呈现爆发式增长。互联网企业的数据量开始呈指数级上升,数据管理需求释放。对接企业客户和政府部门的数据管理解决方案提供商开始相继出现。 行业影响/ 阶段特征:数字经济时代的到来催化了数据管理解决方案底层技术的迭代和终端产品的优化。数据的资产价值愈发重要,各行各业的企业对数据管理产品的需求持续增长。数字经济推动了数据的生产、分析、决策的需求释放,帮助企业数据价值变现的数据管理解决方案行业进入高速发展阶段。 数据管理产业链分析 5. 数据管理行业的上游是基础软件,一般包括大数据基础平台、数据库、数据库中间件和数据科学平台。数据管理基础软件对多种场景、多种来源、多种类型的源数据进行有效的采集、储存、管理并提供相关开发平台和工具,统一管理业务中所需要的数据,让客户在数字化转型时有坚实的数据和工具支持。数据管理行业的中游是数据应用系统,构建在基础软件之上,系统架构包括数据湖、数据仓库、数据集市等,应用方向主要有数据治理、数据中台、数据分析平台、数据可视化平台、数据安全、云计算服务。数据管理行业的下游是政府部门和企业客户,数据管理解决方案为业务部门构建的数字化运营、数字化决策、智能制造、数字营销、智能风控等应用系统,助力政府部门和企业客户更加实时、准确地进行商业决策,提高业务运营效率,从而将数据价值转换为业务价值,实现数字化转型。 上游环节 上游说明 上游参与方 大数据基础平台 大数据平台是指以处理海量数据存储、计算及不 普元信息技术股份有限公司、亚信科技(中国) 间断流数据实时计算等场景为主的一套基础设 有限公司、创络(上海)数据科技有限公司、北 施。典型平台架构包括Hadoop系列、Spark、St 京明略软件系统有限公司 orm、Flink等组件集群。大数据平台的架构既可以采用开源平台,也可以采用华为、星环等商业级解决方案,既可以部署在私有云上,也可以部署在公有云上。中国代表性的大数据平台开发商有普元信息、创略科技、亚信科技、明略科技、卓朗科技等。 数据科学平台 数据科学平台指利用数据、算法、机器学习和AI 网易(杭州)网络有限公司、星环信息科技(上 技术发现模式并构建预测的平台。该平台集成了 海)股份有限公司、阿里巴巴(中国)网络技术 数据开发、生产运维、实时分析、资产管理、数 有限公司、华为技术有限公司 据质量、数据安全、数据共享等核心模块,起到承上启下的作用。数据科学平台为数据管理应用的开发者提供数据从采集到展现、从分析到驱动应用的一站式平台服务。中国代表性的数据科学平台开发商有星