非结构化数据管理知识与实践 (2023版) 2023年4月 编写组成员 张群罗永秀黄永庄王雷周兆锋刘赛赛王长胜 尹卓姚宝敬任歌吕艳静方俊徐志东 曹幼林闫述陈亚军张程 张治杨吉云 龙凌云张凯彭革非刘丹 陆猛 梁勇 参编单位 上海鸿翼软件技术股份有限公司中国电子技术标准化研究院 北京中船信息科技有限公司 华迪计算机集团有限公司 北京数科网维技术有限责任公司 福昕鲲鹏(北京)信息科技有限公司北京点聚信息技术有限公司 友虹(北京)科技有限公司永中软件股份有限公司 版权声明 本白皮书版权属于上海鸿翼软件技术股份有限公司、中国电子技术标准化研究院,并受法律保护。转载、摘编或利用其它方式使用本白皮书文字或观点的,请注明:“来源:电子文件管理推进联盟”。违反以上声明者,将追究其相关法律责任。 目录 1.前言1 2.非结构化数据管理3 2.1.非结构化数据定义及特征3 2.2.非结构化数据管理的发展历程4 2.3.OFD——归档用电子文件的标准格式7 3.非结构化数据管理体系10 3.1.数据管理能力成熟度模型11 3.2.非结构化数据应用分级要求13 3.3.非结构化数据战略与顶层设计19 3.4.非结构化数据治理21 3.5.非结构化数据管理22 3.6.非结构化数据价值33 4.非结构化数据管理解决方案38 4.1.非结构化数据管理与ECM企业内容管理38 4.2.ECM内容管理成熟度模型CM³41 4.3.ECM内容管理平台架构43 4.4.ECM内容管理核心技术46 4.5.新一代ECM平台的发展方向51 5.非结构化数据管理应用实践54 5.1.非结构化数据管理应用类型54 5.2.非结构化数据管理应用实践56 6.结束语74 1.前言 数据,是当今时代企业生产生存的命脉。企业的持续经营必将产生大量数据,而海量的数据也无时不刻地在影响着企业的经营。无论是在企业的战略层面还是执行层面,数据管理对于企业决策都具有举足轻重的作用。在战略层面,基于数据管理能够有效梳理企业数据资源,支撑企业优化战略决策,提前洞悉业务中存在的潜在问题,把握市场,拓展机遇,抢占竞争先机;而在执行层面,通过数据管理能够帮助企业解决现有业务中的数据责权不清、数据标准不明、管理流程混乱、数据质量低下等常态问题,形成标准化的数据利用流程,提升运营效率,培养企业的核心竞争力。 2018年,全国信息技术标准化技术委员会大数据标准工作组组织制定的GB/T36073-2018《数据管理能力成熟度评估模型》(以下简称DCMM)国家标准正式发布。在推动DCMM国家标准落地应用过程中,当前部分企业已经逐渐形成对数据的管理意识,并陆续开展数据管理相关工作。因此,发布DCMM是顺势而为,旨在指导国内企业的数据管理建设与数据文化培养,为企业数字化基础设施的形成与完善提供方向与建议。 根据调查显示,企业数据管理工作目前侧重于结构化数据的管理,已经形成了多种针对企业业务中产生的结构化数据进行管理的专业软件,能够以体系化、动态化、甚至智能化的手段,对企业内的结构化数据进行高成熟度的管理。然而,相比之下,企业针对文档、图片、音视频等非结构化数据的管理方面仍投入不足。这些文件充斥在企业的存储系统与员工日常办公中,大部分企业却依旧处于非结构化数据的局部建设或者初步建设阶段。一方面,大部分企业尚未认识到非结构化数据管理的重要性;另一方面,缺乏成熟的 非结构化数据管理体系和工具的支撑,也缺乏针对非结构化数据实践的专门标准。 为此,上海鸿翼软件技术股份有限公司、中国电子技术标准化研究院联合北京中船信息科技有限公司、华迪计算机集团有限公司,以及北京数科网维技术有限责任公司、福昕鲲鹏(北京)信息科技有限公司、北京点聚信息技术有限公司、友虹(北京)科技有限公司、永中软件股份有限公司等电子文件管理推进联盟会员单位,共同开展对非结构化数据管理相关的技术、应用以及标准化的研究探索工作。 作为DCMM在非结构化数据领域的补充与细化,本白皮书立足于非结构化数据管理应用实践,结合DCMM国家标准体系框架,提出了非结构化数据管理能力分级评价模型,并形成以内容管理成熟度模型CM³为核心的非结构化数据管理解决方案,是鸿翼及电子标准院前期累积的重要研究成果。本白皮书的发布,一方面是为了呼吁各界加强对非结构化数据管理技术、应用及标准化工作的关注,增强社会面的非结构化数据管理意识;另一方面旨在通过分享前期研究成果,支撑各行业及企业开展非结构化数据管理体系建设,实现产业数据管理能力的全面提升。而2023年的新版本,则是基于行业近几年的研究重点,聚焦非结构化数据相关的新举措、新实践、新里程碑,对本白皮书进行了更新、勘误、充实。希望本白皮书能够与时俱进,帮助企业精准定位自身非结构化数据管理水平,以正确的手段实现企业数字化转型的目标。 本白皮书由上海鸿翼软件技术股份有限公司和中国电子技术标准化研究院共同组织编写并更新。 2.非结构化数据管理 2.1.非结构化数据定义及特征 非结构化数据是指未通过数据模型预先定义的数据,包括关系数据和模型数据。在企业的整体数据架构中,非结构化数据往往是指不适合用数据库二维关系逻辑表来表现的数据,包括所有格式的办公文档、标准通用标记语言下的子集、各类报表、图像和音频视频文件以及工程图文档信息等,约占企业数据存储量的80%。 存储在计算机系统中的数据被分为结构化数据和非结构化数据。结构化数据与非结构化数据在数据对象、数据格式、时间维度、存储形式、增长速度、信息含量、数据价值等方面存在明显差异,具体如表1所示: 表1结构化数据与非结构化数据特征差异 结构化数据 非结构化数据 数据对象 结构化数据以关系型或单一数据属性,如:银行卡号、日期、财务金额、电话号码、地址、产品名称等作为数据对象 非结构化数据以内容或本体,如文件、图像图形、音视频、邮件、报表、网页、各种纸本等作为数据对象 数据格式 强调基于表格的关系型数据值格式类型,如:字符型、整型、日期型、数值型等 由于非结构化数据较多体现在无模式、自描述的文件及内容,其数据格式更为多样,如:png、jpg、mp4、doc、ofd、pdf等各种类型 时间维度 结构化数据的以单一数据属性为主,需要构建关联,呈现分析结果,应用时效性较短 非结构化数据以文件和内容为主,信息量较大,应用时效性会更长 存储占比 在企业日常运营产生的数据中,结构化数据占存储数据总量的20% 在企业日常运营产生的数据中,非结构化数据占存储数据总量的80% 存储形式 结构化数据通常仅存储在软件应用系统和数据仓库中 非结构化数据的存储端多样,可以储存在个人电脑、服务器、应用系统、文件柜或档案室等终端以及数据湖为代表的大数据平台中 增长速度 通常结构化数据占业务数据增长量的20% 通常非结构化数据占业务数据增长量的80% 信息含量 结构化数据需要结合上下文语义呈现信息,信息量较小,着重体现在定量数据和关键的业务信息 非结构化数据所包含的信息量较大,可以扩展至情感性、描述性、文档性等更为广泛的信息 数据价值 结构化数据的价值主要体现在假设、明确或已知的数据分析价值 非结构化数据价值拥有更广泛的、探索性、数据挖掘等未知的数据洞察价值 综上所述,非结构化数据与结构化数据是两种差异巨大的数据类型,随着大数据存储和计算能力的增强,非结构化数据由于其丰富的信息量,相较结构化数据拥有更大的数据资产化价值空间。组织应注重非结构化数据在数据管理中的有效管理,着重针对非结构化数据的无序性、分散性开展价值挖掘,对缺乏规则化的非结构化数据,尤其是对分散在个人电脑、服务器、各种应用程序及大数据存储中的非结构化数据开展全面的治理,进一步发挥非结构化数据的资产化价值。 2.2.非结构化数据管理的发展历程 数据管理的起始可以追溯到20世纪60年代的数据库技术,当时计算机已经开始在商业环境下获得应用,文件是数据存储的主要介质。文件的存储和访问成为数据管理的核心需求,这也可以看作非结构化数据管理的最初阶段。 20世纪90年代初期,随着无纸化办公技术的发展,传统纸质文档逐步转换为电子化文档,这个时期企业开始构建电子文档库、数字图书馆、数字档案馆,非结构化数据管理体现为对这些数字化文 档的管理。 2000年以后,随着互联网技术的发展,非结构化数据率先体现在以WEB网页为主的内容管理上,随着网站技术的发展,出现了网页内容管理(WebContentManagement),这个时期电子商务、电子政务系统也随之快速发展。 2005年以后,随着企业信息化的不断深入,非结构化数据融入到业务场景中,企业业务流程系统承载了大量文档、图表、报告、音频等形式的非结构化数据。对这类数据的管理需求促进了ECM企业内容管理(EnterpriseContentManagement)的出现,随着ECM的出现,非结构化数据开始与业务场景深度融合,发挥出了更大的价值。 2010年以后,随着云计算,物联网、移动互联网和大数据的不断发展,非结构化数据呈现形式更为多样,如:影像文件、视频文件、工程电子文档、ISO质量电子文档等,这个阶段ECM企业内容管理和非结构化数据应用的发展也越来越趋于规模化。 2015年以后,随着人工智能技术的成熟与普遍化,非结构化数据开始向着内容服务自动化、文本挖掘、语义分析等方向发展,并形成了非结构化数据管理体系下的内容服务中台化和内容服务智能化。 从上述非结构化数据发展历程可以收获以下几点:一、非结构化数据是随着计算机应用的发展不断丰富起来的,因此任何时代,技术发展都是动力。二、非结构化数据管理的发展历程是非结构化数据逐步从离散文件升级至内容,形成统一的内容服务平台,并进一步构建起融合业务的知识体系,其本质上大大提高了生产运营效率和业务创新能力;三、多层次的非结构化数据平台提供了更为上 层的内容服务,屏蔽了下层的技术实现细节,能够更快速准确地响应业务场景化需求。 因此,随着数字数据管理的成熟,一股专注于非结构化数据管理的浪潮也在悄然崛起,以非结构化数据为研究与发展的重心,掀开了非结构化数据管理的篇章。 国际上,1990年,Documentum公司成立,成为了第一家利用标准关系型数据库技术以及面向对象方法提供企业级文档管理解决方案的公司; 2000年左右,以电子商务和电子政务为代表的门户网站的发展带来了网页内容的指数级增长,促进了网页内容管理的成熟与发展; 2002年,Documentum公司正式发布ECM(企业内容管理)产品; 2006年,微软发布SharepointPortalServer;2010年,OpenText发布; 2010年后,云计算、移动互联网、大数据的新技术改变了ECM 的形式与内容,ECM的内涵与外延不断更新。 放眼国内,从2002年起,航空、核电和工程领域的国际ECM一线厂商开始进入我国,在这些行业内,率先掀起了ECM的潮流:2008年,上海鸿翼软件技术股份有限公司发布国内首款完整 ECM产品“鸿翼edoc2ECM”; 2009年,拓尔思信息技术股份有限公司针对政府和金融领域推出WCM产品; 2010年,信达雅系统工程股份有限公司在金融领域推出ECM 影像管理产品; 2016年之后,以联想企业网盘、石墨文档等为代表的应用层的网盘和功能更全面的ECM出现,ECM系统中的文档协同和服务能力不断提升; 2017年开始,人工智能(AI)逐渐开始与ECM系统进行融合,企业开始利用人工智能手段,赋能非结构化数据管理; 2020年开始,中国ECM行业产品平台化趋势显现,以鸿翼为代表的ECM平台开始成熟,基于平台的应用开始在各行业爆发式增长,是为“中国ECM元年”。 2.3.OFD—归档用电子文件的标准格式 图文类文档是非结构化数据的常见类型之一,因为贴近决策阅读,这类文档中蕴含着巨大的有用信息。按照是否可以编辑,可以把图文类文档分为流式文档和版式文档。 流式文件支持在任意位置自由编辑,编辑后会按照流式灌排的方式进行版面重新计算与绘制,由于排