《数据管理中的文件档案与内容管理白皮书》(2023年) 编写组 中国人民大学电子文件管理研究中心:刘越男杨建梁祁天娇何思源上海鸿翼软件技术股份有限公司:龙凌云罗永秀闫述寇亚孟任歌 目录 1背景1 2文件、档案与内容管理的相关概念2 2.1文件、档案与文档2 2.2内容、数据与知识2 2.3文档管理与内容管理3 2.4文档生命周期与数据生命周期4 3数据管理框架下的文件档案与内容管理4 4文档与内容管理价值与效用6 4.1安全合规6 4.2提效降本6 4.3业务连续7 4.4决策支持7 4.5洞察创新7 4.6权益保障7 4.7资产增值8 4.8记忆(历史)留存8 5内容管理软件的应用及类型8 5.1应用架构视角下的内容管理软件应用8 5.1.1企业内容管理系统9 5.1.2内容协作系统10 5.1.3网页内容管理系统10 5.1.4文档管理系统10 5.1.5影像管理系统11 5.1.6质量体系文件管理系统11 5.1.7知识管理系统11 5.1.8合同管理系统12 5.2不同行业领域中的内容管理应用类型12 5.2.1制造行业内容管理应用13 5.2.2制药行业内容管理应用13 5.2.3军工行业内容管理应用14 5.2.4金融行业内容管理应用15 5.2.5新能源行业内容管理应用16 5.2.6核电行业内容管理应用16 5.2.7工程设计行业内容管理应用17 6内容管理系统与文件档案管理系统的发展17 6.1内容管理系统的发展过程17 6.2内容管理系统的发展阶段18 6.3文件档案管理系统的发展20 7文件档案与内容管理的应用问题20 7.1IT视角下的应用问题20 7.1.1业务系统核心文件“烟囱割裂”20 7.1.2离散过程文件难以统一存储21 7.1.3海量数据带来存储扩展和安全问题21 7.1.4多分支机构对部署架构挑战21 7.2业务视角下的应用问题21 7.2.1用户很难发现想要的文件档案22 7.2.2业务文件不能及时、完整归档22 7.2.3文件档案未形成体系化知识22 7.2.4文件档案与业务融合不足22 7.2.5管理人员综合能力依然欠缺22 7.3数据视角下的文档档案应用问题23 7.3.1文件档案核心数字资产地位未被认可23 7.3.2非结构化数据管理战略规划缺失23 7.3.3内容数据化能力不足23 7.3.4文件档案数据价值释放不够24 8数据管理中的文件档案管理框架24 8.1价值实现层25 8.2文档治理层25 8.3管理活动层26 8.4技术实现层28 9数据管理中文件档案与内容管理的发展趋势28 9.1结构化数据和非结构化数据融合发展28 9.2文档管理和内容管理融合发展29 9.3文档管理和数字化业务融合发展30 9.4文档管理与内容模型的融合发展31 9.5文档管理基础建设和智能开发融合发展32 1背景 自2017年党的十九大报告中明确提出“数字中国”这一概念之后,数据作为第五大生产要素,逐渐得到了社会广泛的认可与重视。为了进一步规范数字中国建设,中国中央、国务院于2023年2月印发《数字中国建设整体布局规划》 (以下简称《规划》),为构建数字中国提供了顶层设计与整体谋划。依据《规划》,“数字中国”的建设需要夯实数字基础设施与数据资源体系“两大基础”,数据管理对于机构的重要性愈发凸显。 同时,“东数西算”国家战略体系正在全面铺开,为了构建全国一体化大数据中心体系,需要布局包括宁夏、甘肃、贵州、成渝、内蒙古、京津冀、长三角与粤港澳大湾区枢纽等算力网络枢纽,辅以各地数据中心集群,最终实现东西部网络直连,对全国的数据输送与计算进行一体化调度,从而充分发挥数据要素在数字中国构建中的重要作用,赋能数据要素高效流通。 然而,根据国内外多个研究机构的调查,大多数机构中非结构化数据占全部数据的80%以上。数字环境下,大多机构的文件档案管理依赖基于非结构化数据 (即本白皮书所称内容)的解决方案,文件档案与内容有着异常紧密的关系。如果说数据是一座煤矿,谁能掌握这座煤矿,谁就能为机构发展提供动能,那么文件档案与内容数据就是潜藏在煤矿深处的钻石,谁能够率先发现这些钻石,谁就能先人一步洞察和刻画机构内外的种种变化,进一步将数据的价值和潜能释放出来。 国际数据管理协会在其标志性出版物《数据管理知识体系指南(DAMA-DMBOK2)》(第二版)中将文件档案与内容管理放在了数据管理框架中显著的位置,凸显了文件档案与内容管理对于数据管理的重要性。然而,现阶段我国大多数机构管理者和相关人员对文件档案与内容管理的认识尚有不足,文件档案与内容管理在实践中并没有受到应有的重视。文件档案与内容管理的管理范式与一般的数据管理相比也存在较大差异,相关方法和技术工具尚不丰富。面对现状与问题,编写组特别编制了《数据管理中的文件档案与内容管理白皮书》,为行业从业人员、用户及潜在用户和社会相关人员提供文件档案与内容管理涉及的基本概念、效用价值、主要技术、系统功能等通识性知识,以期加强文件档案管理领域和技术领域的对话和合作,推动文件档案管理事业与内容管理行业的共同发展, 此次更新(2023版)更是追随当下的非结构化数据管理发展脚步,与时俱进,为读者提供最新的行业实践与发展趋势。 本白皮书的编制主要参考了《中华人民共和国档案法》(2020)、ISO15489-1:2016《信息与文献文件管理-第1部分:概念与原则》、GB/T18894-2016《电子文件归档与电子档案管理规范》、GB/T36073-2018《数据管理能力成熟度评估模型》、《数据管理知识体系指南(DAMA-DMBOK2)》(第二版)等法律法规、标准规范和文献材料。 2文件、档案与内容管理的相关概念 2.1文件、档案与文档 从文件档案管理视角来看,文件(records)是指机构或个人在履行其法定义务或开展业务活动过程中形成、接收并维护的作为凭证和具有查考作用的信息,可简称为“业务凭证”。1档案(records/archives)是指形成文件的业务活动结束之后仍然具有保存价值的文件。文档是文件和档案的合称。 从计算机技术视角来看,文件(file)是作为一个单元存储或处理的命名的记录集。2文档(document)主要是指非结构化数据。 除非特别说明,本白皮书使用的文件、档案、文档概念均来自文件档案管理领域。 2.2内容、数据与知识 从信息的角度来看,内容是指以任何形式或载体存在的有含义和背景的信息。在计算机技术领域,内容(content)一般指非结构化数据,是非结构化数据厂商提出的特定概念。在本白皮书中,数据与数字数据同义,是指以数字形式存在的信息记录。按照数据单元被定义的程度,数据一般包括结构化数据、非结构化数据以及介于两者之中的半结构化数据。其中,结构化数据是指存储在数据库里, 1中华人民共和国国家标准GB/T26162.1-2010/ISO15489-1:2001信息与文献文件管理第1部分:通则 [S] 2中华人民共和国国家标准GB/T5271.1-2000/ISO/IEC2382-1:1993信息技术词汇第1部分:基本术语 [S] 可以用二维表结构来逻辑表达实现的数据。非结构化数据是指未通过数据模型预先定义的数据。3 而知识是人们通过实践对客观事物及其运动过程和规律的认识,即被人们理解和认识并经头脑重新组织和系列化的信息,是经验、技能的总结,是组织发展竞争力的基础。在反复实践和认识的过程中,人脑通过对相关概念的判断、组合和推理,形成对事物本质的认识,构成头脑中的知识,可称为主观知识,或者称为隐性知识;如果经过各种载体记录下来,则成为客观知识,也可以被称为显性知识。 2.3文档管理与内容管理 文档管理是一项专业工作,指对文件从生成、处理、流转、归档、移交、鉴定、保存到利用、处置等全生命周期进行管控的领域。手工环境下文件形成过程中的管理和档案管理相对独立,数字环境下文档一体化是文件档案管理的基本要求。 内容管理是一个IT产品分支,支持对非结构化数据进行采集、处理、组织、存储、查询和共享,实现从内容采集、创建、传递到内容分析等整个内容价值链的整合。 从概念来看,文件档案既可能是结构化数据,也可能是非结构化数据。但是在实践中,文件档案管理系统通常采用非结构化数据管理方案,以结构化数据存在的文件或者在归档环节被转化为非结构化数据(比如版式电子发票),以便固化其内容、背景与结构并进行长期保存;或者以数据文件的方式保存在文档系统中,该数据文件可能是多个业务记录的集合体。 虽然内容管理方案是非结构化数据的管理方案,但对内容的管理,需要借助于描述内容的结构化数据(元数据)展开;对内容的分析、挖掘与开发,则需要将非结构化数据转化为结构化数据,这是电子文件数据化的重要任务。结构化数据和非结构化数据,存在互相转化、互相支持、相互协同的关系。 3DAMA国际著,DAMA中国分会翻译组译.DAMA数据管理知识体系指南[M].北京:机械工业�版社, 2020:229 2.4文档生命周期与数据生命周期 生命周期是看待和管理文档、内容和数据的重要视角,它倡导将文档、内容和数据看成一个有始有终、不断发展变化的对象,并根据其不同阶段的特点实施区别化的管理。其中,文档生命周期是指文件从产生到最终销毁或作为档案永久保存的整个运动过程。从文档价值来看,文档生命周期包括现行文件、半现行文件和非现行文件等不同阶段;从管理环节来看,文档生命周期主要包括生成、鉴定、归档、分类、存储、利用、分析、保存和处置等环节。根据DAMA的界定,数据生命周期包括计划、设计、创建/接收、存储或处置、利用或复用、增值等环节,一方面,该定义将生命周期提前到数据实际产生之前的规划设计阶段,这与1997年国际档案理事会把电子文件划分为设计/概念阶段、形成阶段和维护阶段异曲同工。另一方面,该定义更为强调数据的增值利用,这提醒文档管理工作人员也要重视文档的复用和增值。 3数据管理框架下的文件档案与内容管理 随着文件档案和内容的数据属性逐渐明确,价值逐渐得到认可,文件档案与内容管理已经成为数据管理的重要组成部分。在DAMA的数据管理功能框架中,文件档案与内容管理被认为是数据生命周期管理中数据“使用与增强”阶段的组成部分,如图1所示,在文字描述部分,综合了非结构化数据和文件档案专业管理的内容。在数据管理的框架下,文件档案与内容管理已经成为机构数字治理和数据资产化的关键环节,是在数据流转过程中数据价值洞察和挖掘的基础性工作。 图1DAMA数据管理功能框架 尽管DAMA将文件档案与内容管理放到了一个比较高的位置,但是其提出的数据管理功能框架对于文件档案与内容管理的描述层次比较单薄,对文件档案与内容管理的价值认知有限。DAMA的数据管理功能框架将文件档案与内容管理描述为数据生命周期管理中一个特定阶段,即在数据管理中的某个阶段,数据管理会表现为文件档案与内容管理。但是,文件档案与内容有着更丰富的内涵,从横向来看,文件档案与内容管理同样存在其生命周期。文件档案与内容的管理过程与其生命周期相对应,包括文件档案与内容数据的产生、捕获、分类索引、访问控制、存储、利用和重用、长期保存以及处置等。文件档案与内容管理并非是数据管理的一个特定阶段,而是贯穿于整个数据生命周期。从纵向来看,对于文件档案和内容的管理也需要着眼数据治理开展规划与监管,并提供元数据管理、风险管理等基础数据管理活动的支撑。 本白皮书认为:文件档案与内容管理并不只是数据管理的一个独立分支,而是渗透和融入数据管理的所有方面。文件档案管理工作因内容管理方案的应用而延展,内容管理方案也因文件档案管理的应用而专业。 4文档与内容管理价值与效用 图2文件档案与内容管理的价值 4.1安全合规 文件档案与内容管理有利于帮助机构规避法律风险。有效的文件档案与内容管理能够保障机构依法维护机构业务记录的真实性和可靠性,保障证据性记录的长期保管,避免重要记录因管理不善而遗失、泄露或被篡改所带来法律风险,保障机构的合法利益。 4.2提效降本