1 版权声明 本报告版权属于CCSATC601大数据技术标准推进委员会,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明“来源:CCSATC601大数据技术标准推进委员会”。违反上述声明者,将追究其相关法律责任。 编制说明 本报告的撰写得到了数据治理、大数据和人工智能等领域多家企业与专家的支持和帮助,主要参与单位与人员如下(排名不分前后)。 参编单位:大数据技术标准推进委员会、中国联合网络通信集团有限公司、联通数字科技有限公司、中电信人工智能科技(北京)有限公司、中国联合网络通信有限公司软件研究院、中国人民大学、南京大学研究中心、广州信安数据有限公司、星环信息科技(上海)股份有限公司、交通银行股份有限公司、北京神州绿盟科技有限公司、央视频融媒体发展有限公司、亚信科技(中国)有限公司、广州小鹏汽车科技有限公司、北京枫清科技有限公司、华为云技术有限公司、腾讯云计算(北京)有限责任公司、普元信息技术股份有限公司、软通智慧科技有限公司、讯飞智元信息科技有限公司、中电科大数据研究院有限公司、电科云(北京)科技有限公司、上海浦东发展银行、创意信息技术股份有限公司、山东犀盐数据科技有限公司、芜湖明瞳数字健康科技有限公司、深圳市明源云科技有限公司、北京中软国际信息技术有限公司、中国移动紫金(江苏)创新研究院有限公司、杭州比智科技有限公司、云赛智联股份有限公司、湖北数据集团、北京卓信智恒数据科技股份有限公司、海南数造科技有限公司、一汽大众汽车有限公司。 参编人员:尹正,姜春宇,王妙琼,郭彦美,高倩倩,阚鑫禹,李雨霏,刘寒,周京晶,张娇婷,邱梦媛,周圣文,崔一妍,刘思达, 张一鸣,田明慧,马闻达,林木森,王宇龙,艾博焕,高海暘,安小米,蔡洛维,崔博亚,丁乙,何徐麒,胡斌,黄超,李建慧,李金夏,李凯东,屈晓龙,邝苗苗,史赟,谭晟中,王爱书,王瀚,王伟杰,王项男,王潼,闫龙,杨瑞,禹芳,徐松林,夏义堃,张艳红,赵丽丽,鲍立飞,陈韩霏,陈正伟,曹宗伟,崔壤丹,丁洪鑫,代威,方正,高雪峰,高华超,古伟,顾正嘉,龚禧,龚昱鸣,郭文鹏,花福军,黄启洲,胡文涛,姜丹丹,姜鹏,江龙兵,金依扬,刘頔,刘意凡,刘晨璐,刘庆会,刘燕,李光耀,李阳,李铁峰,李晓娟,卢科,梅珂夫,彭建辉,彭涛,钱龙,石荣达,万如意,王远,谢亚南,谢锋,肖美虹,徐超,徐聪颖,薛高飞,杨博,杨明皓,余震宇,袁雪梅,苑国跃,曾伟雄,曾云,张芬,张广庆,张玥玥,张可雨,张毓,张春雷,张文翔,周正斌,周小敏,周海涛,周维,周映,庄颂。 特别感谢以下专家对报告编制给予的专业性指导:安小米,蔡洛维,崔博亚,丁乙,何徐麒,胡斌,黄超,李建慧,李金夏,李凯东,屈晓龙,邝苗苗,史赟,谭晟中,王爱书,王瀚,王伟杰,王项男,王潼,闫龙,杨瑞,禹芳,徐松林,夏义堃,张艳红,赵丽丽。 引言 自1988年由麻省理工学院的学者启动了全面数据质量管理计划 (TDQM)以来,随着大数据技术的迅猛发展,企业内数据量急剧上升,数据治理的内涵也在不断地变化和丰富。2021年,随着以大模型为代表的生成式人工智能技术席卷全球,对人类的生产和生活都带来了革命性的变化,人工智能的发展从以模型为中心转变为了以数据为中心。以数据为中心的人工智能理论认为,好的人工智能需要高质量、大规模和多样性的数据。但在实践过程中,数据科学家们往往会遇到数据安全与隐私泄露、内容输出偏见与歧视以及数据“高量低质”的问题。如果放任这些问题不加管制,将会阻碍人工智能技术的进一步发展,甚至会危害个人、企业甚至国家的安全。 为了应对这些挑战,开发出更负责任、更可控的人工智能应用,面向人工智能的数据治理(DG4AI,DataGovernanceforArtificialIntelligence)概念应运而生。 当前,DG4AI的需求极其迫切,其研究与实践还处于起步阶段,概念和实践方法论尚未形成。为凝聚共识、开宗明义,大数据技术标准推进委员会(CCSATC601)组织大型银行、通信运营商、头部互联网公司共同编写《面向人工智能的数据治理(DG4AI)实践指南 (1.0)》,旨在推动DG4AI理念的广泛应用。本指南第一章从数据治理的发展、面向人工智能的数据治理定义、治理主要阶段以及价值等明确人工智能数据治理的概念。第二章从治理的方法和技术对 DG4AI的重点工作进行说明。第三章提出了一种DG4AI的数据治理步骤,为业界抛砖引玉,提供参考。最后在第四章提出了展望。在附录中我们以美国为主要研究对象,对比了中美在DG4AI在国家战略、法律类法规以及标准建设上的现状。 本指南在细节和深度上仍有较大提升空间,希望业界更多的专家能够不吝赐教,提出宝贵的修改意见。工作组将持续不断地完善这一指南,对我国DG4AI这一研究领域尽绵薄之力。 联系人:尹正 联系电话:15810811776 联系邮箱:yinzheng@caict.ac.cn 一、人工智能数据治理概念界定 (一)数据治理的发展 1.数据治理的发展 数据治理的概念起源于企业管理领域,关于数据治理的定义研究众多,但由于业界权威研究机构、研究学者以及国内外标准组织研究视角不同,尚未形成较为统一的认知。 国际数据治理研究所(DGI)提出数据治理的定义为“一个根据既定模型针对信息相关过程的决策权和职责分配体系”。 梅宏院士在《数据治理之论》一书中提出数据治理的核心内容包括以释放数据价值为目标、以数据资产地位确立为基础、以数据管理体制为核心、以数据共享开放利用为重点、以数据安全与隐私保护为底线。 国际数据管理协会(DAMA)提出的数据治理概念为“在管理数据资产过程中行使权力和管控活动,包括计划、监控和实施。” 此外,在国际标准中,最早出现的数据治理(datagovernance)术语定义源自ISO/TR14872:2019Healthinformatics—Identificationofmedicinalproducts—Coreprinciplesformaintenanceofidentifiersandterms,将其定义为“以管理信息的质量、一致性、可用性、安全性和可用性为重点的过程”,并强调该过程与数据所有权和管理的概念密切。从上述定义的内容来看主要对信息质量的管理,而后有国际标准从IT治理、数据资产管理等视角定义数据治理,逐渐凸显数据治 理应具有统筹协调、权责分配、资源调度等核心能力,涉及数据质量、数据安全、数据合规等关键治理内容。 在国家标准中,最早出现的数据治理术语定义源自GB/T35295-2017《信息技术大数据术语》,将其定义为“对数据进行处置、格式化和规范化的过程。”,从定义内容来看主要是从数据管理视角来理解数据治理,而后有国家标准从数据管理权利、管控活动等视角定义数据治理,逐渐凸显数据治理具有过程性、集合性以及统筹与协调管控的特征。 结合通用场景下数据治理定义的特征来看,数据治理的核心治理内容主要围绕数据质量、数据安全、数据合规等内容展开,强调要围绕治理内容进行统筹协调、权责分配、资源调度等。 2.数据治理的三个阶段 第一阶段,20世纪80年代,随着数据库技术的发展,企业开始意识到数据的重要性。但当时数据管理主要依靠数据库管理系统 (DBMS),直到1988年由麻省理工学院的两位教授启动了全面数据质量管理计划(TDQM),可以认为是数据治理最初的雏形。 第二阶段,伴随着数据仓库的建设,主数据管理与商务智能平台的实施,国内也逐步开始接受并利用数据治理的概念进行推广实践。第三阶段,21世纪20年代,以大模型为代表的生成式模型成为 推动人工智能发展的重要驱动力。大模型的兴起对数据治理提出了新的挑战和需求。 3.大模型时代数据治理的难题 随着人工智能技术的飞速发展,大模型已成为推动AI应用创新的重要驱动力。这些模型依赖于海量的数据、强大的算力以及复杂的算法参数来支撑其庞大的智能体系。在这一过程中,数据可谓是大模型的“灵魂”,塑造了其独特的“个性”。 大模型的智能程度与“个性”表现,促使人类社会生产力迈上新的台阶,同时也带来了更大的挑战与危险。 1)数据“高量低质” 数据是人工智能技术的基石,是大模型训练和推断的原材料已成为共识。然而,数据的数量和质量并不总是成正比。在来源上,模型往往依赖于从互联网、社交媒体和公开数据库中采集的数据进行训练,这些数据的来源和质量无法得到有效控制。在管理上,我们面对多模态、非结构化数据缺乏理论与技术的支撑来客观评价数据质量的高低。 这些问题需要数据治理来解决,但传统的数据治理理论与实践更 多的适配于面向BI时代的结构化数据,在人工智能所需要的非结构化、半结构化、多模态数据上较为空白。为了应对这些挑战,开发出更负责任、更可控的人工智能应用,面向人工智能的数据治理(DG4AI,DataGovernanceforArtificialIntelligence)概念应运而生,它旨在通过创新的数据管理策略和技术,解决AI发展中的痛点问题。 2)安全与隐私泄露频发 随着大模型对数据的依赖性日益增强,数据安全和隐私保护已成为核心问题。在大模型的全链路研发、管理和应用过程中,其各个阶段都存在着数据安全与隐私的问题和风险,包括但不限于数据的过度采集、样本的偏差、数据的投毒等情况,存在危害个人、企业甚至社会的安全与利益的巨大风险。 3)偏见与歧视随处可见 在科技飞速发展的背景下,人工智能伦理和道德的关注程度及应对措施尚未完全跟上技术的步伐。自然语言处理技术的滥用案例日益增多。其中包括压制不同意见、侵犯隐私与匿名性等。随着人工智能技术驱动的应用逐步走向产业化,潜在的道德伦理问题成为备受关注的焦点。 这些伦理问题可能源于系统意外产生,也可能是恶意行为者蓄意开发。常见的负面后果包括因人口统计偏见而导致的不公平问题、面向不同用户群体的服务性能不平等、对话者需求的错误识别,以及有害内容与刻板印象的传播等。此外,许多应用只注重信息内容,对文本作者及其信息的社会意义缺乏足够的意识与关注。 DG4AI的提出,是对现有数据治理体系的重要补充。它强调了数据治理在AI研发全生命周期中的重要性,并指出了实现高质量AI应用的关键路径。这一概念的实践,需要跨学科的合作、政策的支持以及技术的创新,以确保AI技术的健康发展,并最大化其对人类社会的积极影响。 (二)面向人工智能的数据治理的定义 对于面向人工智能的数据治理定义建立于对人工智能和数据治理的共同理解之上,因此在这里我们先对几个关键概念进行明确: 人工智能:人工智能(AI,ArtificialIntelligence)是一个与认知科学/心理学、哲学、语言学和数学等学科进行了知识融合的计算机科学,当前由于对于智能的定义存在困难,在学界并未有一个统一的定义,但是从商业的角度来看,AI意味着使计算机能够执行各种高级功能(包括查看、理解和翻译口语和书面语言、分析数据、提出建议等能力),达到帮助替代或超越人类的工作的能力。 数据治理:根据IBM、标准要求、数据治理协会等研究(见附录二)综合来看,数据治理主要是从组织层面对数据进行管理。其目的在于确保数据的质量安全性。可指代为企业数据价值化开展的一系列具体性工作,也可指代一系列数据管理活动的集合。 由此,我们可以认为面向人工智能的数据治理(DG4AI,DataGovernanceforArtificialIntelligence)是指在人工智能应用中管理和控制数据的过程与实践,用以确保数据的质量、可靠性、安全性与合规 性,数据能够被准确地用于训练和部署AI模型,同时保护数据的隐私和安全。 (三)面向人工智能开展数据治理的主要阶段与对象 从组织层面开展数据治理工作方面来看,面向人工智能开展数据治理的工作,主要包含以下四个阶段: 1.顶层设计阶段: o治理目标:确立数据治理的总体框架和战略目标,确保数据治理与组织的整体战略相匹配。 o工作重点:根据组织的业务现状、信息化现状、数据现状和AI现状,