中国信息通信研究院人工智能研究所清华大学计算社会科学与国家治理实验室中国人工智能产业发展联盟数据委员会2025年7月 前言 党中央和国家高度重视推动数据赋能人工智能高质量发展。年月日,中央政治局就加强人工智能发展和监管进行第二十次集体学习,习近平总书记指出,要“深化数据资源开发利用和开放共享”,要“全面推进人工智能科技创新、产业发展和赋能应用”。近年来,国家相关部委和地方政府围绕高质量数据集建设和运营、数据标注产业发展等出台系列政策,并通过投资奖补、标准制定和验证、样板案例建设等举措积极推进高质量数据集政策落地。党中央和国家的政策部署为业界推进高质量数据集建设提供了方向指引和根本遵循。 随着大模型技术的迅猛发展,数据集作为人工智能核心三要素之一,在算法趋同、算力普惠的竞争环境中正在构建难以复制的差异化壁垒。人工智能发展正在进入“数据驱动”新阶段,高质量数据集的建设不仅是提升$,模型性能的关键,也是推动“人工智能”行动落地的重要保障。然而现阶段,大量机构在高质量数据集建设中面临目标定位模糊化、实施路径碎片化与技术底座薄弱化三重挑战,不知道需要什么数据集、如何建设数据集、怎样评估数据集质量,制约了人工智能应用落地。《人工智能高质量数据集建设指南》正是在此背景下启动起草,旨在为业界建设高质量数据集提供有实操价值的指导和参考。 指南从政策、技术、产业层面介绍了当前高质量数据集建设的背景,梳理了高质量数据集的定义、特征、分类、建设主体以及“三大 建设难点”,提出了人工智能数据工程的“五大核心要素”和企业建设高质量数据集“三步走”战略,分析了高质量数据集建设的核心技术,展示了科学、通信、交通、铁塔、医疗、文化等领域高质量数据集建设实践,最后从工程能力、技术创新、质量评估、版权合规、基础制度创新等层面对未来高质量数据集建设的趋势进行了展望,并提出了对政府部门和企业机构的建议,为业界推进高质量数据集建设提供有力支撑。 目录 一、高质量数据集成为人工智能应用升级的核心要素 (一)政策层面:³人工智能数据要素´政策协同布局 (二)技术层面:人工智能技术演进重构数据工程范式 (三)产业层面:数据成为人工智能行业应用的护城河 二、高质量数据集建设的现状和难点 (一)高质量数据集的³三高´特征(二)高质量数据集分类维度 (三)高质量数据集建设主体 (四)高质量数据集建设难点 三、搭建人工智能数据工程能力核心要素 (一)管理体系 (二)开发维护 (三)质量控制 (四)资源运营 (五)合规可信 四、高质量数据集建设路径设计 (一)体系规划阶段²²构建高质量数据集认知框架 (二)工程建设阶段²²打造高质量数据集生产体系 (三)质量监测阶段²²构建高质量数据集全流程管控机制 五、高质量数据集³炼化´流程和技术(一)数据设计和采集 (二)数据治理 (三)数据标注 (四)数据质检 (五)数据运营 六、总结展望和建议 (一)建立$,数据工程体系(二)推动$,数据技术创新 (三)搭建全流程$,数据质量管理体系(四)加快$,数据开发利用机制突破附件 行业高质量数据集建设代表性实践 (一)教育领域:高等教育学科高质量数据集建设实践 (二)科学领域:材料科学高质量数据集建设实践 (三)通信领域:网络运维高质量数据集建设实践 (四)交通领域:交通运输政策法规和标准规范高质量数据集建设实践 (五)工业领域:基站机房运维高质量数据集建设实践 (六)医疗领域:面瘫相关语音高质量数据集建设实践 (七)文化领域:方言高质量数据集建设实践 (八)商贸领域:商贸流通行业高质量数据集建设实践 图 目 录 图人工智能高质量数据集建设相关主体 图人工智能数据要素五大工程要素 图高质量数据集建设路径 图高质量数据集建设全流程和技术 附图网络运维高质量数据集建设全流程 附图网络运维智能体数据需求情况 附图网络运维数据集使能平台建设 附图网络运维数据集质量评估指标 表 目 录 表人工智能技术发展各阶段对数据集的需求 表不同训练阶段数据集的规模和质量特征表人工智能数据集质量评估指标设计