DAMS 中国数据智能管理峰会 DATA&AIMANAGEMENTSUMMIT 大模型时代的数据管理 肖仰华 复旦大学知识工场实验室!上海市数据科学重点实验室 数据要素时代的数据管理 01 伴随着我国数字经济的发展,数据要素在生产中的地位愈发重要,数据要素流动所带来的开放性与动态性问题为传统数据科学的理论与技术带来了新挑战和新要求 数据成为生产要素 2020年4月2023年2月 作为落实党的十九届四中全会精神的重大改革 2022年1月 全国两会召开前夕,中共中央、国务院发布 部署,在《中共中央国务院关于构建更加完国务院发布《“十四五”数字经济发展规 2017善的要素市场化配置体制机制的意见》中,也划》,其中强调数据要素是数字经济深化发展了数字中国建设的“2522”整体框架,其 将数据作为一种新型生成要素与土地、劳动的核心引擎,并提出到2025年将初步建立数据中,夯实数字基础设施和数据资源体系被作 数字经济首次写入政府工作报告力、资本技术一起写入中央文件中要素市场体系为“量大基础” 0102030405060708 2019年10月 2020年10月 2022年12月 党的十九届四中全会首次将数据增列为生产要 党的十九届五中全会明确将“要素市场化配 中共中央、国务院正式发布了《关于数据基础制 素范畴,与土地、劳动力、资本、技术等传统要素并列 置”作为经济体制改革的重点,而此次全会审议通过的《中共中央关于制定国民经济和社会 度更好发挥数据要素作用的意见》。这份被称为 “数据二十条”的文件引发了巨大关注,因为在 2014 大数据首次写入政府工作报告 发展第十四个五年规划和二〇三五年远景自标这个我国首份专门针对数据要素的基础性文件的建议》,也将“数据价值化”列为数字经济中,提出了构建数据产权、流通交易、收益分的新构成配、安全治理等制度,初步形成我国数据基础制 度的“四梁八柱” 数据资源是有含义的数据集结到一定规模后形成的,是重要的现代战略资源[1] 数据与土地、劳动力、资本、技术等传统要素并列成为五大生产要素之一[2][1]数据资产相关概念综述,叶雅珍,刘国华,朱扬勇2019 [2]《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》2020 数据对其他生产要素的 配置作用日益显著 其他四种要素都具有相对的独立性。数据要素一方面可以将其他四要素作为来源,另一方面数据又可以反作用回其它四要素,只有多要 素紧密耦合,才能创造更多的价值。 土地有效盘活土地,推动土地要素的优化配置,引领土地要素可持续健康发展 劳动 有效提高劳动要素配置效率和劳动生产率,提升传统劳动力对数据运用的能力,同时也产生更多的数据,推动数据要素的扩张 资本帮助优化投资策略,筛选高质量投资对象,促进资本增殖 数据帮助研究人员挖掘分析现有技术中存在的问题,以解决“卡脖子”难题,实现 技术技术持续升级 数据要素对其他生成要素的配置作用日益显著 严宇珺。数据要素的现状,价值与未来[J].企业经济,2023,42(11):116-122 数据价值变现需求迫切、进程加速 图表:2014-2021年中国数字经济总体规模及占GDP比重 数字经济总体规模(万亿元):占GDP比重 5039.8%45% 组建国家数据局 45 36.2% 38.6% 45.5 40% 负责协调推进数据基础制度建设,统筹数据资源整合共享和 4032.9% 30.3% 34.8%39.2开发利用,统筹推进数字中国、数字经济、数字社会规划和建设 35.835%等,由国家发展和改革委员会管理。 35 26.1% 27.5%31.330% 3027.2 25% 承担的研究拟订 2522.6中央网络安全和信息化 2018.6 16.2 20% 15% 委员会办公室开发利用与共享、推动信息资源跨行业跨 部门互联互通等职责划入 15 10% 10 承担的统筹推进数字经济发展、组织实施 国家数据局 55%国家发展和改革国家大数据战略、推进数据要素基础制度 0% 2014年2015年2016年2017年2018年2019年2020年2021年 数据来源:中国信息通信研究院 委员会 建设、推进数字基础设施布局建设等职责 划入 我国各行业的高质量发展与数字化转型对数据价值变现的理论与技术提出了迫切需求 数据科学理论与方法难以支撑数据价值变现 当前的数据价值变现全链路上的各个环节,仍然需要人类专家的密集参与 日数据开放数据融合数据应用 数据价值 安全合规数据清洗统计分析 隐私保护数据融合关联分析 风险规避质量控制模式挖掘 数据整合很难,因为必然会遇到要集成多个 数据治理体系远未形成,如数据资产地位的 当前,我国大数据产业在某些环节(如储 数据源的情况,其中没有任何捷径,得将数 确立尚未达成共识、数据壁垒广泛存在、法 存)过于集中,有产能过剩之虞,但在分析 据进行模糊匹配。而这一过程很复杂,也很 律法规发展滞后等等。如此种种因素,制约 与处理环节的产能又严重不足。同时,传统 难,但如果不这么做,数据分析就没有意 义,机器学习模型就会失效,这一切也就丧 了数据资源中所蕴含价值的挖掘与转化。 统计学方法和数据挖掘方法对于大数据并不适用,必须重建大数据的统计学基础、计算 失了价值意义。所以现在的数据科学家大部中国科学院院士梅宏基础与数据挖掘方法基础。分工作时间都在做数据整合。 一图灵奖得主-中国科学院院士徐宗本 迈克尔·斯通布雷克 数据价值仍然缺乏高效的激活手段 世界日益复杂 个整车需要2万~3万个零件,而每个零部件又需要一条上万个元器件组成的生产线,又涉及原材料的采集与加工等诸多流程,单从晶圆到芯 片,就将经历700道工序。 人类社会(人)人造系统(机) 人类社会利用自然生态带来的资源,不断人造系统将人类社会的思维转化成改变自然 设计、开发、建设更为复杂的系统的力量,进行各种复杂的动作和工程 “如果组成系统的元素不仅数量大而且种类也很多,他们之间的关系又很复杂,并有多种层次结构,这类系统成为复杂巨系统。 一钱学森自然生态(物) 自然生态受到人造系统的影响,形成气候、地理等各类不确定因素极强的变化,反馈给人类社会 现代工业文明经过数百年的发展早已度过其婴童时代 人类社会日益演变成为一个人、机、物多元融合的复杂系统 系统和数据日益复杂 当前的各类信息系统及相应数据经过数十年信息化、数字化洗礼,前所未有之庞杂 CRM PDM 业务协同 SRM 采购商信息 BOM 发货信息、HR 绩效信息 项目项目计划ERP 设备资产台 管理执行发与费维修成本 EAM 采购到货、材料领用、 质量信息、 分析数据 策支持信 质量管理 WMS 采购计划、 库存盘点数据 MES 完工反馈 CAPP 工业系统众多工业系统数据各式各样 数字经济时代的 数据内涵发生变化 数据内涵发生变化,数据科学日益面临新环境、承担新使命 数字经济时代 数据是生产要素 数据是产品 数据是资产 信息化时代 数据是对客观世界的符号化记录 大数据时代 数据是发现规律、推动创新的资源 数据是持续流动,而不是静止的 数据的产业生态是开放的,而不是封闭的数据有着多方主体,而不是单一主体 数据与生产过程深度融合,而不是相对割裂数据处在持续增值过程中,而非一次性使用 数据对于其他生产要素有着配置作用,而不再是从属地位 数字经济发展对数据科学的内涵与发展路径提出了新的要求 数据要素特征:持续流动 数据只有流入生产、分配、流通、服务和管理等各个环节,形成完整的数据驱动闭环,才能释放出数据要素的价值 技术创新供求分析 产品设计材料对比数据持续流动的必要性: 研发实时决策支持,增强业务灵活性和市场 敏感度 采购精细用户画像,提升个性化服务水平 场故障监测预防,增强安全保障 市场调研生工艺优化传递产业供需,促进产业上下游合作 商业决策 产智能运维 仓储 数据流动不畅的原因: 数据采集、管理、分析、应用等环节存在技术短板 运力调度入库登记 各部件缺乏同步与协同 路径规划产品溯源数.据驱动闭环尚未形成 数据在不同业务中的持续流通是实现数据驱动的重要保障能量传动是驱动汽车飞驰的前提 数据的持续流动对全链条、自动化、智能化、高度协同的数据处理技术提出了要求 数据要素特征:多方主体 相比其他生产要素,数据要素在流通过程中主体更加多样,权属界定复杂 数据生产者其他产权人 要素主体权属收益方式 土地单明确地租 劳动单明确工资 数据采集者 Lo! 数据运营者 ES 资本多样明确利息 技术多样明确利润 数据加工者数据使用者数据众多复杂? 数据在不同业务中的持续流通是实现数据驱动的重要保障相对于传统生产要素,数据权属难以清晰界定 数据要素的多方主体对数据权属、安全可控提出了新的要求 统计分析 数据要素特征:开放生态 数据的运营、加工以及使用环境是开放的、异构的、复杂的、多变的 复杂、多变的数据需求与技术形态促使数据产业形成了开放的生态环境 数市据架场构数分据调析研Linux数据运营 商业 运营与合作 运营监控spss 产品经理 模型训练 项目管理 Hadoop... ficeETL 数装库开发 Pthon 运贡搭分析政府 接口支持天语 P2p产品模 DBA监管与服务 风险赁酒 tableau 可视化风险分析 数据统计川 分析师 SOLServersQL个人 公开展示 行业分析 Oracleexce投资与学习 数据要素的开放生态对统一的、标准化的、互操作的数据管理提出了较高要求 数据要素特征:动态增值 数据只有经过动态处理才能形成增值,数据才能变成资产 数据汇聚分析算法产品创新+ 产品数据数据资源 商业决策 新数据 业务模型数据加工 产品创新+ 数据产品 数据交易所 商业决策分析算法数据加工 数据产品 产品创新+ 商业决策 一次价值二次价值动态增值 数据要素的动态增值对面向价值变现的数据加工和分析方法提出了新的挑战 02 大模型时代的智能数据管理 大模型的开发世界建模能力、语言认知能力、数据理解能力、数据操控能力对于实现低成本、自动化、智能化的数据管理带来全新机遇 大模型是海量的参数化知识容器 IEYAHI 语言模型以参数化形式编码了数据中蕴含的知识 当前大模型评测方式与人类学科知识 AnEver-Updating HolisticDomain 考试方法和内容相同Benchmarkfor 当前平均效果最优的GPT-4在众多测Knowledge Evaluation 试基准中都能取得50%以上的正确率 (3-shot),且还存在巨大的领域微 调空间 1.031 .4024130.3170.411.4863920.576 语言模型编码了大量的通用知识 大模型是人类认知能力的引擎 GPT-4等大规模生成式语言模型在“形式上”具备了人类思维的核心能力 PE杯子放不下鸡蛋,它太小了,它是谁 语言理解 评估评价逻辑推理 这似乎是一个谜语或者智力题,其答案是“杯子”。杯子放不下鸡蛋,因为它太小了,暗示着答案是杯子本身,而不是其中的任何物品。 杯子放不下鸡蛋,它太大了,它是谁 这也是一个谜语或智力题,其答案是“鸡蛋”。因为如果杯子太大,而鸡蛋还是放不进去,那么显然是鸡蛋太大了,而不是杯子。 组合泛化常识理解 GPT4 的能力 价值判断概念理解 自识反思运筹规划 大模型的常识理解能力问题求解 语言是人类思维的工具,语言模型模拟了人脑思维能力 大模型日益成为自治智能体的大脑 大模型已经不仅仅是语言/图像数据处理与理解的基础模型,更成为自治智能体的 自我调整 语言理解 自我控制长期记忆 自治 主动学习 Agent Percepts SensorsFeedback ParametricKnowledgeBase 智能体CognitiveCapabilityEngine 自我管理复杂规划 Environment Command 适应学习复杂决策ActuatorsAction 交互感知 大模型驱动的智能体将具备复杂环境的自适应能力,具有一定的自治性、自主性 大模型具备了全面认知数据的能力