重视数据基础设施建设 高新民 2023.05杭州 对数字化转型的理解 所有生产业务经营活动网络化、数字化、智能化,由联结汇聚数据,由数据产生智能,由智能科学决策,本质上是以数据要素优化其他生产要素的配置和运营,以达到全产业链、全价值链高质量发展的目标 工业互联网平台基础功能 •联接 •数据 •智能 数字基础设施(功能视角) �通信网络基础设施(光纤、5G) �存储基础设施(IDC) �算力网络基础设施(东数西算) �数据网络基础设施(?) 数据的重要性已有共识 数字经济,指直接或间接利用数据来引导资源发挥作用,通过物联网、大数据、5g等手段推动生产力发展的经济形态。 数据作为基础要素 数据与埸景融合产生效益 数据作为生产要素流通产生价值 目前面临问题不少 高质量数据成为服务与创新的重要基础,也是提升机构数据价值的前提。然而,数据质量不高的现象依然突出,给数据深入挖掘与高效应用带来困难。 数据质量不高,有数据不好用。 鼓据流通不畅,有数据不能用 数据使用过程中普遍存在“不愿、不敢、不能”共享的问题,导致海量“三异”数据散落在众多机构和信息系统中,形成数据孤岛”,同时流通机制不灵活、不清晰。 融合应用不足 有数据不会用。 数据来源众多、体量庞大、结构各异、关系复杂。从如此繁杂的海量数据中挖掘高价值、关联性强的高质量数据,需要高效可靠的数据基础设施保障。 出路何在? •理顺流转思路 •建设基础设施 数据流通机制多元化,清晰化 •数据要素资产化的前提:有边界,可识别,有潜在价值。 •数据要素价值实現取决流通,与埸景強相关,流通机制依埸景而多元,才是正道。 •数据流通机制中,市场化是一重要选项,但不宜成为唯一。更应倡导数据共享(在共同体内),数据开放,后两者也要明确尊重数据主权原则 •异构、异主、异地(“三异”)数据的流通的基础是数据的互操作,然后依埸景及规则选择流转机制 •多元流通机制:自用/机密数据,共享数据,开放教据,交易数据 工业数据基础设施 工业数据基础设施包括数据互操作基础设施和数据建模基础设施, 两者又由技术架构和制度架构支撑 数据互操作是基本要求,共享和交换是有约束条件的:需求、主权、安全 工业数据互操作基础设施架构 工业数据互操作基础设施 研发数据生产数据经营数据行业数据 ... 例如 FAIR原则 … 制度架构 例构DOA,IDS 技术架构 例:FAIR原则 数据利用面临的重大挑战之一,就是通过机器发现、访问、整合和分析与任务相适应的数据及其相关算法和工作流程,来促进知识发现。 在这里,FAIR指导原则,使数据具有可发现性、可访问性、互操作性和可重用性。FAIR一词是在2014年的洛伦兹研讨会(LorentzWorkshop)上发起的,由此产生的FAIR原则于2016年发布。 FindableAccessibleInteroperableReusable FAIR原则 •2016年3月一部分科学家和组织组成的联合体在《数据科学》中明确了“FAIR原则”,用于科学数据管理。 Findable——可发现性Accessible——可访问性Interoperable——互操作性Reusable——可重用性 使用数据的第一步是找到它们。元数据和数据都应该让人类和计算机能够很容易的找到。机器可读的元数据是自动发现数据集和服务的必要条件,因此这是FAIR化过程中的一个重要组成部分。 一旦用户找到所需的数据,她/他需要知道如何 访问这些数据,可能包括认证和授权。 这些数据通常需要与其他数据进行整合。此外,数据还需要与应用程序或工作流进行互操作,以便进行分析、存储和处理。 FAIR的最终目标是优化数据的再利用。为了实现这一目标,元数据和数据应该得到很好的描述,以便它们能够在不同的环境中被复制和/或组合。 这些原则涉及三类主体:数据(或任何数字对象)、元数据(关于数字对象的信息)和基础设施。 FAIR化数据的细则要求 1 Findable——可发现性 •F1.(元)数据也需要被分配一个全球唯一的、永久的标识符(ID)。 •F2.用丰富的元数据描述数据。 •F3.元数据清楚明确地包括它们所描述的数据的标识符。 •F4.(元)数据在可搜索的资源中注册或编制索引。 2 Accessible——可访问性 A1.(元)数据可以使用标准化的通信协议通过其标识符进行检索。A1.1协议是开放的、免费的、可普遍实施的; A1.2协议允许在必要时采用认证和授权程序。 A2.即使在数据不再可用的情况下 ,元数据也可以访问。 Interoperable——互操作性I1.(元)数据使用一种正式的、可访问的、共享的和广泛适用的语言来表示信息(知识knowledge)I2.(元)数据使用遵循FAIR原则的词汇表。 3 I3.(元)数据包括对其他(元)数据的有条件参考 4 Reusable——可重用性 R1.对元(数据)的描述应当丰富 ,具有多种准确和相关的属性。R1.1.(元)数据的发布要有明确的 、可获取的数据使用许可证;R1.2.(元)数据与详细的出处有关 ; R1.3.(元)数据符合领域相关的社区标准。 对FAIR指导性原则的认识 认识到计算机必须能够在没有或很少人的干预下自主地访问数据,实现异构、异主、异地数据互操作是FAIR原则的核心。 FAIR不等于开放。FAIR中的“A”标识“在明确规定的条件下可以使用”,任何数据在多大程度上可用,完全由数据所有者决定,可包含权限控制的 可访问——性 (DOA) 例:数字对象体系架构 •数字对象体系架构(DigitalObjectArchitecture,DOA)是互联网体系架构的逻辑扩展,满足了支撑数据管理的需求,而不仅仅是将数字结构的信息传输,提供 一套基础架构,实现各种“三异”信息系统之间数据安全互操作,构建数字对象的互联网。ITU认为DOA是下一代互联网的关键基础设施。 安全性兼容性 可扩展性 唯一性 互操作性 标识注册、解析与信息管理的安全兼容现有各种标识体系分布式架构、开放式框架、标准协议全球范围内唯一标识提供基础设施服务,促进各种信息系统之间的互操作性 DOA体系架构的两个协议 Handle协议(HandleProtocol): •分配数字对象的全球唯一标识符 •把标识解析为对应的数字对象信息 •提供标识的分布式管理 •内嵌的密钥和安全机制 DOIP协议(DigitalObjectInterfaceProtocol): •指定数字对象交互的标准方式 •提供安全的数字对象的访问框架 数据标识、解析、管理数据互操作 DOA契合FAIR 如:Findable——可发现性 Handle信息标识 F1.(元)数据也需要被分配一个全球唯一的、永久的标识符 (ID)。 Handle的信息定义 F2.用丰富的元数据描述数据。 Handle的信息定义 F3.元数据清楚明确地包括它们所描述的数据的标识符。 全球的注册解析服务 F4.(元)数据在可搜索的资源中注册或编制索引。 基于数字对象的数联网:软件定义的数据基础设施 地数联网的建设“行业主导、共建共治、域内自主、域先行先试 数 址间协同” 字 元数字数联网自治域D对 领域数联工业网数联 数据 数据发现 域内 数数字 据对象 数据寻址 域间 对象地址数系字统对象注册表 象网 科学数联网 临床数联 数字网 元数据注册 对象科研数联 本体 数字对 象 注册 表数字 对象地址系统 地址申请 数字对 广域数联网注册 表 数字对象 数字地址 对象系统 注册 表数字 对象 地址 系统 网 能源数联 数网 对 象 字卫星数联 数字网 对象仓库 数联网自治域B象 数联网自治域A 数联网自治域C 互联网 入选2022年世界互联网领先科技成果(北京大学等) 例:国际数据空间(IDS) •德国工业4。0的数据空间 •欧盟的数据基础设施 •试图成为国际数据互联生态 国际数据空间(IDS)基本理念 •国际数据空间由所有通过数据空间连接器连接到空间的端点组成。没有一个中央机构负责数据管理或监督数据治理原则的遵守情况。 •它代表了一种不同于集中式数据管理概念和分散式数据网络(通常没有普遍适用的“游戏规则”)的替代架构。 •最终使用什么样的体系结构取决于每个体系结构对每个应用程序场景的实际效益。工业数据空间计划从一开始就假定了各种共存的架构。 例:工业数据空间(IDS)参考架构 安全架构 软件架构 IDS 数据和服务架构 业务架构 1业务架构:包含数据治理,协同数据管理,商业模型,每个模块都是独立的功能模块,可以自由配置。 数据和服务架构 包含工业数据空间AppStore,Broke,Connector,每个模块也可以自由配置。 ③软件架构 包含外部和内部国际数据空间连接器EXIC和INIC,实现数据高效流通 。 ④安全架构 包含网络安全、身份认证、数据使用限制、安全运行环境等功能模块 。 IDS-基本原则 (1) •数据主权(DataSovereignty) •安全数据交换(SecureDataExchange) •分布式模式(DecentralApproach) •数据治理(DataGovernance) IDS-基本原则 (2) •平台和服务网络化(NetworkofPlatformsandServices) •规模经济和网络效应(EconomiesofScaleandNetworkingEffects) •开放架构(OpenApproach) •可信参与(CertifiedParticipants) IDS生态角色及模型架构 明新国(教授、博导)13918034401xgming@sjtu.edu.cn CopyrightsSince2005©SJTU-CIM 5/29/202324 倡导面向产业的工业数据共同体 由业务强关联的企业参与,按共识制度和技术架构共建共享 ,实现数据流转通畅化,数据价值最大化,支持产业高质量发展的数据利益共同体 管理输出驱动引擎(管理驾驶舱、BIM、VR、BI……) NFT 应用系统改造升级创新应用 C-AS ERPPDM MES CRM…… 能力与数字化转型评估 DCMM评估 能力的共享、协同与交易 Ansys UG/Pro/E SOLID WORK CATIA 自我诊断优化 …… API层 监管与溯源 …… 合规管理 工业元宇宙 数字孪生 各领域及其子领域的知识数据枢纽 C-KDH 数原始知识图谱规范知识图谱 据建 优化知识图谱 专项应用知识图谱 模SEPB MDOS2.0 基数据建模引擎 础设 施C-UMF 建模认知 模型数据计算 知识数据 全域 唯一资源编码 行业模型数据空间 企业模型数据空间 统一模型数据空间 专业模型数据空间 统一建模框架 IDS 技术工程体系模型 (InternationalDataSpaces) 管理工程体系模型 DTREE3.1 数据互操作基础设施---分布式可信资源赋能引擎(DOA/IDS) 传统网络安全措施 工业可信数链网 可信账本 可信解析 可信存储 可信铸码赋码 局域区块链 区域区块链 广域区块链 可信通讯 可信身份 权限矩阵 结论 •数字化转型本质上是以数据要素优化其他生 产要素的配置和运营,以达到高质量发展的目标 •发挥数据价值的关键是理顺流转思路,建设 基础设施 •数据要素价值实現取决流通,与埸景強相关 ,流通机制依埸景需多元化 结论 •“三异”数据的流通的基础是数据的互操作 ,然后依埸景及规则选择流转机制 数据基础设施包括数据互操作基础设施数据建模基础设施,两者又由技术架构和制度架构支撑 倡导面向产业的工业数据共同体 重视数据建模及知识图谱+大模型学习 • 谢谢!