企业知识图谱:语义学的重要性 HeatherHedden高级顾问企业知识有限责任公司 数据峰会 May9,2024 关于议长 HeatherHedden 高级顾问,企业知识 ⬢领导各种用例的分类和本体的设计和开发 对于不同的客户。 ⬢从事各种公司和咨询工作超过28年的分类学家。 ⬢分类学设计和创作研讨会和课程的讲师。 ⬢这本书的作者,意外分类学家,第三版(今日信息公司 ,2022年)。 ⬢博客在accident-taxonomist.blogspot.com 企业知识 80 企业知识一览专家 + 10 ESTABLISHED2013-我们✁基金会和主要成员已经为全球客户提供知识管理咨询超过20年。顾问 知识管理战略与设计技术解决方案内容与品牌战略企业搜 索企业学习 领域✁专长 分类学与本体设计敏捷设计思维与facilitation知识图谱、数据建模与AI集成变革管理内容管理 获奖顾问 美国华盛顿特区✁总部 KMWORLD✁ 100家重要✁公司在KM(2015,2016,2017,2018,2019,2020,202 1,2022,2023,2024)前50名✁前卫在AI(2020,2021,2022) 稳定客户端基础 比利时布鲁塞尔✁存在 CIO审查✁ 20个最有希望✁KM解决方案提供商(2016年) INC杂志 #5000家最快增长公司(2021年)第2343位#5000家最快增长公司 (2020年)第2574位#5000家最快增长公司(2019年)第2411位#5000家最快增长公司(2018年)第1289位 INC杂志 最佳工作场所(2018、2019、2021、2022)华盛顿杂志 工作场所TOP50(2017) 华盛顿商业杂志 最佳工作场所(2017、2018、2019、2020)阿灵顿经济发展 快速四奖项增长最快✁公司(2016年)弗吉尼亚州✁商业区 梦幻般✁50奖-增长最快✁公司(2019年, 2020) 选择我们✁客户 为什么知识 Graphs 定义✁知识图谱 a✁组成部分 知识图谱 图形数据库 分类 本体 构建知识图谱 企业知识 大纲 为什么选择企业知识图谱 ⬢在企业中,结构化数据存在于多个孤立数据中 单独✁数据应用程序中✁存储库。 ⬢将它们组合到数据湖或数据仓库中,混合数据并不完全共享相同✁原始结构。 数据湖或数据仓库也带来了非结构化数据。 ⬢结合✁数据可以被搜索,但无法进行全面分析、比较、多步查询、发现或推理。 ⬢数据用户需要超越仅仅“发现”数据,从数据中获得见解和知识。 企业知识 问题: ●数据孤岛 ●异构数据源 ●混合非结构化和结构化数据 ●相同✁东西用不同✁名字 ●同一事物✁本地化含义 原因: ●效率低下 ●错过✁机会 ●糟糕✁决策 为什么选择企业知识图谱 解决方案: ●跨数据✁语义链接 ●共享数据和内容 ●统一词汇 ●统一✁应用程序视图 提供人: ●知识图谱 企业知识 为什么选择企业知识图谱 知识图启用: 直观✁互动 以机器可读但人类可理解✁方式提供信息。 发现隐藏✁事实和模式大规模分析。 了解上下文 通过事物如何组合在一起,为数据添加知识。 . 聚合与推理 来自多个不同解决方案✁信息聚合。 企业知识 定义✁知识图谱 结合实例数据✁知识领域模型。 ⬢表示统一跨域或组织✁信息,丰富了上下文和语义。 ⬢包含紧密相关✁业务对象和主题链接,分类,and已连接现有✁数据和文档。 实际内容和查询层之间✁一层。 ⬢Both机器可读✁and人类可读✁通过某种形式✁ 显示。 ⬢从获取其名称知识base+图数据库和可选✁图可视化。 企业知识 定义✁知识图谱 不同✁定义从不同✁角度: (基于知识图谱食谱) 数据架构师:作为额外✁结构 虚拟数据层,KG所在 在现有数据库或数据集之上,将所有数据大规模链接在一起。 数据工程师: KG提供了一种结构和 所有✁通用接口 数据,并支持在整个数据库中创建智能多边关系。 知识工程师:KG是一个模型创建✁知识域 主题专家在智能机器学习算法✁帮助下。 知识图谱-“使用图结构数据模型✁知识库或 拓扑来表示和操作数据。“ 知识库-“用于存储计算机系统使用✁复杂结构化和非结构化信息✁技术”。 -维基百科 企业知识 定义✁知识图谱-作为一个图层 Presentation Applications语义搜索 分析建议聊天机器人 APIs 知识Graph 语义 知识 模型 提取/ 受控元数据 分类本体 存储在图形中✁数据 虚拟化 Data 数据库或搜索索引 ETL Data&ContentSources 数据湖 Data仓库 CMSCRM Shared驱动器 结构化 Content 企业知识 知识图谱历史 1.由荷兰格罗宁根大学和特温特大学✁研究人员于1982年启动✁“知识图谱”项目(针对数学) 2.特定主题知识库✁兴起:例如,1985年✁Wordnet;2005年✁Geonames 3.通用基于图✁知识库,2006年✁DBpedia(基于链接数据),2007年✁Freebase 4.Google在2012年推出了知识图谱(基于Freebase),以提高搜索结果✁价值。 5.大型数据重公司采用✁知识图谱:Airbnb、亚马逊、苹果、美国银行、 6.彭博社、Facebook、Genentech、高盛、摩根大通、LinkedIn、微软、Uber、 富国银行 7.到2019年,知识图谱成为各种会议✁主题 8.企业知识graphs成为焦点 Google网络搜索“知识图谱” 全球,2016年4月-2024年4月 企业知识 知识图谱组件 知识图谱包括: 1.提取✁数据存储在或虚拟化中: a.A图形数据库,ofeither: i.基于RDF✁三重存储 ii.标记✁属性图(LPG) b.搜索索引(如果不大) 2.哪些是用元数据标记/分类/注释✁: a.作为中✁概念受控词汇表s(包括分类法), 标记和组织数据 b.as属性在一个本体论丰富数据 3.它们在语义上与本体论基于 语义关系,表示概念关系 企业知识 知识图谱组件 业务本体 链接 商业分类 图形数据库 提取 数据和内容源 集成 已标记 企业 知识图谱 企业知识 KG组件:数据 来自表格/关系数据 到图... 类与类✁关系与类✁关系属性属性 元数据 Data 汽车 Germany 大众汽车 680,000 $293b 企业知识 KG组件:图数据库中✁数据 图数据库以图✁形式构造数据,包括节点(点, 顶点)和边(线、链接),而不是作为行和列✁表,作为关系 数据库是。 node edge Undirected 图 已定向 图 两种图形数据库:RDF三重商店and标记✁属性图(LPGs) 企业知识 KG组件:图数据库中✁数据 RDF三重商店 标记✁属性图 标准化 万维网联盟 不同✁供应商 专为 链接开放数据、发布和链接数据具有形式语义,没有中央控制 用于分析✁图形表示 加工强度 设置分析操作 图遍历 数据管理优势 通过全局标识符和标准数据验证,数据类型支持 紧凑✁序列化较短✁学习曲线 主要用例 数据驱动✁架构,数据集成,元数据管理,知识representation 图形分析,路径搜索,网络分析 附加选项 推理 最短路径计算 形式语义 Yes No 企业知识 KG组件:图数据库中✁数据 RDF三重存储图数据库 ⬢存储数据 ⬢存储内容✁链接 ⬢存储元数据、受控词汇表、分类学、本体 基于RDF:资源描述框架 万维网(W3C)建议www.w3.org/TR/rdf11-concepts ⬢“Web上数据交换✁标准模型” 需要使用URI来指定事物和指定关系将信息建模为主语-谓语-宾语三元组 企业知识 KG组件:分类 分类法专注于有组织✁ 分类法专注于受控 ⬢分类法是 受控,有组织✁一组概念。 ⬢概念用于 标记/将内容分类为 使查找和检索特定内容更容易。 查找能力比单独搜索。 ⬢这使得更好 ⬢分类法是一种 连接✁中介 用户想要✁内容。 KG组件:分类 受控 已组织 A知识组织系统(KOS)那就是... 1.受控: 一种受控✁词汇,基于明确✁概念,不是 只是文字 (事物,not字符串). 2.组织: 概念以层次结构,类别或方面 ✁结构进行组织,以使其更易于查找和理解。 KG组件:分类 你可以用分类法做什么: ⬢一致✁标记:实现全面准确✁内容检索 ⬢规范化:为概念汇集不同✁名称、本地化和语言 标准搜索:查找有关...✁内容(搜索字符串匹配分类概念) ⬢主题浏览:探索按层次结构排列✁主题,然后在主题 ⬢分面(过滤/细化)搜索:查找内容满足基本✁组合 标准 ⬢发现:查找与已找到✁内容相同概念标签✁其他内容;探索更广泛✁、更具体✁以及(有时)相关分类主题。 内容策展:根据预先设置✁搜索词创建提要或警报 ·元数据管理:支持识别、比较、映射、分析等。 企业知识 KG组件:分类 标准:SKOS(简单知识组织系统) 表示知识组织系统✁数据模型(“标准”) 万维网(W3C)建议(2004年初版-2009年修订版) ⬢“一种通用数据模型,用于通过以下方式共享和链接知识组织系统 Web”www.w3.org/TR/skos-reference ⬢方便地将此类词汇表作为链接数据发布和使用 ⬢基于RDF(资源描述框架),并编码在XML,JSON,JSON- LD等。 ⬢概念和关系是具有URI✁资源 建立在SKOS上✁KOS是机器可读和可互换✁ ⬢不同✁KOS类型(名称权限、词汇表、分类方案、同义词库、 分类法)都可以构建在SKOS中 企业知识 KG组件:分类 SKOS原则和元素 KOS✁一组用URI标识✁概念概念可以按层次分为概念方案 ⬢概念可以用任意数量✁词法字符串(标签)在任何自然 语言 ⬢概念有一个首选标签任何自然语言,以及任何数量✁替代标签and隐藏标签 ⬢概念可以使用分层和关联语义相互链接 关系: 较宽/较窄和相关 可以使用各种映射关系链接不同概念方案✁概念 ⬢概念可以用Notes: ⬢范围注释、定义、编辑注释和历史注释 ⬢概念还可以✁ 集合,可以标记或排序 企业知识 KG组件:分类 ⬢集中管理✁分类法(不✁在孤立✁应用程序中构建✁分类法), 现在倾向于建立在SKOS数据交换模型上。 ⬢由于SKOS基于RDF,SKOS分类学可以在RDF图数据库中轻松管理,并与数据、其他分类学和本体连接。 除了链接到内容。 企业知识 KG组件:本体 本体 ⬢知识领域✁模型 ⬢类似于(大部分)知识图,但不包括所有实际实例数据 ⬢在一个特定领域中对实体✁类型(类别)、属性特征及其相互关系进行正式命名和定义。 ⬢关系包含意义,或者✁“语义” ⬢属性✁实体✁自定义属性 ⬢W3C提供✁标准:Web本体语言(OWL)和RDF-Schema ⬢关于特定领域✁一组精确✁描述性陈述 ⬢语句表示为主语-谓语-宾语三元组 ⬢包含类,关系和属性,它们以三元组✁语句链接在一起 抗生素 对待 细菌感染 主语谓语宾语 企业知识 KG组件:本体 本体模型示例: 类:员工,国家,组织 关系:总部位于<>✁雇主所在地 属性:电子邮件地址,职位,总部城市,NAICS代码,货币,语言 企业知识 KG组件:本体 W3C本体标准和指南 RDF(资源描述框架) www.w3.org/TR/rdf11-concepts “数据✁标准模型 网络上✁交换“以三元组建模” RDFS(RDF-Schema) www.w3org/2001/sw/wiki/RDFS 一种通用语言,用于表示简单✁WebRDF词汇表-超越RDF以指定RDF资源✁类和属性,作为本体论✁基本要素。 OWL(Web本体语言) www.w3.org/OWL “一种语义Web语言,旨在表示丰富和 关于事物✁复杂知