标准化研究院 中国电子技术标准化研究 研究院 中国电子技术标准化研究院 中国电 国电子技术标准化研究院 中国电子技术 标准化研究院 中国电 中国电子技术 前言 中国电子技术标准化研究 为推进知识图谱与大模型在企业级的落地应用,分析知识图谱与大模型融合技术路径,研究报告从知识图谱与大模型落地面临的瓶颈出发,分析了知识图谱与大模型的主要特征、知识图谱与大模型擅长的主要场景和核心基础能力,对比了知识图谱与大模型的优劣势,进而从技术演化层面、技术互补层面、知识库建设层面探讨了知识图谱与大模型融合的可行性及收益。 中国电子技术标准化研究院 同时,研究报告分析了知识图谱与大模型融合的技术路径及其关键技术,研究了知识图谱与大模型融合系统评测体系,对比了实际融合系统与大模型的性能测试结果。最终,通过梳理已有11个领域的实践案例,给出了技术挑战与发展展望。 国电子技术标准化研究院 转载、摘编或利用其它方式使用本报告文字或者观点的,应注明来源为“中国电子技术标准化研究院”或对应案例提供单位,且不得对本报告进行有悖原意的删减与修改。由于知识图谱与大模型技术发展迅速,研究报告编制时间和作者学识限制,恐有纰漏或不严谨之处,敬请谅解和批评指正。 研究院 研究报告编写组 标准化研究院 中国电子技术标准化研究 研究院 中国电子技术标准化研究院 中国电 国电子技术标准化研究院 中国电子技术 第三章 南京柯基数据科技有限公司杨成彪 第四章 厦门渊亭信息科技有限公司潘璐阳 第五章 中国电子技术标准化研究院李瑞琪 第六章 青岛海尔科技有限公司王先庆 参编单位及人员 中国电子技术标准化研究院 郭楠、韩丽、李瑞琪、李湘、胡成林、陈艳利 中国电信股份有限公司研究院 石晓东、赵龙刚、孙佩霞 南京柯基数据科技有限公司 杨成彪、吴刚、魏爱梅 北京海致科技集团有限公司 瞿珂、李思宇、胡嘉彦 中译语通科技股份有限公司 陈自岩、彭旋 沈阳东软智能医疗科技研究院有限公司 程万军 北京文因互联科技有限公司 张屹、李亚军 中电科大数据研究院有限公司 曹扬、孔德智、熊子奇、尹杨、闫盈盈 北京京航计算通讯研究所 马静、郝创博、白洋、张彤 中科知道(北京)科技有限公司 吴章生、李海英、王海波 北京中企智造科技有限公司 蔡志伟、张燕 浪潮软件科技有限公司 张峰、王珂琛 杭州海康威视数字技术股份有限公司 姜伟浩、赵宏、吴炎、吴鹏亮 广州柏视医疗科技有限公司 刘涛、颜子夜 豪尔赛科技集团股份有限公司 张丰、刘姝、戴聪棋 电科云(北京)科技有限公司 方正、王尚帅 云从科技集团股份有限公司 李军 网智天元科技集团股份有限公司 贾承斌 厦门渊亭信息科技有限公司 洪万福、潘璐阳、朱成忠 国际商业机器(中国)有限公司(IBM) 初德高 青岛海尔科技有限公司 王先庆、鄂磊、鞠剑伟 浪潮电子信息产业股份有限公司 李仁刚、贾麒、范宝余 北京三快在线科技有限公司 黄坤、刘瑾、李轩 深圳市矽赫科技有限公司 洪鹏辉、洪宝璇、林叠守 同方知网数字出版技术股份有限公司 万敏锋、相生昌、周永 中国电力科学研究院有限公司 徐建南、徐会芳、张英强 浙江创邻科技有限公司 周研、马超 湖北汽车工业学院 龚家元 泰瑞数创科技(北京)股份有限公司 刘俊伟、罗伊莎 国电南瑞科技股份有限公司 张万才石超施雨 南京航空航天大学 周福辉、袁璐、宋熙 富泰华工业(深圳)有限公司 史喆、张学琴 中国南方电网超高压输电公司 李强 各章节编辑: 第一章 中国电信股份有限公司研究院石晓东 第二章 网智天元科技集团股份有限公司贾承斌 标准化研究院 中国电子技术标准化研究 研究院 中国电子技术标准化研究院 中国电 国电子技术标准化研究院 中国电子技术 参编单位及人员 标准化研究院 研究院 中国电 国电子技术标准化研究院 中国电子技术 中国电子技术标准化研究 中国电子技术标准化研究院 第一章背景 中国电 1.知识图谱的定义与发展历程——知识图谱的定义知识图谱与传统知识库 相比具有的三大特征 中国电子技术标准化研究 以结构化形式描述的知识元素及其联系的集合。[1] 知识图谱本质上是一种叫作语义网络的 知识库,即一个具有有向图结构的知识 国家标准及研究报告 知识图谱以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。[2] 图结构化形式 可呈现为有向图结构化的形式 库。[3]维基百科:对事实和数字的组合,谷歌将其 中国电子技术标准化研究院 用于为搜索提供了上下文意义。谷歌于2012年推出,使用维基百科、维基数据和其他来 高效的检索能力 知识图谱旨在建模、识别、发现和推断事物、概念之间的复杂关系,是事物关系的可计算模型。[4] Farber:知识图谱是一种资源描述框架(RDF)图,可用于描述任何基于图的知识库。 [5] 学者/机构 知识图谱 KnowledgeGraph-KG 源的数据。 百科百度百科:在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可 国电子技术标准化研究院 视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。 可将概念、实体及其关系结构化组织起来,具有高效检索能力 智能化推理能力 可从已有知识中挖掘和推理多维的隐含知识 标准化研究院 中国电子技术 谷歌:知识图谱是一个知识库,其使用语义检索从多种来源收集信息,以提高Google搜索 的质量。[6] [1]GB/T42131-2022《信息技术人工智能知识图谱技术框架》 [2]中国中文信息学会语言与知识计算专委会,《知识图谱发展报告(2018)》[3]漆桂林,高桓,吴天星.知识图谱研究进展[J].情报工程,2017,3(1):004-025 [4]王昊奋,漆桂林,陈华钧.《知识图谱:方法,实践与应用》[J].自动化博览,2020(1).DOI:CNKI:SUN:ZDBN.0.2020-01-014. 研究院 [5]L.EhrlingerandW.W¨oß,“Towardsadefinitionofknowledgegraphs,”SEMANTiCS(Posters,Demos, SuCCESS),vol.48,pp.1–4,2016. [6]https://blog.google/products/search/introducing-knowledge-graph-things-not/ 附1:海外学者在知识图谱领域相关研究 中国电 1.知识图谱的定义与发展历程——知识图谱发展历程 Feigenbaum 中国电子技术标准化研究 知识工程提出专家系统开始广泛研究与应用 1977 TimBernersLee 提出语义网概念,是后续知识图谱的基础 1998 1984 Google正式提出知识图谱(KnowledgeGraph,KG)概念 同年,Wikidata项目启动 2012 OpenKG组织成立 2015 2013 1968 Quillian 语义网络提出最早的表达人类知识 1965 普莱斯引文网络分析 DouglasLenat 中国电子技术标准化研究院 建立Cyc知识库 2002 首届国际语义网大会 (ISWC)召开,该会议延续至今,在国际上具有很高的学术影响力 2011 Schema.org建立 TimBernersLee 提出linkedOpenData 2006 首个KG嵌入方法TransE提出,推动了后续包括图神经网络等KG推理方法飞速发展 2016 国电子技术标准化研究院 首届CCKS大会召开 2018 2022 2020 首个知识图谱国标发布 RichPedia 作为多模态KG发布代表KG进入新时代 标准化研究院 中国电子技术 1955 加菲尔德提出引文索引的思想 2004 研究院 W3C将RDF和OWL纳入标准,并在后续不断更新,包括RDFS、SPAQL等逐渐填充进入,形成丰富的语义网技术栈 2007 Dbpedia知识库建立 事理图谱概念提出,强调了KG对事件的顺承、因果等复杂认知能力的建模 中国电 1.大模型的定义与发展历程——大模型的定义 中国电子技术标准化研究 广义上: 大模型是指参数数量大、结构复杂的深度学习模型,具备涌现能力、通用能力,并能够处理复杂的下游任务,如自然语言处理、图像识别等。 中国电子技术标准化研究院 权威论文中大模型的定义 狭义上: 大模型通常是指参数规模在一百亿(10B)以上,使用大规模的训练数据,具有良好的涌现能力,并在各种任务上达到较高性能水平的模型。[2] 标准化研究院 中国电子技术 具有涌现能力 在特定任务上,随着模型规模提升模型性能突然出现显著提升 大模型与传统模型相比具有三大特征[2]参数规模庞大 国电子技术标准化研究院 参数规模不少于十亿(1B),严格意义 上需超过一百亿(10B)[2] 具有通用性 研究院 能够仅通过提示、微调适应广泛的下游任务 中国电 2.大模型的定义与发展历程——大模型的发展历程 AlexNet为代表的新一代模型在规模和性能上超越传统方法 Google提出Transformer架构,奠定了大模型预训练算法架构的基础 OpenAI公司推出GPT-2,模型参数规模15亿,Decoder技术路线优势显现 RLHF算法被提出 中国电子技术标准化研究 搭载GPT3.5的 ChatGPT正式发布 中国发布的10亿以上参数大模型超过79个,“百模大战”态势初步形成 2005年 2013年 2018年 2020年 2022年8月 2023年3月 2023年7月 中国电子技术标准化研究院 2012年 2017年 2019年 2022年3月 2022年11月 2023年5月 CNN为代表的传统神经网络 模型占主导地 自然语言处理模型Word2Vec 诞生 •OpenAI发布GPT-1 (Decoder) •Google发布 OpenAI公司推出GPT-3,模型参数 规模1750亿,在 微软发布BEiT-3模型,标志多 模态大模型时 •GPT4正式发布,包含1.8万亿参数,采 用混合专家模型 •国家人工智能标准化总体组下设立大模型标准化专题组,启动标准编 位BERT(Encoder) 零样本学习任务上 代到来 •百度发布“文心一言”, 制工作 标准化研究院 研究院 国电子技术标准化研究院 中国电子技术 •预训练大模型成为自然语言处理领域的主流 实现了巨大性能提升 国内大模型研发热潮涌现 •《生成式人工智能服务管理暂行办法》公布 3.知识图谱落地面临的瓶颈 1.语料数据标注效率低、主观性强 中国电子技术标准化研究 语料数据标注仍大量依靠人工,存在标注效率低、主观性强等问题 中国电 4.本体构建难度大 本体构建对领域专业知识和构建经验要求高,实体与关系的标识和对齐、本体扩展和更新、本体评估和质控、不同本体融合等方面仍面临技术挑战 标准化研究院 中国电子技术 2.知识抽取质量,难以保证 知识抽取规则的构建仍主要依赖人工,主观性强,导致可移植性差和误差传播,使得知识抽取质量难以保证 3.语义理解和自然语言处理难度大 研究院 知识图谱在面对自然语言中的语义歧义、上下文理解、语言常识推理等问题时,仍缺乏有效的解决办法 5.知识通用性不足 中国电子技术标准化研究院 企业级知识图谱平台及其知识内容具有较强的行业属性和领域专业性,通用性和迁移泛化能力尚有不足,跨行业、跨领域规模化应用有待提升 国电子技术标准化研究院 6.知识完备性不足 企业级知识图谱构建中通常面临领域边界限制、企业内数据规模有限、数据中知识稀疏等问题,导致其知识完备性不足 中国电 4.大模型落地面临的瓶颈 中国电子技术标准化研究 1.训练大模型的成本高 大模型的训练和优化需要大量的算力资源和海量的数据资源,涉及高性能硬件设备、强大的分布式计算能力、数据治理与融合等,投入成本巨大 2.训练