语义增强可编程知识图谱SPG (Semantic-enhancedProgrammableGraph) 白皮书(v1.0) ——新一代工业级知识语义框架及引擎 离散实体要素深度语义网络化,稀疏关系自动补全显性稠密化加速企业海量数据知识化集成,无缝衔接AI技术框架应用落地 蚂蚁集团×OpenKG联合出品 2023年8月 版权声明 本白皮书版权属于蚂蚁集团×OpenKG,并受法律保护。转载、摘编或利用其他方式使用本白皮书文字或观点的,应注明“来源:蚂蚁集团×OpenKG”。违反上述声明者,蚂蚁集团和OpenKG将追究其相关法律责任。 编写说明 牵头编写单位:蚂蚁科技集团股份有限公司 参与编写单位:同济大学、天津大学、恒生电子股份有限公司、浙江创邻科技有限公司、达观数据有限公司、海乂知信息科技(南京)有限公司、浙江大学、之江实验室、中国科学院计算技术研究所 编写组成员 蚂蚁科技集团股份有限公司:梁磊、张志强、彭晋、赵培龙、郭智慧、何雨潇、袁琳同济大学:王昊奋 天津大学:王鑫、王翔 恒生电子股份有限公司:白硕、陈佼浙江创邻科技有限公司:周研、张晨达观数据有限公司:王文广、贺梦洁 海乂知信息科技(南京)有限公司:胡芳槐、丁军浙江大学:陈华钧、张文 之江实验室:章衡 中国科学院计算技术研究所:白龙 推荐语 知识图谱是早期专家系统和语义网技术的延续,自2012年Google将其应用于搜索推荐领域以来,知识图谱技术在各领域得到了广泛应用。然而,长期以来知识图谱语义表示和技术框架并未有显著进步,这大大提高了各领域图谱的构建成本和业务落地的复杂度。我很高兴地了解到,蚂蚁集团和OpenKG合作,结合蚂蚁集团多年的知识图谱工业实践提出了兼容大数据体系和AI技术体系的知识语义框架SPG。SPG具有可编程性和框架化特性,具备较强的跨场景迁移能力,可以加速知识图谱的产业化落地,是知识图谱技术框架的突破性技术。自2022年底以来,ChatGPT、GPT4等大模型掀起了人工智能的新浪潮,但当前大模型仍然存在知识幻觉性、复杂推理谬误和计算成本高等问题。符号化知识图谱的技术体系作为大模型的补充,可以实现可控的内容理解和内容生成,为大模型产业落地提供正确的领域知识和复杂推理能力的支持。期待SPG成为知识图谱领域的重要技术,结合蚂蚁集团多元化场景的持续打磨以及与OpenKG社区力量的共建,推动产业在知识图谱领域的发展,促进不同领域之间的知识互通互联,促进大模型和知识图谱技术可控低成本产业落地。 ——清华大学人工智能研究院知识智能研究中心主任、教授李涓子 知识图谱作为符号化的知识表示体系,具备高阶语义、结构严谨、复杂推理等能力。在大语言模型(LLM)飞速发展的时代,知识图谱与LLM之间有丰富的互动关系,一方面LLM为低成本构建大规模知识图谱提供了有力工具,能否借助LLM构建超出现有知识图谱规模1-2个数量级的世界知识图谱成为一个有趣的研究问题;另一方面知识图谱的高质量、可解释的知识表示和推理能力,也为解决LLM的空想问题提供了一种可能的探索方向。 传统知识语义框架,如RDF/OWL及LPG等在知识管理方面有显著不足,很难支撑LLM时代的知识图谱构建与应用。SPG是蚂蚁知识图谱团队多年业务实践的总结,它有效克服了RDF/OWL及LPG的在知识管理上的不足,是一种新一代知识语义框架,借助SPG语义规范及可编程范式构建引擎架构,可以支持各领域图谱的高效构建和跨领域的知识语义对齐。 知识图谱的未来发展,离不开活跃的社区,未来蚂蚁将在SPG以及世界知识图谱构建与演化等方面持续与OpenKG社区合作,加速其技术成熟和产业落地。我们也欢迎产学各界同仁积极参与共建,共同促进知识图谱技术的成熟进步,促进不同领域之间的知识互通和流通,构建知识图谱 +LLM双驱动可控落地的新一代AI技术体系。 ——蚂蚁集团技术研究院院长、副总裁陈文光 蚂蚁集团拥有多元化的业务场景和海量的领域数据。SPG框架是基于蚂蚁多年的知识图谱实践经验而打磨而成的。由于蚂蚁业务数据具有多源异构、时序动态和关联复杂等特点,这为大规模知识图谱构建提供了良好的孵化环境。SPG框架通过对多业务、多场景问题的抽象总结,定义了新一代企业级知识管理范式,具备较强的企业级应用适应性。它通过数据的知识化,将海量数据转化为知识,并通过复杂模式计算和图学习推理等方法解决高维业务问题。SPG框架为高效的领域图谱构建和跨领域图谱语义对齐提供了更多创新的可能性。此外,在大型模型时代,通过基于SPG构建的图谱框架和领域图谱,可以实现大型模型在安全风控、小微信贷、数字金融等业务领域的可控落地。通过与OpenKG的合作,我们希望通过社区和产业的力量加速推进SPG框架的完善,促进知识图谱技术的成熟,并推动产业的发展。在这个过程中,我们欢迎各位同仁积极参与共建,共同推动知识图谱技术的发展和创新,真正实现大模型与知识图谱双向驱动的可控AIGC,从而加速产业的落地。 ——蚂蚁集团机器智能部负责人、研究员周俊 序言 知识图谱作为一种建模和管理数据的方法,已经在企业数字化过程中发挥了重要作用。然而,随着企业对知识图谱的需求不断增加,传统的知识图谱技术面临着一些挑战。基于对当前知识图谱技术的深入研究和实践经验的总结,蚂蚁集团发现,传统的知识图谱技术在应对复杂的业务场景和大规模数据时存在一些局限性。例如,知识图谱的构建需要统一的工业级知识建模框架,以便适应不同领域的需求;知识图谱的推理能力需要更加高效和可解释;知识图谱的构建和推理过程需要更好的可编程性和跨场景迁移性。 作为蚂蚁集团知识引擎的负责人,梁磊带领团队研制了一个工业级知识图谱语义框架——SPG(Semantic-enhancedProgrammableGraph)。当他第一次向我介绍蚂蚁的思考和SPG时,我惊喜地发现大家不约而同地在解决类似的问题,原来约定的1小时会议也慢慢演变成了一个上午的深度交流。之后我愈发感觉我们整合力量去扩展SPG来应对大模型时代新的机遇和需求,并向整个社区开源这个一站式全新的知识图谱平台工具。当我将这个想法告诉了梁磊,他和蚂蚁集团非常支持,我们也积极推进OpenKG的各个研发力量和蚂蚁知识图谱团队的合作,最终形成了一个虚拟团队开展了后续的双周交流,设计规划和研发工作。 SPG框架以属性图为基础,融合了RDF/OWL的语义性和LPG的结构性,兼具语义简洁和大数据兼容的优势。通过SPG框架,我们可以实现知识的动态到静态自动分层、领域内知识的唯一性和知识之间的依赖关系定义。同时,SPG框架还提供了可编程的范式,支持快速构建新的领域图谱和跨场景迁移。其在解决典型问题和场景方面具有广泛的应用价值。在黑产图谱和产业链事理图谱中,SPG框架可以帮助企业更好地识别和应对黑灰产对抗,提高风险防控能力;在知识推理和智能问答中,SPG框架可以提供更加准确和可解释的推理结果,提升用户体验和决策效果。 在本白皮书中,我们将详细介绍SPG框架的设计原理、技术模块和应用案例。我们希望通过这份白皮书,能够为读者提供一个全面了解SPG框架的机会,并激发更多的讨论和合作。我们相信,SPG框架将为企业数字化提供更加强大和灵活的知识图谱技术支持,推动知识图谱技术的发展和应用。最后,我们要感谢您对本白皮书的关注和支持。如果您对SPG框架或知识图谱技术有任何问题或建议,欢迎随时与我们联系。让我们一起开创新一代工业级知识图谱的未来! 谢谢! ——王昊奋、梁磊和SPG团队 目录 第1章从数据化到知识化:企业深化竞争优势,图谱技术与时俱进1 1.1知识图谱作为新一代企业级知识管理范式的期待1 1.2从二元静态到多元动态:知识管理模式的跃迁2 1.3与领域知识结合为AI可控、可靠落地提供了新思路4 1.4知识图谱技术体系的发展需与时俱进5 1.5基于SPG的工业级知识图谱引擎6 第2章基于属性图的知识管理存在的问题8 2.1典型案例1:黑产知识图谱8 2.2属性图应用于黑产图谱所存在的问题11 2.3典型案例2:金融事理图谱11 2.4属性图应用于事理图谱所存在的问题15 2.5知识建模中结构定义与语义表示的耦合导致的复杂性及异构性16 2.6对领域知识多元异构性表达能力不足18 2.7知识间逻辑依赖带来的一致性及传导推理问题20 2.8面向非完备数据集的图谱构建与演化问题22 2.9无语义不可编程的属性图所存在的问题总结24 第3章语义增强可编程框架SPG25 3.1SPG语义框架模型25 3.2SPG分层架构27 3.3SPG的目标能力27 第4章SPG-Schema层29 4.1SPG-Schema总体架构29 4.2节点和边的语义增强34 4.3谓词及约束的语义增强38 4.4规则定义的语义增强44 4.5SPG-Schema与PG-Schemas的关系46 4.6SPG-Schema总结47 第5章SPG-Engine层48 5.1SPG-Engine架构48 5.2SPG2LPGTranslator49 5.3SPG2LPGBuilder51 5.4SPG2LPGExecutor52 第6章SPG-Controller层60 6.1SPG-Controller架构与工作流60 6.2解析编译与任务规划61 6.3任务分发与调用61 第7章SPG-Programming层64 7.1SPG语义可编程架构64 7.2数据到知识的生产转换65 7.3逻辑规则编程66 7.4图谱表示学习67 第8章SPG-LLM层69 8.1SPG-LLM自然语言交互架构69 8.2自动抽取和图谱自动化构建69 8.3基于大模型的领域知识补全71 8.4自然语言知识查询与智能问答72 第9章SPG驱动的新一代认知应用案例73 9.1SPG驱动的金融事理图谱73 9.2金融事理图谱SPG与LPG的对比78 9.3SPG驱动的黑产知识图谱78 9.4黑产知识图谱SPG与LPG的对比84 第10章紧跟新时代认知智能的SPG85 第11章展望SPG的未来87 参考文献90 第1章从数据化到知识化:企业深化竞争优势,图谱技术与时俱进 在企业的数字化过程中,积累了海量的数据,既包括文本、图像、视频、音频等非/半结构化 数据,又包括用户行为、商品订单、产品服务、商户画像等结构化数据,还包括为支撑业务发展采买的专业知识库、外部渠道获取的行业数据等。面对海量数据,企业需要不断地为用户创造价值,同时实现高效的经营管理和风险控制。这对企业的数字化基建提出了很高的要求,也为知识图谱(KnowledgeGraph,KG)、大语言模型(LargeLanguageModel,LLM)等AI技术提供了多样化的落地场景,也带来了新的机遇和挑战,AI技术可以帮助企业从海量数据中快速发现规律、分析趋势、预测未来,从而更加精准地了解客户需求、优化产品设计、提升生产效率,还可以帮助企业进行智能风险管理、反欺诈识别等。而企业内因业务发展、部门差异等又广泛存在数据孤岛、数据一致性冲突、数据重复等问题,为提升数据利用效率,需要加强数据管理和应用,提高数据的利用率和价值。面对海量数据,企业需建立应用友好的管理范式,按业务模型定义数据结构,明确语义、消除歧义、发现错误等;面对数据孤岛,企业也期望建立数据孤岛的连接机制,实现跨系统、跨部门的数据共享和协同利用;面对口径差异,企业需建立标准化的数据和服务协议,以实现高效的数据协同、专家经验协同、人机协同等。通过更高效的数据管理机制,标准化数据建模、消除歧义提升一致性、连接数据孤岛,是企业数字化升级面临的关键问题,更高效的组织管理企业数据,利用AI技术充分挖掘数据价值,已成为企业未来增长的核心内驱力。 1.1知识图谱作为新一代企业级知识管理范式的期待 作为AI技术重要分支的知识图谱因可以帮助企业更好地组织和管理知识数据,通过对数据进行语义化建模,构建知识图谱,企业可以更加直观地了解数据之间的关系,从而更好地发现隐藏在数据中的价值,也受到了越来越多的青睐。Gartner2021年预测以知识图谱技术为