随着云计算、大数据和人工智能等信息技术的快速发展,各行业数字化水平的逐步提高,企业业务环境和计算场景日益复杂,数据间的关联关系也正在变得更加交错。在面对需要深度挖掘数据间复杂关联关系的场景时,传统的关系型数据往往计算效率低下,难以满足应用需求。 图结构数据凭借对关联关系的强刻画能力,迅速脱颖而出。图计算中的“图”并非图片/图形(Picture/Image),而是“图论”中的“图”(Graph)。图数据由一系列的点、边构成,能更自然、直观地表述数据间的关联关系,是一种更符合人类思考方式的抽象表达;图计算技术基于图数据开展分析和计算,从中挖掘出有价值的信息、知识和规律,为实际业务应用提供支持。 近年来图计算学术研究领域发展迅速。近年来图计算学术研究领域发展迅速,从2014年到2021年间,图计算领域论文数量呈现翻倍增长趋势,其中以中美两国学者为首。目前,清华大学、北京大学、中国科学院以及华中科技大学等是国内图计算领域研究的先驱,贡献了中国大多数高被引用图计算论文。 图计算产业应用正在大步向前推进。现阶段,图计算领域参与者不仅有互联网/公 有云厂商(如蚂蚁、腾讯、AWS、MicrosoftAzure等),还有一众垂直图计算企业(如Neo4j、TigerGraph、创邻科技、欧若数网等)、传统数据库厂商 (Oracle、IBM等)也已经入局。 受制于整体市场对图计算技术的认知仍未成熟,图计算行业仍处于商业化初期阶段,行业生态体系尚未完善,目前主要应用场景仍相对集中。未来随着整体市场对图计算认知的提升,商业模式逐渐成熟,更多潜在应用场景被挖掘出来,市场空间将进一步打开。 图计算技术正向着更大规模数据、更优性能计算、更复杂算法等方向探索。未来随着图数据量级的进一步提升,对大规模图数据的高效处理成为图计算领域研究者关注的重点;另一方面,结合图技术与机器学习技术的图机器学习(以图神经网络GNN为代表),近年来也在人工智能领域掀起了研究热潮,通过将图结构数据与机器学习模型结合,以部分解决过往复杂模型存在的可解释性低下问题。 本报告通过科研端文献研究、产业调研与专家访谈等方式,将从技术、人才、科研与产业四个维度展开分析,阐明行业发展背景、追溯技术发展历程、拆解技术原理及优势、勾勒行业格局,并研判图计算未来发展趋势。 大数据时代,以图数据库、图学习、知识图谱为代表的图计算技术迎来发展的黄金时代,并逐渐成为人工智能和高性能计算产业发展的重要支撑。图在数据模型上的灵活性,深度关联分析方面的便利性以及图智能所具备的可解释性,在智能技术飞速发展的今天具有特别的意义,获得了业界的广泛关注。眼下,全球各大科技公司纷纷将争夺这项技术的话语权提到了战略性位置,通过加强研发、设立实验室卡点布局。 让人欣慰的是,图计算在中国获得了与国际同步的发展,整体上处于国际上的第一梯队。中国图计算团队,正在成为一股崛起的力量,创造了多项技术突破,在各项测试和竞赛中拔得头筹,技术的理念也在世界范围获得认可,在多项国际标准中发挥了主导作用。 当前,图计算行业还处于发展的初期阶段,技术的发展还不够成熟,例如系统成熟度不足、缺乏标准的语言和生态工具等;应用的范围和深度也还有巨大的发展空间,我们对图这项技术的认识,也正在摸索中前进。幸运的是,我们看到,图技术的先进性,已经在很多领域,解开了纠缠环绕的麻绳,并且找到了牵引未来方向的源头。 图计算多才多艺,方兴未艾,现在布局图计算正当其时。长远来看,技术的问题总可以解决,我们相信在产学研各界同行的共同努力下,未来随着整体产业生态成熟、技术瓶颈突破、用户思维转变,更多行业和应用场景的问题将可以用图解决,图数据库及图计算市场也将看到更广阔的发展空间。 道阻且长,行则将至。 ——陈文光,蚂蚁集团图计算技术负责人,蚂蚁技术研究院院长 TableofContents 前言 06Chapter1图计算技术发展背景与脉络 图计算相关概念 图计算技术原理与特点图计算技术溯源 15Chapter2图计算领域研究侧追踪 研究侧追踪 研究论文地域分布 全球一流研究机构与人才分布部分代表研究学者 图计算研究趋势 22Chapter3关键产品及行业发展现状 图计算产业链与生态参与者 图数据库与图计算系统市场格局图计算行业商业化现状与应用场景全球企业融资近况与典型企业案例图计算技术发展趋势 40Chapter4总结与展望版权说明 Chapter1 图计算技术发展背景与脉络 图计算相关概念 图计算技术原理与特点 图计算技术溯源 6 图数据 以图结构存储的数据,通常用图结构中的顶点表示实体或者实例,边表示实体或实例间的关联关系。例如在社交网络中,用户可以看做是点,而点赞和关注等行为则是链接点之间作为表达数据关系的边。图数据具有依赖性强、局部性差、不规则分布、结构多样等特点 图结构 一种非线性数据结构,由一个顶点集V(顶点数大于0)和一条边集E(边数不小于0)组成,通常记为G=(V,E)。图结构中的每一条边都附着于V中的两个顶点。图结构中任意两个节点之间都可能相关,即节点之间的邻接关系是任意的 即图论(GraphTheory),是数学的一个分支,它的思考方式是节点跟边如何连接、它们之间有怎样的关系 图(Graph) 释义 相关名词 图数据库 基于图模型对图数据进行存储、操作和访问的数据管理系统,是一种非关系型 图算法 指在图数据上运行的算法。图算法是图计算的核心。常见的图算法包括图的遍历、最小生成树以及最短路径等 图学习 基于图的机器学习,是将图的结构信息整合到机器学习模型中。由于图结构具有更强的表达能力,为人工智能的因果关系和可解释性方面研究带来了突破 属性图 图数据库按数据模型分类,可分为属性图和RDF图。属性图模型由点边及其属性构成。属性图中的属性是一个键值对,并且顶点和边都具有属性。图数据库通常指基于属性图的图数据库 图计算 一切基于图数据进行的分析计算都属于图计算。由于图能够直接刻画个体之间的关系,所以图计算尤其适用于大数据下的复杂关联关系分析和计算任务 图神经网络(GraphNeuralNetwork/GNN)是指使用神经网络来学习图结构数据, 图神经网络提取和发掘图结构数据中的特征和模式,满足聚类、分类、预测、分割等图学习任务 需求的算法总称 (NoSQL)数据库 原生图存储 图数据库按存储方式分类,可分为原生图存储和非原生图存储。原生图存储指存储模式专门为图数据处理而设计优化,使用图模型进行数据存储 单机 图数据库按存储方式分类,可分为单机和分布式架构。单机指将系统部署在单台服务器进行处理,架构简单,不需考虑分布式通讯开销,适合数据集中处理,但对大规模数据的计算能力有限 RDF图 RDF图主要针对文本语义的场景,用三元组(subject-predicate-object)来表达。通常RDF图模型在顶点和边上没有属性,只有一个唯一的资源描述符 非原生图存储 指底层存储使用非图模型(如关系型等)其他数据存储模式,受此限制在处理部分多层问题时性能会受到影响 知识图谱 图数据的一类下游应用。知识图谱是一种知识库,其本质是一个存储知识实体与实体之间关系的结构化网络,可以帮助形式化描述、理解现实世界的事物及其相互关系 分布式结构 指将系统拆分后独立运行在分布式集群环境中,能更高效地运行大规模关联关系数据的存储、查询与计算,提升可扩展性,但也提高了架构设计、图切分等方面的难度 图(Graph)是对世界的一种自然表达,具有天然的可解释性。图作为一种能够直观表达事物之间关联关系的数据结构,真正将数据间的本质关系释放出来,对现实世界具有更一般性的表达能力。图计算为处理复杂关系提供了一种全新的建模方式, 也为更深刻地理解世界提供了一种有效工具。 图计算中的“图”是针对“图论”而言,是一种以“图论”为基础对现实世界进行“图”结构的抽象表达,以及在这种数据结构上的计算模式。图论起源于18世纪大数学家欧拉所解决的一个经典数学问题——柯尼斯堡七桥问题。柯尼斯堡七桥问题讲述的是能否通过“一笔画”的方式,从任何一座桥出发,穿过七座桥,再回到出发地点。在欧拉之后,直到上个世纪60年代,才出现了随机图理论。也是从彼时开始,图论真正开始从一个抽象的理论科学转向实际应用的工程学科。 图丨柯尼斯堡七桥问题抽象成图结构(来源:CBInsights中国整理) 图计算是研究人类世界的事物和事物之间的关系,对其进行描述、刻画、分析和计算的一门技术。图(Graph)是一种非线性数据结构,由一个顶点集V(顶点数大于0)和一条边集E(边数不小于0)组成,通常记为G=(V,E)。图结构中的每 一条边都附着于V中的两个顶点。图结构中任意两个节点之间都可能相关,即节点之间的邻接关系是任意的。 图计算指代一切基于图数据的分析和计算。图计算的目标就是从图结构中挖掘出有价值的知识或规律,包括事件溯源、因果关系等。传统上,数据结构以表格形式居多,而图结构由一系列的点、边以及点和边上所具有的属性构成。关系型数据库在 存储数据和数据之间的关系时,往往需要创建多张表来表示数据和数据之间的关系,不够直观且需要通过多表关联才能完成查询操作。而图数据可以直接在图中建立数据节点之间的边来表示数据节点之间的关系,数据在被放入数据库前,就已经做好关联。图数据既是简洁的、优雅的、高效的,又具有强大的扩展能力和个体间关系表征能力,因此图计算尤其适用于大数据背景下的复杂关联关系的分析计算。 不论是分子间的结构、还是神经结构、又或者是交通网络和能源网络,一切充满关联的事物都可以用图结构来表示。图计算的核心在于如何将数据建模为图结构,以及如何将解决问题的步骤变换为图结构上的操作和计算问题。当实际问题涉及到关联分析时,图计算往往能够使得问题的解法很自然地表示为一系列对图结构操作和计算的过程。 图数据 关系型数据 数据库 图数据库 关系型数据库 理论基础 图论 关系模型 数据存储方式 数据节点 二维关系表 关系存储方式 边 主键外键方式 关系查询方式 图查询、简洁 表连接 关联查询速度 快 慢 表丨图数据库和关系型数据库对比(来源:CBInsights中国) 图提供了一种能够代表现实世界中绝大多数事物关联关系的独特的结构。与经典的表格或者矩阵不同,图上的节点和边并没有被赋予过多的权重,每个元素都依赖于其他元素并形成一种互联互通的关系,而这种关系是所有基于图的假设和预测的核心。在大数据计算中,通过分析图数据之间的关联性,能够高效地从噪声很多的海量数据中抽取有用的信息。 图计算能够高效地对具有复杂关联关系的数据进行深度计算。例如在金融领域的信用卡套现场景中,通过深度分析个体和个体、个体和事件、事件和事件间的关联性,图计算便能够帮助银行从上亿点边规模的交易数据中精准且高效地识别出金融欺诈操作。 图计算系统基于顶点和边的方式存储图数据和计算,能够建构任意复杂的网络和模型并存储大量的信息,进而完整且形象地映射分析人员想要研究的问题域。经典的表格结构的数据都能够用图数据来表示,但不是所有的图数据都能够用数组或表格的形式来表示。 另一方面,在对简单事物关系的数据进行计算时,列表型的数据尚且能够展现出高效的性能,然而一旦模型复杂度提升,例如金融领域中的交易数据,传统的列表数据模型的劣势将显现无疑。倘若在传统的关系型数据模式下进行分析和计算,复杂的业务场景将带来冗余的表之间的关联操作和频繁的数据通信,造成成千上万倍计算量的提升,系统性能大打折扣,极大降低了计算的效率。但是,在面对高度结构化的数据时,图计算的处理能力将不及基于传统数据模型的计算,这是由于在进行图计算的过程中存在着随机访问的问题。 图数据库和图计算系统(也称图计算引擎)是图计算技术领域的核心内容。 图数据库 图计算系统 20世纪 21世纪初 图数据库最早可追溯到20世纪60年代面向树状结构的数据库,如IBM的IMS;20世纪70-80年代出现面向属性图的模型和技术,如