人工智能之认知图谱 ResearchReportofCognitiveGraph 2020年第6期 清华大学人工智能研究院北京智源人工智能研究院 人工智能之认知图谱 ResearchReportofCognitiveGraph 2020年第6期 清华大学人工智能研究院北京智源人工智能研究院 摘要 认知图谱(CognitiveGraph)旨在结合认知心理学、脑科学和人类知识等,研发融合知识图谱、认知推理、逻辑表达的新一代认知引擎,支持大规模知识的表示、获取、推理与计算的基础理论和方法,实现人工智能从感知智能向认知智能的演进,建立可解释、鲁棒性的第三代人工智能。 本报告围绕认知图谱的概念内涵、关键技术、人才研究、应用场景、发展趋势等方面展开深入研究,主要内容包括: 一、认知图谱基本概念、产生历程、机遇与挑战。详细介绍了认知图谱的产生背景和基本概念,以及在演化过程中出现的代表性事件,并总结了认知图谱在当前环境下的机遇与挑战。 二、认知图谱基础理论和技术研究现状分析。根据认知图谱的概念,分别对知识图谱、认知推理、逻辑表达等领域的概念背景、发展历程、关键技术、应用、问题与挑战、未来研究方向等方面进行了详细介绍和深入分析。 三、认知图谱领域人才现状分析。基于AMiner平台提供的论文和学者大数据,从学者分布、学术水平、国际合作、学者流动等维度,对国内外相关研究学者和机构进行了对比分析,总结中国科研学者队伍建设过程中的弱势环节和问题,并提出对策建议。 四、认知图谱典型应用场景分析。首先以阿里巴巴电商平台为例,详细介绍了认知图谱如何赋能电商平台的搜索、推荐等核心业务。然后介绍了认知图谱在智慧城市、司法行业、金融行业、安防行业、精准分析、智慧搜索、智能推荐、智能解释、自然人机交互等行业技术的应用场景和案例。 最后分析了认知图谱相关技术研究发展趋势和创新热点,以及中国的专利数据和国家自然科学基金支持情况,并展望了认知图谱未来发展方向。 目录 1概述篇2 1.1认知图谱概念2 1.2认知图谱产生历程4 1.3认知图谱机遇与挑战8 2技术篇12 2.1知识图谱12 2.1.1知识图谱概念12 2.1.2知识图谱发展历程14 2.1.3知识图谱关键技术15 2.1.4知识图谱应用54 2.1.5知识图谱研究问题与挑战55 2.1.6知识图谱未来研究方向56 2.2认知推理58 2.2.1知识图谱推理概念58 2.2.2知识图谱推理关键技术59 2.2.3知识图谱推理应用74 2.2.4知识图谱推理研究问题与挑战76 2.2.5知识图谱推理未来研究方向77 2.3逻辑表达80 2.3.1自然语言生成概念80 2.3.2自然语言生成关键技术82 2.3.3自然语言生成应用91 2.3.4自然语言生成研究问题与挑战92 2.3.5自然语言生成未来研究方向94 2.4论文主题分析95 2.5经典论文解读99 2.6技术情报挖掘104 3人才篇110 3.1学者情况概览110 3.1.1学者分布地图110 3.1.2学术水平分析112 3.1.3国际合作分析115 3.1.4学者流动情况117 3.2代表性学者画像119 3.2.1国外代表性学者121 3.2.2国内代表性学者131 3.3中国学者问题与对策140 4应用篇144 4.1电商平台144 4.1.1认知推荐145 4.1.2基础数据层145 4.1.3推理引擎层147 4.1.4用户交互的文本和视觉智能154 4.2其他应用场景167 4.2.1行业应用167 4.2.2技术应用169 5趋势篇176 5.1技术研究发展趋势176 5.2技术研究创新热点177 5.3中国专利数据情况179 5.4国家自然科学基金支持情况180 6总结与展望184 参考文献187 附录1认知图谱相关的关键词列表201 附录2代表性期刊和会议列表202 附录3国家自然科学基金NSFC项目210 图表目录 图1人工智能发展的几个阶段2 图2双通道理论框架3 图3认知图谱的演化历程5 图4知识图谱样例13 图5知识图谱发展历程14 图6TransE模型的简单示例17 图7TransH模型的简单示例18 图8TransR模型的简单示例19 图9KG2E模型的示例21 图10传统模型和TransG模型比较22 图11RESCAL模型的简单图解23 图12DistMult模型的简单图解24 图13HOlE模型的简单图解25 图14SME模型的神经网络结构26 图15NTN模型的神经网络结构27 图16MLP模型的神经网络结构27 图17NAM模型的神经网络结构28 图18知识图谱的体系架构30 图19实体抽取样例31 图20实体链接案例38 图21RDF图示例:电影知识图谱45 图22属性图示例:电影知识图谱46 图23属性表存储方案示例49 图24Neo4j中顶点和边记录的物理存储结构52 图25VS*树54 图26描述逻辑的语义表61 图27描述逻辑与OWL词汇的对应表61 图28Tableaux的运算规则62 图29Tableaux的相关工具简介62 图30逻辑编程改写的相关工具简介63 图31基于一阶查询重写方法的处理流程64 图32产生式规则系统的执行流程65 图33产生式规则方法的相关工具65 图34使用逻辑规则用于知识图谱推理任务的示例66 图35RESCAL模型70 图36自然语言产生框架81 图37询问天气场景中的句子模板82 图38询问天气场景中的词汇模板83 图39ELMo模型架构84 图40Transformer模型架构86 图41GPT模型结构87 图42BERT模型的架构89 图43XLNet的AttentionMask原理机制91 图44LDA结构图96 图45认知图谱相关技术概览105 图46全球学者分布地图111 图47中国学者分布地图112 图48中国与其他国家的论文合作情况117 图49全球学者的流动情况118 图50中国学者的流动情况119 图51AMiner平台学者画像示例120 图52阿里巴巴认知智能计算平台145 图53阿里巴巴数据生态146 图54ATRank的网络结构148 图55从用户行为学习解离化表征模型实现架构总览图153 图56背包颜色维度示例图154 图57背包大小维度示例图154 图58KOBE模型的基本框架156 图59商品个性化推荐示例图157 图60多模态表征学习框架158 图61买家秀视频推荐的两个实际应用场景161 图62商品关联属性信息图162 图63Gavotte模型结构图163 图64GLA模型结构图165 图65部分实验结果示例图167 图66M-Recnet和M-LiveBot模型的结果对比图167 图67认知图谱领域的技术研究发展趋势177 图68认知图谱领域的技术创新热点词云图178 图69中国历年的专利数量分布(2010-2019年)179 图702010-2019年中国专利数量TOP10机构180 图71认知图谱相关领域国家自然科学基金项目支持历年分布情况181 图72认知图谱相关领域国家自然科学基金项目支持数量TOP10机构统计 ..........................................................182 表1认知智能和感知智能的异同点5 表2知识图谱产品统计13 表3三元组表示例49 表4认知图谱领域论文主题分布96 表5h-indexTOP5000全球学者的国家统计111 表6h-indexTOP5000中国学者的省市统计112 表7论文总被引频次排名前10的国家113 表8论文总被引频次排名前10的全球机构114 表9论文总被引频次排名前10的中国机构115 表10合作论文数量排名前10的国家列表115 表11学术指标说明119 表12认知图谱研究热点子领域的代表性学者的学术指标统计178 表13认知图谱相关领域国家自然科学基金项目分类情况(2010-2020年) ..........................................................180 表14认知图谱相关领域的关键词列表201 表15认知图谱领域代表性期刊和会议列表202 表16认知图谱领域国家自然科学基金支持的相关项目(2010-2020年) ..........................................................210 1 1概述篇 人工智能之认知图谱ResearchReportofCognitiveGraph 1概述篇 1.1认知图谱概念 大规模常识知识库与基于认知的逻辑推理是人工智能发展的瓶颈问题。1968年图灵奖获得者EdwardFeigenbaum研发出世界首个专家系统DENDRAL,并随后在第五届国际人工智能会议上提出,将知识融入计算机系统是解决只有领域专家才能解决的复杂问题的关键;1999年互联网发明人、图灵奖获得者TimBerners-Lee爵士提出语义网的概念,核心理念是用知识表示互联网,建立常识知识;2019年图灵奖获得者YoshuaBengio在NeurIPS大会上的主题报告中指出深度学习应该从感知为主向基于认知的逻辑推理和知识表达方向发展,这个思想和清华大学张钹院士近期提出的第三代人工智能思路不谋而合。总的来说人工智能的发展经历了表示、计算到感知两个阶段,下一个阶段的核心是认知(见图1)。近期图灵奖获得者ManuelBlum夫妇提出意识AI(意识智能)的思想,这是一个既经典又全新的概念和思路。核心的理念就是构造一个新型的可用数学建模、可计算的机器认知/意识模型。 图1人工智能发展的几个阶段 阿里巴巴达摩院发布“2020十大科技趋势”报告中提到,人工智能已经在“听、说、看”等感知智能领域达到或超越了人类水准,但在需要外部知识、逻辑推理或者领域迁移的认知智能领域还处于初级阶段[1]。复旦大学肖仰华教授在报告“知识图谱与认知智能”中描述了,让机器具备认知智能具体体现在机器能够理解 数据、理解语言进而理解现实世界的能力,体现在机器能够解释数据、解释过程进而解释现象的能力,体现在推理、规划等等一系列人类所独有的思考认知能力上,需要去解决推理、规划、联想、创作等复杂任务[2]。如何实现认知智能,阿里巴巴新零售智能引擎事业群总监杨红霞在CNCC2018会议上的报告“Extremelylargescalecognitivegraphrepresentationinpractice”详细介绍了阿里电商认知图谱,以更好地认知用户需求为目标,将助力搜索推荐等从基于行为的方式迈向基于行为与语义融合的认知智能时代[3]。 清华大学唐杰教授在“人工智能下一个十年”报告[4]中,结合认知科学和计算机理论,给出了一个实现认知智能的可行思路:认知图谱=知识图谱+认知推理+逻辑表达,希望利用知识表示、推理和决策,包括人的认知来解决复杂问题。这个思路的基本思想是结合认知科学中的双通道理论,在人脑的认知系统中存在两个系统:System1和System2,如图2所示。System1是一个直觉系统,它可以通过人对相关信息的一个直觉匹配寻找答案,它是非常快速、简单的;而System2是一个分析系统,它通过一定的推理、逻辑找到答案。比如,针对以下问题:“找到一个2003年在洛杉矶的Quality咖啡馆拍过电影的导演”。System1首先找到相关的影片,然后用System2来做决策,如果是标准答案,就结束整个推理的过程。如果不是标准答案,而相应的信息又有用,就把它作为一个有用信息提供给System1,System1继续做知识的扩展,System2再来做决策,直到最终找到答案。图灵奖获得者Bengio在NIPS2019大会的Keynote也提到,System1到System2的认知是深度学习未来发展的重要方向。 图2双通道理论框架 到目前为止,认知图谱在学术界和工业界还没有一个统一定义。百度百科给出的认知图谱