您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[imit]:白皮书医学知识图谱医学人工智能的基石 2023 - 发现报告
当前位置:首页/行业研究/报告详情/

白皮书医学知识图谱医学人工智能的基石 2023

医药生物2023-03-07-imitJ***
白皮书医学知识图谱医学人工智能的基石 2023

医学知识图谱:医学人工智能的基石 MedicalKnowledgeGraph:CornerstoneofMedicalAI 本期导读 知识是人类智能的象征,知识对人工智能而言有着同样重要的意义。知识表示、获取和应用一直是人工智能的重要研究方向,知识图谱则是随着人工智能的历史逐渐发展和演变出的一个概念。医学被认为是人工智能可以大显身手的领域之一,医学知识图谱也是近年来医学人工智能行业关注的焦点之一。医学知识图谱可以作为底层数据,应用于医学领域的语义搜索、知识问答、临床决策支持等场景。如何根据医学知识的特点,设计和构建符合医学专业逻辑的知识图谱,是医学知识图谱能更好应用的关键。 imit数字医学知识中心 胡冉林云云赵童 卡德热亚·买买提 肖雪赵芳君徐美兰朱烨琳 内容摘要 (一)知识图谱概述 知识图谱是一种用图模型来描述知识和建模世界万物之间的关联关系的技术方法,由节点和边组成,三元组是知识图谱的基本表示形式。在逻辑上可将知识图谱分为模式层和数据层。按领域可将知识图谱分为通用知识图谱和领域知识图谱,医学知识图谱是一种重要的领域知识图谱。 (二)知识图谱发展历史 回溯知识图谱的发展历史可以发现,语义网络、本体、万维网、语义网和链接数据等概念都与其有千丝万缕的联系。在人工智能领域,知识图谱是语义网络和本体等概念的延伸。同时,在知识图谱中也可以看到万维网、语义网和链接数据等互联网的基因。 (三)国内外主流知识图谱介绍 在通用知识图谱领域,国内外发展早、积累多,国内起步晚,但在近些年也有大量的项目积累。在医学知识图谱领域,国内在数据规模、维护模式和知识整合层面相较于国外都还有一定的差距。 取、知识融合、知识存储和知识推理;在构建方式上,可分为机器构建和人工构建。在医学知识图谱的构建中,如何平衡人工与机器的参与度,选取合适的技术方法是关键。 (六)医学知识图谱的应用 现阶段,医学知识图谱的主要应用方向为语义搜索、知识问答和临床决策支持,同时在一些新领域,如辅助药物研发和公共卫生事件应对,知识图谱也逐渐显示出其优势。 (七)医学知识图谱的未来展望 随着行业应用的深入,医学知识图谱未来在数据数量、数据质量、标准化程度和知识分级等方面应有更高的要求。医学知识图谱是医学人工智能的基石,如何准确定位,选取出适合的知识,设计恰当的构建路线,采用合适的构建技术,营造良好的行业共享互动生态是医学知识图谱未来发展的重点。 (四)医学知识图谱的特点 医学知识有术语多样化、知识分散、知识复杂和质量参差不齐等特点,这些特点也使医学知识图谱在知识表示、知识获取和知识应用三个层面需有一些特殊的设计与考量。 (五)医学知识图谱的构建 医学知识图谱的构建和通用知识图谱类似。在构建流程上,可以分为知识建模、知识抽 研究简介 (一)研究背景 知识图谱概念自提出以来,引起了人工智能行业内的广泛关注,越来越多的通用和领域知识图谱项目也逐渐落地。医学领域的知识和知识应用场景相较于其他领域有其特殊性,如何吸取其他领域知识图谱的项目经验,总结出一套符合医学逻辑的知识图谱构建流程和应用方式,是知识图谱在医学领域的应用能真正落地的关键。 (二)研究目标 通过对医学领域的深入研究,归纳出医学知识图谱的特点,梳理医学知识图谱的主要构建流程和方式,总结医学知识图谱的主要应用方向,并对医学知识未来的发展提出相关展望。希望通过本期白皮书,能够为国内医学知识图谱的发展提供参考。 者、全球著名的医疗保健设备厂商、国内外领先的行业软件企业来共同从事该领域的研究开发、顾问咨询、认证评估、国际合作、成果转化等工作,并引领政、产、学、研、用、资六位一体的公益事业公共服务支撑平台,进而营造出可生存可持续发展的数字医疗卫生产业链生态环境。 (五)版权说明 本白皮书版权属于浙江数字医疗卫生技术研究院,并受法律保护。转载、摘编或其它使用本白皮书文字或观点内容,请注明“来源:浙江数字医疗卫生技术研究院”,若违反上述声明者,本院将追究其相关法律责任。 白皮书中所有带星号(*)的示例数据均来源于OMAHA知识库(包括“七巧板”医学术语集和“汇知”医学知识图谱),OMAHA知识库版权归浙江数字医疗卫生技术研究院所有。 (三)研究方法 本研究通过对国内外相关文献和资料进行检索和整理归纳分析,同时对国内有代表性的开展医学人工智能和医学知识图谱相关企业进行调研,深入了解医学知识图谱行业的发展状况。 (四)浙江数字医疗卫生技术研究 浙江数字医疗卫生技术研究院(简称“数研院”,imitTM)是中国首家致力于数字与信息化技术在医疗卫生健康服务领域研发与应用的专业性非营利研究机构(NPO/NGO),院长为杨胜利院士,理事长为李兰娟院士,常务副院长为郑杰先生。 数研院聚集众多业内的资深院士和专家学 一、知识图谱概述 人工智能的早期发展中可分为两个主要流派,连接主义(Connectionism)和符号主义(Symbolism)。连接主义主张用计算机模拟人脑神经网络连接的形式来实现智能,这一流派的代表为深度神经网络;符号主义则主张用计算机符号表示人脑中的知识,这一流派的代表为知识工程和专家系统。近年来,深度学习等技术的发展让连接主义在视觉、听觉等由数据驱动的感知智能领域获得了成功,但在模拟人思考过程、处理常识知识和推理,以及理解人的语言方面仍然举步维艰。符号主义关注的核心是知识的表示和推理(KRR,KnowledgeRepresentationandReasoning),它属于知识驱动的认知智能领域,可以很好地弥补连接主义的不足。作为人工智能研究中的基础,符号主义关注的知识表示和推理发展出了很多成果,其中知识图谱是人工智能发展到新阶段的符号主义代表,它的本质是一种基于图模型的结构化知识表示形式,它能够表达丰富的语义知识,同时也更易于被机器理解和处理。知识图谱是当前人工智能发展的基石。对于医学人工智能而言,医学知识图谱同样也是基石[1][2]。 (一)知识图谱定义 2012年5月,Google首次提出了“知识图谱”的概念。虽然至今行业尚未形成统一、标准的定义,但Google知识图谱的宣传语“thingsnotstrings”揭示了知识图谱的核心。知识图谱指的是一种用图模型来描述知识和建模世界万物之间的关联关系的技术方法[3]。知识图谱由节点和边组成,节点表示实体(entity)、概念(concept)或属性值 (value);边表示实体的属性(property)或实体间的关系(relation)。 ●实体:又称为对象(object)或实例 (instance),指客观世界中具有可区别性且独立存在的某种事物,如2型糖尿病、二甲双胍。实体是知识图谱最基本的元素,每个实体可以用一个唯一的ID进行标识[4]。 ●概念:又称为类别(type)、类(category或class),指反映一组实体的种类或对象类型,如疾病、药品[4]。 ●关系:指连接不同实体的“边”,用以描述实体之间的关联[4],如二甲双胍和2型糖尿病之间有适应证关系*。 ●属性:指某个实体可能具有的特征以及参数[4],如二甲双胍有医保支付类别属性*。 ●属性值:指实体特定属性的值[5],如二甲双胍的医保支付类别为甲类*。 知识图谱在逻辑上分为模式层和数据层[6]。模式层一般指Schema,是知识图谱的概念模型和逻辑基础,是数据层的规范约束。数据层主要由一系列的事实组成,主要基于模式层定义的模型构建数据,以三元组形式存储。三元组G=(head,relation/property,tail)是知识图谱数据层的一种通用表示形式,其中head是三元组的头节点,tail是三元组的尾节点,relation/property=[r1,r2,r3,…,rM,p1,p2,p3,…,pN]是知识图谱关系和属性的集合,共包含M条关系和N条属性。三元组的基本形式主要包括(实体1,关系,实体2)和(实体,属性,属性值)。 以二甲双胍为例*,其部分知识图谱示例如图1。 来源:OMAHA知识库,白皮书团队整理分析 图1:二甲双胍部分知识图谱示例* (二)知识图谱分类 图谱,通常面向某一特定领域,主要基于行业数据构建,对特定行业有重要的意义。由 当前常见的知识图谱分类维度有如下几 种[7]: ●按照知识图谱中的知识类型进行分类,主要包括概念知识图谱、百科知识图谱、常识知识图谱、词汇知识图谱; ●按照语言可划分为单语言知识图谱和多语言知识图谱; ●按照构建方式,则可以分为全自动知识图谱、半自动知识图谱和以人工为主构建的知识图谱; ●按照知识图谱所涉及的领域分为通用知识图谱、领域知识图谱和企业知识图谱。 按照知识图谱领域划分是行业较为常见的一种图谱分类方法。其中通用知识图谱主要以互联网开放数据作为主要来源,强调融合更多实体,可以形象地将其看成一个“结构化的百科知识库”。通用知识图谱包含大量的常识性知识,覆盖面广,但准确度一般不高,并以搜索和问答为主要应用形式[8]。领域知识图谱又称为行业知识图谱或垂直知识 于领域知识图谱需要考虑不同的业务场景和使用人员,所以实体的关系和数据模式比较丰富,对该领域知识的深度和准确性也有着更高的要求[8]。 目前医学知识图谱是应用最广的领域知识图谱之一,也是国内外人工智能领域研究的热点[5]。它在语义搜索、知识问答和临床决策支持等智慧医疗领域都有很好的发展前景。 二、知识图谱发展历史 知识图谱的发展历史可以从语义网络 (SemanticNetwork)开始溯源,期间本体论(Ontology)、万维网(WorldWideWeb)、语义网(SemanticWeb)、链接数据(LinkedData)等概念的提出都对知识图谱的产生和发展有着重要的影响[2]。语义网络概念的提出为知识图谱提供了构建思路,本体论为知识图谱提供概念模型,TimBerners-Lee提出的万维网则实现了链式网络文档,基于万维网提出的语义网技术为知识图谱研究奠定了基础,链接数据则是最接近知识图谱的概念,之后谷歌提出的以信息检索方式呈现“知识图谱”正式开启了行业对知识图谱的研究。知识图谱发展历史时间简表如图2。 (一)语义网络 语义网络是用实体及其语义关系来表达知识的一种知识表示方式,在数学上是一个有向图,与逻辑表示法对应。语义网络最早由Quillian于上世纪60年代以人类联想记忆的一个心理学模型提出,之后被应用于自然语言理解[9]。语义网络一般由最基本的语义基元组成,即有向图表示的三元组(节点A,弧R,节点B)。其中节点表示实体,即事物、概念、事件、属性、状态等,弧表示它们之间的关系,即语义关系。多个语义基元用相同的语义联系连接起来就形成了语义网络。 语义网络重点在于构建词与词之间的关联,但不能明确区分概念和实例。从语义网络中已经可以看到知识图谱的雏形。 (二)本体 本体的概念源于哲学领域,被定义为存在论,即对世界上客观事物的系统描述。20世纪90年代初,本体概念被广泛地应用于计算机领域中,是概念化和结构化的知识表示方法。在初期,TomGruber提出:“本体是概念模型的明确规范说明”[10]。之后Studer等人进一步深化了本体的定义,于1998年总结提出:“本体是共享概念模型明确的形式化说明”[11]。一个本体通常由概念类、关系、函数、公理和实例组成。本体注重概念层的构建,它从实例中抽象出事物的本质,统一概念,建立概念间的关联关系。本体的树状结构常被用来定义知识图谱Schema,在此基础上添加扩充实例和数据后形成知识图谱。 (三)万维网&语义网 万维网由TimBerners-Lee于20世纪80年代提出,利用超文本技术实现网页及网页之间的连接,但机器无法读取网页中的具体信息[12]。而语义网作为万维网的衍生物,旨在达到互联网信息互通无障碍。语义网 来源:王昊奋,漆桂林,陈华钧主编.知识图谱:方法、实践与应用[M].电子工业出版社,2019 图2:知识图谱发展历史

你可能感兴趣

hot

2023语义增强可编程知识图谱SPG白皮书

信息技术
蚂蚁集团&OpenKG2023-09-11
hot

2023知识图谱互联互通白皮书

文化传媒
中国电子技术标准化研究院2023-10-13