DataFunSummit2023:知识图谱与AIGC论坛 AIGC时代的多模态知识工程思考与展望 分享人:李直旭(研究员、博导) 复旦大学计算机科学技术学院 2023.03.18 分享人简介 李直旭 复旦大学计算机科学技术学院研究员、博士生导师 复旦大学知识工场实验室执行副主任、数据工程与多模态智能研究组负责人上海市数据科学重点实验室办公室主任 中国计算机学会高级会员、数据库专委会委员 中国中文信息学会语言与知识计算等专委会委员 个人简历 •澳大利亚昆士兰大学计算机科学博士 •中国人民大学信息学院计算机学士&硕士 •前苏州大学计算机学院教授、博导 •前科大讯飞苏州研究院副院长(兼) 主要研究方向为知识图谱、知识工程与认知智能、自然语言处理等已累计在知名期刊与国际会议上发表论文150余篇 拥有授权发明专利20余项 主持国家级和省部级纵向科研项目累计近十项 与华为、阿里、科大讯飞等人工智能企业保持长期合作 01AIGC时代:未来已来 02AIGC的阿克琉斯之踵 目03多模态认知智能 录04AIGCforMMKG 05MMKGforAIGC 06AIGC+MMKG PART1 AIGC时代:未来已来 上图摘录自:国泰君安证券《ChatGPT研究框架(2023)》 随着算法的不断迭代,生成式人工智能技术(AIGC)不断发展。 文本生成 Jasper、copy.Ai、ChatGPT、Bard、GTP4 AIGC 图像生成 音频生成视频生成 EditGAN、Deepfake、DALL-E、StableDiffusion DeepMusic、WaveNet、DeepVoice、MusicAutoBot Deepfake、VideoGPT、GliaCloud、ImageVideo (一个很有意思的画,来自互联网) AIGC可生成的内容形式已囊括文本、图像、音频和视频。 多模态文图生成大模型 多模态统一大模型 •GoogleImagen的高清作画 •太乙StableDiffusion的意境绘画 洗盘子的泰迪熊 遨游太空的木船 时代广场的跳舞机器人 由静态图生成动态图 谷歌5620亿参数PaLM-E,将真实世界的传感器信号与文本输入相结合,建立语言和感知的链接,可操控机器人完成任务规划和物品操作。 在机器人操作规划、视觉问答和字幕生成等任务中进行了端到端的训练 主要架构思想:将连续的、可感知的观察数据注入预先训练的语言模型的嵌入空间中,以使其能够理解这些连续数据。这是通过将连续观测数据编码为与语言嵌入空间中的语言标记具有相同维度的向量序列来实现的。这种连续信息以类似于语言标记的方式注入语言模型中。 PaLM-E进一步验证了“智慧涌现”在多模感知和具身智能上的效果。 •RichSutton在著名文章《苦涩的教训》中: •唯一导致AI进步的是更多的数据、更有效的计算。 •DeepMind研究主任NandodeFreitas宣称: •AI「现在完全取决于规模」。 •AI领域更难的挑战已经解决了。「游戏结束了!」 •目前,大多数领域,大模型已经(暂时)战胜了精心设计的知识工程。 •然而:IstheAIgameREALLYover? PART2 AIGC的阿克琉斯之踵 实时信息自更新慢,新旧知识难以区分 无法真正为领域类问题提供专业、靠谱的答案 Q:gpt4是什么时候发布的? A:抱歉,目前还没有关于GPT-4的官方发布计划和消息。 Q:华为手机没电了,请问能否使用苹果手机的充电器充电? A:可以的,苹果手机和华为手机使用的充电器接口都是标准的USB接口,因此苹果手机的充电器也可以用来给华为手机充电。不过,请注意使用符合标准的充电器。 Q:现任韩国总统是谁?A:现任韩国总统是文在寅。 Q:鲁迅和周树人是同一个人吗? A:不是同一个人,鲁迅和周树人是两个不同的人。鲁迅…而周树人(1895年1月25日-1968年11月6日)也是中国著名的现代作家和翻译家,代表作品有《春蚕》、 《子夜》等。 Q:3个人3天用3桶水,9个人9天用几桶水? A:根据题目可知,3个人在三天内用了3桶水,可以推算出每天每人用水量为: 3桶/3人/3天=1桶/人/天 因此,在9个人使用9天内需要的总用水量为:1桶/人/天×9人×9天=81桶 所以,9个人在九天内需要用81桶的水。 (正确答案应该是:27桶水) Q:红楼梦中贾宝玉为什么要葬花? A:据小说描写,贾宝玉葬花的原因是因为他感到世间美好事物的短暂和凋零… 强语言,弱知识:“一本正经地胡说八道” 逻辑推理不靠谱:不论是数学逻辑还是专业逻辑 文到图生成:来自StableDiffusion input:绿草红花 input:红草绿花 Input:Acouchontheleftofachair. 椅子左边的沙发 Input:aphotographofahorseridinganastronaut 一匹马骑着宇航员的照片 组合泛化问题 属性泄露问题 方位理解混乱语义理解错误 AIGC跨模态生成虽然视觉效果惊艳,但往往存在较大的信息不对称性 视觉问答VQA:来自BLIP2 Isthisillegalorlegal? 回答错误,因大模型不知晓球拍上的w图案是品牌wilson的logo 回答错误,需要针对场景 “在车上看手机是否合法”进 行推理。 回答错误,因在海边拿着冲浪板应该是去冲浪,冲浪需要穿wetsuits 事实知识不足 逻辑推理欠缺 常识储备不足 大模型驱动的跨模态问答,往往因缺乏知识和常识而产生错误回答。 谷歌的PaLM-E虽然依赖于如此大规模的参数初步实现了对机器人的操控,但其Demo展示的空间范围、物品种类、任务规划复杂度等还比较有限。 千亿规模参数,DEMO展示却: 当前的空间范围封闭有限 当前的物品种类数量有限 当前的规划任务比较简单 当前的操作任务比较简单 如果要在真实世界的复杂场景中达到实用级别,PaLM-E的参数规模 是否还需要增大百倍、千倍、甚至万倍? 如果一味用海量参数来存储所有知识,智慧涌现的代价是否过于昂贵? 多模态大模型的本质:“用语言解释视觉,用视觉完善语言。” 将文本中的语言符号知识,与视觉中的可视化信息建立统计关联。 用语言解释视觉:将语言中蕴含的符号知识体系和逻辑推理能力延伸至对视觉内容的理解;用视觉完善语言:丰富的视觉信息可以成为符号知识体系和逻辑推理能力的重要完善补充。 重要前提现实状况 1)海量高质量图文配对数据; 2)文字富含事实知识和常识; 3)逻辑推理过程可显化被学习。 1)数据大但质量差,信息不对称; 2)纯文字中的知识与常识不完备; 3)逻辑推理隐性难以学习。 组合泛化问题 属性泄露问题 方位理解混乱 语义理解错误 事实知识不足逻辑推理欠缺常识储备不足 统计模型难以较低成本全面准确地掌握人类的知识、常识与逻辑推理能力。 PART3 多模态认知智能 多模态图谱 Meta-cognition Why、How? 常识图谱 corpora 跨模态推理 (符号/隐性) 跨模态归纳与演绎 跨模态概念想象 Inference Why? 语言模型 DT LM KG Languagemodel 多模态知识获取 DN 大规模知识网络 多模态知识表示 Understanding What? 多模态知识应用 …… 跨模态生成 跨模态问答 跨模态推荐 跨模态搜索 抽取 自知之明 价值引领 自主学习 生成 群智 萃取 实体理解 概念理解 schema理解 常识理解 因果理解 多模态理解 多模态认知智能:基于多模态数据的知识获取、表示、推理与应用。 多模态大模型 (连接主义、经验主义) 多模态知识工程 (符号主义) 统计学习 •端到端、干预少 专家系统、知识图谱 •易推理、可控、可干预、可解释 •“数”尽其用概率关联、简单鲁棒 海量预训练数据 符号表达、可见可控 精选数据+专家知识 •信息损失 往往难以学习从因到果、从主到次、从整体到部分、从概括到具体、从现象到本质、从具体到一般等逻辑关系 数据转换成符号知识的过程往往伴随着巨大的信息损失, 隐性知识、难以表达的知识是损失信息中的主体 在AIGC大模型时代,多模态知识工程依然不可或缺。 多模态知识图谱(Multi-ModalKnowledgeGraph) •在传统知识图谱的基础上,增加多种模态数据以丰富符号知识的表达 •多模态数据包括但不限于:图像、视频、语音、代码 《葡萄牙人》国歌 多模态知识图谱可以将符号接地到具象的视觉等模态对象上,实现跨模态语义对齐 多模态知识图谱的两种常见形式: •多模态数据仅作为文字符号实体的关联属性存在 •多模态数据也可作为图谱中的实体存在,可与现有实体发生广泛关联 A-MMKG:MMKGwithmulti-modaldataasattributevaluesN-MMKG:MMKGwithmulti-modaldataasentities X.Zhu,Z.Liet.al.Multi-ModalKnowledgeGraphConstructionandApplication:ASurvey,AcceptedbyTKDEinDec.2022 多模态大模型的优点 •关联推理强:可以学习掌握大量跨模态知识模式, 隐空间的关联推理能力强,具有很强的泛化能力 •多任务通吃:一套大模型处理各类跨模态任务 •人工成本低:不依赖人工Schema设计与数据标注 •适配能力强:可通过调优训练或Prompt对话等方式来 适配新的领域和任务 •可靠程度低:所生成内容可靠性堪忧,存在误差累 积、隐私泄露等,无法胜任高精度严肃场景需求 •知识推理弱:没有真正掌握数据背后的知识,缺乏 知识推理能力,更无因果推理能力 •可解释性弱:虽有COT加持,但可解释性仍然不足 •训练成本高:需要消耗大量的计算资源和时间来进 行训练,需要强大的计算设备和高效的算法 多模态大模型的不足 多模态知识图谱的不足 •推理能力弱:只能表示已有的知识和关系,对于未 知或不确定的领域难以进行有效的知识建模和推理 •人工成本高:其构建需要依赖于人工或半自动的方 式进行知识抽取和建模,难以实现完全自动化 •架构调整难:其基本schema架构通常是静态的,不易根据新的数据或场景进行修改和调整 •专业可信高:其结构和关系清晰,易于理解和解释,可为人类决策提供参考,通常为某个具体应用场景而构建,可提供更精准和针对性的知识支持 •可解释性强:以结构化形式表示知识,知识的可访 问性、可重用性和可解释性好,对人类友好 •可拓展性好:知识图谱的内容可以随着应用场景的需要进行不断扩展和更新,可以不断完善和改进 多模态知识图谱的优点 因此:当前阶段,大模型与知识图谱仍应继续保持竞合关系,互相帮助,互为补充。 PART4 AIGCforMMKG 大模型知识诱导(萃取):利用Prompt机制来获得多模态大模型中富含的知识。 语言模型作为知识库 •从语言大模型中探测语言知识 •从语言大模型中探测关系知识 Petroni,F.,Rocktäschel,T.,Lewis,P.,Bakhtin,A.,Wu,Y.,Miller,A.H.,&Riedel,S.(2020).Languagemodelsasknowledgebases?EMNLP-IJCNLP2019-2019ConferenceonEmpiricalMethodsinNaturalLanguageProcessingand9thInternationalJointConferenceonNaturalLanguageProcessing,ProceedingsoftheConference,2463–2473.https://doi.org/10.18653/v1/d19-1250 视觉语言模型作为常识库 •从多模态大模型中探测跨模态对