大语言模型是实现AGI的必由之路吗? 2024.3.12 张奇 复旦大学 1 这近乎是个哲学问题 2 很多结论都可以用一个统一的问题 进行“反驳” 3 什么是AGI AGI(ArtificialGeneralIntelligence),中文翻译为“通用人工智能”,亦被称为强AI,任何可以想象的人类的专业领域内,具备相当于人类智慧程度的AI,一个AGI可以执行任何人类可以完成的智力任务。 围棋AI的五子棋能力为0 AGI要具备的能力 AGI要具备哪些能力呢 1.语言:使用自然语言交流 2.知识:常识知识、专业知识 3.推理:演绎、归纳、溯因 4.学习:根据历史进行自我学习 “推理能力”是AGI的核心 6 推理能力包含哪些 演绎推理(Deductivereasoning):就是从一般性的前提出发,通过推导,得 出具体陈述或个别结论的过程。例如经典的三段论推理: 前提:人皆会死 前提:苏格拉底是人结论:苏格拉底会死 推理能力包含哪些 归纳推理(Inductivereasoning):是论证的前提支持结论但不确保结论的推理 过程。它基于对特殊的代表(token)的有限观察,把归结到类型;或基于对反复再现的现象的模式(pattern)的有限观察,公式表达规律。 例如: 观察:我们每次看到的有翅膀的动物都是鸟观察:我们又看到了一个有翅膀的动物 结论:这个动物应该是也是鸟 推理能力包含哪些 溯因推理(Abductivereasoning,也译作反绎推理):是从事实推理到最佳解 释的过程。换句话说,它是开始于事实的,并推导出其最佳解释的推理过程。例如: 观察:这个车不能启动了,在发动机下看到了一滩液体。结论:这个车不能启动的原因大概率是因为发动机有漏油。 归纳-演绎法在我们认识世界过程中,扮演重要作用 演绎推理能力如何? 11 演绎推理有比较好的数学工具,目前大模型模型效果较好 12 2023年5月版本并不能很好的解决演绎推理 通过强化学习,分步骤的推理评分,可以很好的解决演绎推理问题,但是仍 然是当做单独的任务进行单独优化。13 当前的版本复杂逻辑题仍存在问题 14 大模型对于分布外数据集处理扔有待提高 ChatGPT和GPT-4都擅长解决著名的逻辑推理阅读理解基准,但在处理分布外数据集方面很困难。它们在需要逻辑推理的自然语言推理任务上的性能仍有待提高。 2022年新创建数据集合人工创建的分布外数据 真实应用中的演绎推理怎么样? 真实应用中的演绎推理怎么样? 大模型在多跳知识问题的推理中可能应用了在预训练阶段学习到的事实捷径。 大模型在预训练阶段可能直接学习到下一届奥运会在亚洲举办这一跨步知识,当采用知识编辑方法将下一届奥运会举办国由日本改为法国后,模型可能仍然认为下一届奥运会在亚洲举办。 大模型对知识运用能力怎么样? 关注四个能力 •检索:WhatispersonA’sattributeX? •分类:IsA’sattributeXevenorodd? •比较:IsAgreaterthanBinattributeX? •逆向搜索:Whichperson’sattributeXequalsT? 大模型对知识运用能力怎么样? 大模型对知识运用能力怎么样? 语言模型难以完成比较和分类任务。 大模型对知识运用能力怎么样? 语言模型无法进行逆向知识搜索,除非知识以逆序出现在预训练数据中 演绎推理做为单独任务可以优化 演绎推理能力在其他任务中并不能自动获得是否具备归纳推理能力需要仔细思考 22 归纳推理能力如何? 23 归纳推理的能力如何呢? 乘法的步骤: 当任务复杂程度增大时,模型的准确率接近为0 归纳推理的能力如何呢? GPT3modelson∼1.8Mmultiplicationpairs GPT3finetunedexhaustivelyontask-specificdatauptoacertainproblemsize.Theblueregionrepresentsthein-distributionexamplesandtheredregionreferstoOODexamples. Theyconsiderallk1-by-k2digitmultiplicationswith1≤k1,k2≤4andk1·k2≤9; 训练过程中简单加入过程作用也十分有限 数学计算评测 28 Yuanetal.,“HowwelldoLargeLanguageModelsperforminArithmetictasks?”,Arxiv2023 如果不能解决推理问题 大模型成为AGI是不可能的 29 现阶段降低对推理的诉求 30 可以确认的大模型能力 长上下文建模、更好的语义表示、多任务学习、跨语言迁移性 31 谢谢! 32