行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

2024年大语言模型是实现AGI的必由之路吗？

文化传媒 2024-03-12 - 复旦大学 Explorer丨森

AGI的核心能力与现状分析

AGI的定义与核心能力

AGI（通用人工智能）是指在任何人类专业领域内具备相当于人类智慧水平的AI，能够执行任何人类可以完成的智力任务。AGI需具备四大核心能力：

语言能力：使用自然语言交流
知识储备：包含常识知识和专业知识
推理能力：包括演绎、归纳和溯因推理
学习能力：根据历史数据进行自我学习

其中，推理能力被视为AGI的核心，包含：

演绎推理：从一般前提推导具体结论（如三段论）
归纳推理：基于有限观察归纳规律（如“有翅膀的动物都是鸟”）
溯因推理：从事实推导最佳解释（如“车漏油导致无法启动”）

推理能力的现状评估

演绎推理
- 优势：有较好的数学工具支持，大模型表现较好
- 问题：
  - 2023年5月版本仍无法解决复杂逻辑题
  - 强化学习虽能优化分步推理，但仍是独立任务优化
  - 大模型在分布外数据集（OOD）处理能力不足
  - ChatGPT/GPT-4在逻辑推理基准测试中表现优异，但在OOD数据集上困难
- 真实应用案例：
  - 研究表明大模型可能依赖预训练阶段学习的事实捷径（如将“日本举办奥运会”改为“法国”后仍错误判断）
  - 论文《Investigating Multi-Hop Factual Shortcuts in Knowledge Editing of Large Language Models》证实此现象
归纳推理
- 能力局限：
  - 数学计算任务中，GPT3在复杂度增加时准确率接近0
  - 超过1.8M乘法对时模型失效，即使进行针对性微调也无效
  - 简单训练过程干预对提升归纳能力作用有限
- 评测数据：
  - 论文《Faith and fate: Limits of transformers on compositionality》显示，GPT3在1≤k1,k2≤4且k1·k2≤9的乘法任务中表现良好，但在OOD数据集上表现差
  - 论文《How well do Large Language Models perform in Arithmetic tasks?》进一步验证

知识运用能力评估

大模型在四项知识任务中表现如下：

检索：表现较好
分类：表现一般
比较：难以完成
逆向搜索：无法完成除非知识以逆序出现在预训练数据中相关研究来自《Physics of Language Models: Part3.2, Knowledge Manipulation》

结论

推理能力是AGI发展的关键瓶颈，尤其是归纳推理能力严重不足
现阶段大模型在演绎推理中仍依赖捷径而非真正的逻辑推理
知识运用能力存在明显短板，难以完成比较、分类和逆向搜索任务
当前大模型具备长上下文建模、语义表示、多任务学习和跨语言迁移等优势
若要实现AGI，必须突破推理能力的限制

张奇复旦大学 2024.3.12 这近乎是个哲学问题什么是AGI AGI（ArtificialGeneralIntelligence），中文翻译为“通用人工智能”，亦被称为强AI，任何可以想象的人类的专业领域内，具备相当于人类智慧程度的AI，一个AGI可以执行任何人类可以完成的智力任务。围棋AI的五子棋能力为0 AGI要具备的能力 AGI要具备哪些能力呢 1.语言：使用自然语言交流2.知识：常识知识、专业知识3.推理：演绎、归纳、溯因4.学习：根据历史进行自我学习 “推理能力”是AGI的核心推理能力包含哪些演绎推理（Deductive reasoning）：就是从一般性的前提出发，通过推导，得出具体陈述或个别结论的过程。例如经典的三段论推理：前提：人皆会死前提：苏格拉底是人结论：苏格拉底会死推理能力包含哪些归纳推理（Inductive reasoning）：是论证的前提支持结论但不确保结论的推理过程。它基于对特殊的代表（token）的有限观察，把归结到类型；或基于对反复再现的现象的模式（pattern）的有限观察，公式表达规律。例如：观察：我们每次看到的有翅膀的动物都是鸟观察：我们又看到了一个有翅膀的动物结论：这个动物应该是也是鸟推理能力包含哪些溯因推理（Abductive reasoning，也译作反绎推理）：是从事实推理到最佳解释的过程。换句话说，它是开始于事实的，并推导出其最佳解释的推理过程。例如：观察：这个车不能启动了，在发动机下看到了一滩液体。结论：这个车不能启动的原因大概率是因为发动机有漏油。归纳-演绎法在我们认识世界过程中，扮演重要作用演绎推理能力如何？演绎推理有比较好的数学工具，目前大模型模型效果较好 2023年5月版本并不能很好的解决演绎推理通过强化学习，分步骤的推理评分，可以很好的解决演绎推理问题，但是仍然是当做单独的任务进行单独优化。当前的版本复杂逻辑题仍存在问题大模型对于分布外数据集处理扔有待提高 ChatGPT和GPT-4都擅长解决著名的逻辑推理阅读理解基准，但在处理分布外数据集方面很困难。它们在需要逻辑推理的自然语言推理任务上的性能仍有待提高。真实应用中的演绎推理怎么样？ Investigating Multi-Hop Factual Shortcuts in Knowledge Editing of Large Language Models，Juetal.,Arixv2024 真实应用中的演绎推理怎么样？大模型在多跳知识问题的推理中可能应用了在预训练阶段学习到的事实捷径。大模型在预训练阶段可能直接学习到下一届奥运会在亚洲举办这一跨步知识，当采用知识编辑方法将下一届奥运会举办国由日本改为法国后，模型可能仍然认为下一届奥运会在亚洲举办。 Investigating Multi-Hop Factual Shortcuts in Knowledge Editing of Large Language Models，Juetal.,Arixv2024 大模型对知识运用能力怎么样？关注四个能力 •检索：What is person A’s attribute X?•分类：Is A’s attribute X even or odd?•比较：Is A greater than B in attribute X?•逆向搜索：Which person’s attribute X equals T? 大模型对知识运用能力怎么样？大模型对知识运用能力怎么样？语言模型难以完成比较和分类任务。 Physics of Language Models:Part3.2,KnowledgeManipulation，Allen-ZhuZ.,LiY.,Arixv2023 MeatAI/FAIRLabs 大模型对知识运用能力怎么样？语言模型无法进行逆向知识搜索，除非知识以逆序出现在预训练数据中 Physics of Language Models:Part3.2,KnowledgeManipulation，Allen-ZhuZ.,LiY.,Arixv2023 MeatAI/FAIRLabs 演绎推理做为单独任务可以优化演绎推理能力在其他任务中并不能自动获得是否具备归纳推理能力需要仔细思考归纳推理能力如何？归纳推理的能力如何呢？乘法的步骤： Dziri, Nouha, et al. “Faith and fate: Limits of transformers on compositionality.”Advances inNeural Information Processing Systems36 (2024)AllenAI 当任务复杂程度增大时，模型的准确率接近为0 Dziri, Nouha, et al. “Faith and fate: Limits of transformers on compositionality.”Advances inNeural Information Processing Systems36 (2024)AllenAI 归纳推理的能力如何呢？ GPT3 models on∼1.8Mmultiplication pairs GPT3 finetuned exhaustively on task-specificdatauptoacertainproblemsize.Theblueregionrepresentsthein-distributionexamplesandtheredregionreferstoOODexamples. Theyconsiderallk1-by-k2digitmultiplicationswith1≤k1,k2≤4andk1·k2≤9; Dziri, Nouha, et al. “Faith and fate: Limits of transformers on compositionality.”Advances inNeural Information Processing Systems36 (2024)AllenAI 训练过程中简单加入过程作用也十分有限 Dziri, Nouha, et al. “Faith and fate: Limits of transformers on compositionality.”Advances inNeural Information Processing Systems36 (2024)AllenAI 数学计算评测 Yuanetal.,“How well do Large Language Models perform in Arithmetic tasks?”,Arxiv2023 如果不能解决推理问题大模型成为AGI是不可能的现阶段降低对推理的诉求可以确认的大模型能力长上下文建模、更好的语义表示、多任务学习、跨语言迁移性谢谢！

点击免费查看完整报告

2024年大语言模型是实现AGI的必由之路吗？

AGI的核心能力与现状分析

AGI的定义与核心能力

推理能力的现状评估

知识运用能力评估

结论

你可能感兴趣

2024年电碳协同下的发展路径与产业机遇——能源互联网是实现电碳协同的必由之路报告

宽带神话：实现超快的下载速度是国家当务之急吗？

只有16%的公司有望实现净零。是你的吗？

后疫情时代银行之基本任务：为何极致数字化是金融服务的必由之路

中国软件行业：挑战是成功的必由之路

电子行业：华为创新和知识产权白皮书，尊重和保护知识产权是创新的必由之路

产能扩张是竞争力提升的必由之路

煤炭行业并购市场研究：并购重组是煤炭行业转型升级的必由之路

无边界企业：开放安全的混合云与网络是必由之路

建筑装饰行业周报：装配式是建筑业转型升级的必由之路