热门搜索：

大模型工具学习

文化传媒2024-05-21-清华大学@***

AI智能总结

总结归纳如下：

工具与情报：
- 人类通过发明和操纵工具提高了生产力、效率和解决问题的能力。
- 人工智能（AI）在工具使用方面具有潜力，能够理解语义、具备广泛的世界知识和强大的推理与规划能力。
工具学习概览：
- 工具学习：基础模型能够遵循人类指令并操作工具以解决任务。
- 分类：包括工具增强学习和面向工具的学习，前者通过工具执行结果扩展基础模型，后者利用模型管理工具并代替人类做决策。
意图理解：
- 基础模型学习理解指令的基本目的，并通过指令调整和监督微调来提升泛化能力，从而实现零镜头任务概括。
工具理解与规划：
- 内省推理：在不与环境交互的情况下生成静态计划。
- 外向推理：生成考虑环境变化和反馈的动态计划，通过提示激发工具理解，如零拍提示和少量提示。
规划与推理的挑战与解决方案：
- 面对模糊指令和无限指令空间的挑战，通过内省推理和外向推理结合使用提示，提升模型的规划能力。
培训策略：
- 从演示中学习和从反馈中学习，如WebGPT通过监督学习和强化学习结合实现高效搜索。
WebCPM框架：
- 一个开源交互式网络搜索界面，包含搜索模型和信息综合模型，通过接口和预定义操作优化搜索和信息整合。
工具创建：
- 人类是工具创造的主要媒介，现在通过CREATOR项目，让LLM成为工具创造者，实现自监督工具学习。
ChatGPT插件与开源解决方案：
- 通过官方工具库和开源存储库BMTools扩展应用范围，支持用户构建和共享工具，实现插件化操作。
评估与展望：
- 基础模型在传统语言任务上的表现良好，但在复杂场景中利用工具学习面临理论与实践挑战，未来研究将探索提升模型在实际应用中的性能。
工具学习论文列表：
- 提供了相关研究论文的链接，以便深入研究和了解该领域的发展。

工具学习秦禹嘉THUNLP 背景 THUNLP •工具是人类能力的延伸，旨在提高生产力、效率和解决问题的能力 •纵观历史，人类一直是发明和操纵工具的主要媒介 •问题：人工智能在工具使用方面能像人类一样有能力吗？ •基础模型的答案是肯定的 •较强的语义理解 •广泛的世界知识 •强大的推理和计划能力... •工具学习[1]：基础模型可以遵循人类指令和操纵工具来解决任务 •工具增强学习 •具有来自工具的执行结果的扩充基础模型 •工具被视为有助于产生高质量产出的补充资源 •面向工具的学习 •利用模型来管理工具并代替人类做出顺序决策 •利用基础模型的广阔世界知识和推理能力进行复杂的推理和规划框架 THUNLP 环境提供了工具运行的平台感知者汇总反馈给控制器工具集：具有不同功能的工具的集合控制器提供可行的计划来满足用户请求 •理解指令的基本目的 •学习从指令空间到模型认知空间的映射 •指令调整 •用不同的指令包装任务 •监督微调 •非凡的泛化能力 [1]精细语言模型是零分学习者 [2]多任务提示训练可实现零镜头任务概括 [3]OPT-IML：通过镜头扩展语言模型指令元学习泛化9 userid:444287,docid:155342,日期:2024-05-19, •扩大模型大小和指令调整数据集的多样性 •泛化能力的增强 •挑战 •理解模糊指令：用户查询中的模糊和歧义 •理论上的无限指令空间：无限表达和个性化指令 •通过提示激发工具理解 •零拍提示: •描述API功能，其输入/输出格式，可能的参数等。 •允许模型了解每个API可以处理的任务 •少量提示： •向模型提供具体的工具使用演示 •通过从这些演示中模仿人类行为，模型可以学习如何利用这些工具 •通过提示激发工具理解 •内省推理 •在不与环境交互的情况下生成静态计划 •外向推理 •生成考虑环境变化和反馈的动态计划 •内省推理 •如果提示适当，PLM可以有效地将高级任务分解为中级计划，而无需任何进一步的培训作为零镜头策划者的语言模型：为具体化提取可操作的知识代理商14 •外向推理 •挑战：基础模型没有体现或扎根于物理世界 •解决方案：约束模型提出既可行又符合上下文的自然语言动作尽我所能，不要像我说的那样！ Ahn,Michael,etal."DoasIcan,notasIsay:Groundinglanguageinrobotaffiliences."arXivpreprintarXiv:2204.01691(2022).15 •外向推理 •内心独白[1]：将各种反馈来源的信息注入模型规划 [1]黄文龙等。“内心独白：通过语言模型进行规划的具身推理。”arXiv预印本arXiv：2207.05608(2022).16 •多步骤多工具方案 •人类不会坚持一个场景和一个工具 •了解不同工具之间的相互作用 •模型不仅要了解单个工具，还要了解它们的组合用法并对工具进行逻辑排序 •从顺序执行到并行执行 •工具不必顺序执行，并行执行导致叠加效果 •从单代理问题解决到多代理协作 •复杂的任务通常需要多个代理之间的协作，每个代理都有其独特的专业知识 •从演示中学习：通常涉及（人类）注释 •从反馈中学习：通常涉及强化学习 •监督学习 •克隆人类行为以使用搜索引擎 •监督微调+强化学习 •只需要6,000个注释数据 Nakano,Reiichiro,etal."WebGPT:Browser-assistedquestion-answeringwithhumanfeedback."arXivpreprintarXiv:2112.09332(2021).19 •动机 •WebGPT不是公开的，其内部运作仍然不透明 •我们的努力（WebCPM） •开源交互式网络搜索界面 •第一个涉及交互式网络搜索的公共QA数据集，也是第一个中国LFQA数据集 •框架和模型实现 •接口（搜索模式）和预定义的操作 •我们的框架由两个模型组成： •1.搜索模型，包括： •行动预测模块 •搜索查询生成模块 •支持事实提取模块 •2.信息综合模型对于T个步骤的动作序列,搜索模型执行动作以收集支持事实,这些支持事实被发送到合成模型以用于答案生成。整体管道评价（基于人类偏好）模型生成的答案v.s.人类注释支持事实的三个来源被发送到综合模型 (1)管道收集，(2)人工收集，(3)非交互式搜索(TF-IDF) •学习进行网上购物 •自监督工具学习 •预定义的工具API •鼓励模型调用和执行工具API •设计自监督损失，看看工具执行是否可以帮助语言建模如果工具执行减少了LM损失，请将实例保存为训练数据 •从工具用户到工具创建者 •人类是从石器时代到21世纪创造和使用工具的主要媒介 •大多数工具是为人类创造的，而不是AI •为模型制作的工具 •模块化：将工具组成较小的单元 •新的输入和输出格式：更可计算且适用于AI •现有工程的限制 •大多数现有工作往往集中在有限数量的工具上 •用于确定工具最佳利用率的模型所采用的推理过程本质上是复杂的 •当前管道在检索执行结果后缺乏错误处理机制 •我们不是让LLM充当工具的用户，而是让他们成为创造者[1] •四个程序 •创建 •Decision •Execution •整改 •实验 •数据:数学、TabMWP •对PoT和纯CoT的重大改进应用程序 THUNLP •OpenAI官方工具库 •为ChatGPT提供更广泛的应用程序 •通过简单地提供带有描述的API，ChatGPT能够调用应用程序并完成更复杂的任务 •BMTools •一个开源存储库，可扩展语言模型以使用工具，并作为社区构建和共享工具的平台 •特点: •用户可以通过编写python函数并使用外部ChatGPT-Plugins轻松构建新插件 •用户可以托管其本地模型（例如LLaMA、CPM）以使用工具 •特点: •支持30+工具工具，欢迎投稿！数据库天气APIPPT 谷歌学者 Huggingface模型图像生成 •特点: •支持BabyAGI和AutoGPT •100k+工具-使用SFT数据的方式! 39 •ToolBench •一种开源，大规模，高质量的指令调整SFT数据，以促进一般的工具使用能力 •我们提供数据集，相应的训练和评估脚本，以及在ToolBench上微调的强大模型ToolLLaMA •功能 •支持单工具和多工具方案 •ToolBench提供的响应不仅包括最终答案，而且还包含模型的思想链过程，工具执行和工具执行结果 •多步骤决策和工具执行 •另一个值得注意的优势是我们的API的多样性，它是为现实世界的场景而设计的 •98k实例，312kAPI调用 •施工工艺 •所有数据都由OpenAIAPI自动生成，然后进行过滤，整个数据创建过程易于扩展 •创建过程 •我们提供数据集，相应的训练和评估脚本，以及一个强大的模型ToolLLaMA •评价 •ToolLLaMA与ChatGPT在工具使用方面的能力相匹配 •ChatGPT自动评估（越高越好） Summary •传统的语言任务（几乎）得到了很好的解决 •句法分析、实体识别、情感分析... •我们面临着更具挑战性的任务！ •基础模型可以通过使用语言在复杂的场景中利用，性能可能在很大程度上依赖于LLM的有效性 •理论问题依然存在 •实际问题仍然存在 •探索在复杂场景中利用工具学习工具学习论文列表 https://github.com/thunlp/ToolLearningPapers 谢谢秦禹嘉THUNLP

点击免费查看完整报告

你可能感兴趣

大模型工具学习

你可能感兴趣

2024大模型工具学习（中英文）

大模型工具学习

多智能体强化学习大模型初探-郝晓田

调查与学生使用数字学习工具相关的因素

【机构龙虎榜解读】多模态+AI大模型+机器人，自主研发深度学习人脸识别算法，在视觉图像识别及人机智能交互方面拥有产业链关键技术，并于去年开始在双足和四足机器人方向展开技术探索，机构大额净买入这家公司