工具学习 秦禹嘉 qyj20@mails.tsinghua.edu .cn THUNLP 背景 THUNLP •工具是人类能力的扩展,旨在提高生产力,效率和解决问题的能力 •纵观历史,人类一直是主要代理人在工具的发明和操纵中 •问题:可以人工智能能像人类一样使用工具吗? •基础模型的答案是肯定的 •强大的语义理解•广泛的世界知识•强大的推理和计划能力... •工具学习[1]:基础模型可以跟随人类用于任务解决的指令和操作工具 [1]秦,于佳,等。“基础模型的工具学习”。arXiv预印本arXiv:2304.08354(2023)。4 •工具增强学习 •使用工具的执行结果增强基础模型 •工具被视为互补资源这有助于产生高质量的产出 •面向工具的学习 •利用模型来管理工具和做出顺序决策代替人类 •利用基础模型的广阔世界知识和推理能力进行复杂的推理和规划 框架 THUNLP 控制器 满足用户请求的计划 提供了可行的 The感知者 反馈给控制器 总结 工具集:工具的集合具有不同的功能 Environment提供了工具操作的平台: •理解指令的基本目的 •学习从指令空间到模型认知空间的映射 •InstructionTuning •用不同的指令包装任务 •监督微调 •非凡的泛化能力 [1]精细语言模型是零分学习者 [2]多任务提示训练可实现零镜头任务概括 [3]OPT-IML:泛化视角下的扩展语言模型教学元学习9 •扩大模型大小和指令调整数据集的多样性 •增强泛化能力 •挑战 •Understanding模糊指令:用户查询中的模糊和歧义 •理论上无限指令空间:无限的表达和个性化的指令 •通过提示激发工具理解 •零射提示: •描述API功能、它们的输入/输出格式、可能的参数等。 •允许模型了解每个API可以处理的任务 •少拍提示: •向模型提供具体的工具使用演示 通过从这些演示中模仿人类行为,模型可以学习如何利用这些工具 •通过提示激发工具理解 •IntrospectiveReasoning •生成静态计划而不与环境交互 •外向推理 •生成考虑环境和反馈变化的动态计划 •内省推理 •如果适当提示,PLMs可以有效地将高层任务分解为中层计划而无需任何进一步的训练。 作为零镜头策划者的语言模型:为具体代理提取可操作的知识14 •外向推理 •挑战:基础模型没有体现或扎根于物理世界 •解决方案:将模型约束为提出既可行又符合上下文的语言行动。 尽我所能,不要像我说的那样! •外向推理 •内心独白[1]:将各种反馈来源的信息注入模型规划 •多步骤多工具方案 人类不会坚持一个场景和一个工具 •了解不同工具之间的相互作用 •模型不仅应该了解单个工具,还应该了解它们的组合用法并对工具进行逻辑排序 •从顺序执行到并行执行 •工具不必顺序执行,并行执行导致叠加效果 •从单代理问题解决到多代理协作 •复杂的任务通常需要多个代理之间的协作,每个代理都有其独特的专业知识 • 从演示中学习:通常涉及(人类)注释 • 从反馈中学习:通常涉及强化学习 •监督学习 •克隆人类行为以使用搜索引擎•监督微调+强化学习 •只需要6,000个注释数据 Nakano,Reiichiro,etal."WebGPT:Browser-assistedquestion-answeringwithhumanfeedback."arXivpreprintarXiv:2112.09332(2021)1.9 •动机 WebGPT不是公开的,其内部运作仍然不透明 我们的努力(WebCPM) •开源交互式网络搜索界面 •The第一次公开涉及交互式网络搜索的QA数据集,也是第一个中国LFQA数据集 •框架和模型实施 •界面(搜索模式)和预定义的操作 •我们的框架由两个模型组成:搜索模型,包括: •行动预测模块•搜索查询生成模块 •支持事实提取模块 •2.信息综合模型 对于T个步骤的动作序列,搜索模型执行操作以收集支持事实,这些事实是 发送到综合模型答案生成。 整体管道评价基于人类偏好:模型生成的答案vs.人工标注三类支持事实被发送给综合模型:(1)管道收集的事实,(2)人类收集的事实, (3)非交互式搜索(TF-IDF)。 •学习进行网上购物 •自我监督工具学习 •预定义✁工具API •鼓励模型调用和执行工具API •设计自监督损失以评估工具执行是否有助于语言建模 如果工具执行减少了LM损失,请将实例保存为训练数据 •从工具用户到工具创建者 人类是从石器时代到21世纪创造和使用工具✁主要媒介 大多数工具都是为人类创造✁,而不是AI •为模型制作✁工具 •模块化:将工具组成较小✁单位 •新✁输入和输出格式:更可计算且适用于AI 现有工程✁限制 •大多数现有工作往往集中在有限数量✁工具上 ·用于确定工具最佳利用率✁模型所采用✁推理过程本质上是复杂✁ •当前管道在检索执行结果后缺乏错误处理机制 •我们不是让LLM充当工具✁用户,而是让他们成为创作者[1] 钱成等."CREATOR:通过工具创建解构大型语言模型✁抽象和具体推理."30 •四个程序 •整改 •实验 •数据:数学、TabMWP •对PoT和纯CoT✁显著改进 应用程序 THUNLP •OpenAI官方工具库 •EmpowerChatGPT与更广泛✁应用程序 通过简单地提供带有描述✁API,ChatGPT能够调用应用程序并完成更复杂✁任务 •BMTools •一个开源仓库,扩展语言模型以使用工具,并作为社区构建和分享工具✁平台。 •特点: •用户可以轻松构建new插件通过编写python函数和使用外部ChatGPT插件 •用户可以托管他们✁局部模型(如LLaMA、CPM)使用工具 •特点: •支持30+工具工具,欢迎贡献! 数据库 天气API PPT 谷歌学者 Huggingface模型 图像生成 •特点: •SupportBabyAGIandAutoGPT•100k+工具使用SFT数据✁方式! 39 •ToolBench •开源,大规模,高质量✁指令调整SFT数据,以促进一般✁工具使用能力 •我们提供了数据集、相应✁训练和评估脚本,以及一个在ToolBench上fine-tuned✁具备强大功能✁模型ToolLLaMA。 •Features •支持单工具和多工具方案 •ToolBench提供✁响应不仅包括最终答案,还包括模型✁思想链过程、工具执行和工具执行结果 •多步骤决策和工具执行 •另一个值得注意✁优势是多样性我们✁API,它是为现实世界 ✁场景而设计✁ •98k实例,312kAPI调用 •ConstructionProcess •所有数据均由OpenAIAPI自动生成并随后过滤,整个数据创建过程易于扩展。 •CreationProcess •我们提供数据集,相应✁训练和评估脚本,以及一个强大✁模型ToolLLaMA •Evaluation •ToolLLaMA匹配ChatGPT在工具使用中✁功能 •ChatGPT自动评估(越高越好) •传统✁语言任务(几乎)得到了很好✁解决 •句法分析,实体识别,情感分析... •我们面临着更具挑战性✁任务! •基础模型可以通过语言在复杂场景中得到利用,其性能可能主要依赖于大规模语言模型✁有效性。 •理论问题依然存在 •实际问题仍然存在 •探索在复杂场景中利用工具学习 https://github.com/thunlp/ToolLearningPapers 谢谢 秦禹嘉 qyj20@mails.tsinghua.edu .cn THUNLP