工具学习 秦禹嘉THUNLP 背景 THUNLP •工具是人类能力的延伸,旨在提高生产力、效率和解决问题的能力 •纵观历史,人类一直是发明和操纵工具的主要媒介 •问题:人工智能在工具使用方面能像人类一样有能力吗? •基础模型的答案是肯定的 •较强的语义理解 •广泛的世界知识 •强大的推理和计划能力... •工具学习[1]:基础模型可以遵循人类指令和操纵工具来解决任务 •工具增强学习 •具有来自工具的执行结果的扩充基础模型 •工具被视为有助于产生高质量产出的补充资源 •面向工具的学习 •利用模型来管理工具并代替人类做出顺序决策 •利用基础模型的广阔世界知识和推理能力进行复杂的推理和规划 框架 THUNLP 环境提供了工具运行的平台 感知者汇总反馈给控制器 工具集:具有不同功能的工具的集合 控制器提供可行的计划来满足用户请求 •理解指令的基本目的 •学习从指令空间到模型认知空间的映射 •指令调整 •用不同的指令包装任务 •监督微调 •非凡的泛化能力 [1]精细语言模型是零分学习者 [2]多任务提示训练可实现零镜头任务概括 [3]OPT-IML:通过镜头扩展语言模型指令元学习泛化9 userid:444287,docid:155342,日期:2024-05-19, •扩大模型大小和指令调整数据集的多样性 •泛化能力的增强 •挑战 •理解模糊指令:用户查询中的模糊和歧义 •理论上的无限指令空间:无限表达和个性化指令 •通过提示激发工具理解 •零拍提示: •描述API功能,其输入/输出格式,可能的参数等。 •允许模型了解每个API可以处理的任务 •少量提示: •向模型提供具体的工具使用演示 •通过从这些演示中模仿人类行为,模型可以学习如何利用这些工具 •通过提示激发工具理解 •内省推理 •在不与环境交互的情况下生成静态计划 •外向推理 •生成考虑环境变化和反馈的动态计划 •内省推理 •如果提示适当,PLM可以有效地将高级任务分解为中级计划,而无需任何进一步的培训 作为零镜头策划者的语言模型:为具体化提取可操作的知识代理商14 •外向推理 •挑战:基础模型没有体现或扎根于物理世界 •解决方案:约束模型提出既可行又符合上下文的自然语言动作 尽我所能,不要像我说的那样! Ahn,Michael,etal."DoasIcan,notasIsay:Groundinglanguageinrobotaffiliences."arXivpreprintarXiv:2204.01691(2022).15 •外向推理 •内心独白[1]:将各种反馈来源的信息注入模型规划 [1]黄文龙等。“内心独白:通过语言模型进行规划的具身推理。”arXiv预印本arXiv:2207.05608(2022).16 •多步骤多工具方案 •人类不会坚持一个场景和一个工具 •了解不同工具之间的相互作用 •模型不仅要了解单个工具,还要了解它们的组合用法并对工具进行逻辑排序 •从顺序执行到并行执行 •工具不必顺序执行,并行执行导致叠加效果 •从单代理问题解决到多代理协作 •复杂的任务通常需要多个代理之间的协作,每个代理都有其独特的专业知识 •从演示中学习:通常涉及(人类)注释 •从反馈中学习:通常涉及强化学习 •监督学习 •克隆人类行为以使用搜索引擎 •监督微调+强化学习 •只需要6,000个注释数据 Nakano,Reiichiro,etal."WebGPT:Browser-assistedquestion-answeringwithhumanfeedback."arXivpreprintarXiv:2112.09332(2021).19 •动机 •WebGPT不是公开的,其内部运作仍然不透明 •我们的努力(WebCPM) •开源交互式网络搜索界面 •第一个涉及交互式网络搜索的公共QA数据集,也是第一个中国LFQA数据集 •框架和模型实现 •接口(搜索模式)和预定义的操作 •我们的框架由两个模型组成: •1.搜索模型,包括: •行动预测模块 •搜索查询生成模块 •支持事实提取模块 •2.信息综合模型 对于T个步骤的动作序列,搜索模型执行动作以收集支持事实,这些支持事实被发送到合成模型以用于答案生成。 整体管道评价(基于人类偏好)模型生成的答案v.s.人类注释 支持事实的三个来源被发送到综合模型 (1)管道收集,(2)人工收集,(3)非交互式搜索(TF-IDF) •学习进行网上购物 •自监督工具学习 •预定义的工具API •鼓励模型调用和执行工具API •设计自监督损失,看看工具执行是否可以帮助语言建模 如果工具执行减少了LM损失,请将实例保存为训练数据 •从工具用户到工具创建者 •人类是从石器时代到21世纪创造和使用工具的主要媒介 •大多数工具是为人类创造的,而不是AI •为模型制作的工具 •模块化:将工具组成较小的单元 •新的输入和输出格式:更可计算且适用于AI •现有工程的限制 •大多数现有工作往往集中在有限数量的工具上 •用于确定工具最佳利用率的模型所采用的推理过程本质上是复杂的 •当前管道在检索执行结果后缺乏错误处理机制 •我们不是让LLM充当工具的用户,而是让他们成为创造者[1] •四个程序 •创建 •Decision •Execution •整改 •实验 •数据:数学、TabMWP •对PoT和纯CoT的重大改进 应用程序 THUNLP •OpenAI官方工具库 •为ChatGPT提供更广泛的应用程序 •通过简单地提供带有描述的API,ChatGPT能够调用应用程序并完成更复杂的任务 •BMTools •一个开源存储库,可扩展语言模型以使用工具,并作为社区构建和共享工具的平台 •特点: •用户可以通过编写python函数并使用外部ChatGPT-Plugins轻松构建新插件 •用户可以托管其本地模型(例如LLaMA、CPM)以使用工具 •特点: •支持30+工具工具,欢迎投稿! 数据库天气APIPPT 谷歌学者 Huggingface模型 图像生成 •特点: •支持BabyAGI和AutoGPT •100k+工具-使用SFT数据的方式! 39 •ToolBench •一种开源,大规模,高质量的指令调整SFT数据,以促进一般的工具使用能力 •我们提供数据集,相应的训练和评估脚本,以及在ToolBench上微调的强大模型ToolLLaMA •功能 •支持单工具和多工具方案 •ToolBench提供的响应不仅包括最终答案,而且还包含模型的思想链过程,工具执行和工具执行结果 •多步骤决策和工具执行 •另一个值得注意的优势是我们的API的多样性,它是为现实世界的场景而设计的 •98k实例,312kAPI调用 •施工工艺 •所有数据都由OpenAIAPI自动生成,然后进行过滤,整个数据创建过程易于扩展 •创建过程 •我们提供数据集,相应的训练和评估脚本,以及一个强大的模型ToolLLaMA •评价 •ToolLLaMA与ChatGPT在工具使用方面的能力相匹配 •ChatGPT自动评估(越高越好) Summary •传统的语言任务(几乎)得到了很好的解决 •句法分析、实体识别、情感分析... •我们面临着更具挑战性的任务! •基础模型可以通过使用语言在复杂的场景中利用,性能可能在很大程度上依赖于LLM的有效性 •理论问题依然存在 •实际问题仍然存在 •探索在复杂场景中利用工具学习 工具学习论文列表 https://github.com/thunlp/ToolLearningPapers 谢谢 秦禹嘉THUNLP ToolLearning 秦禹嘉qyj20@mails.tsinghua.edu.cnTHUNLP Background THUNLP •Toolsareextensionsofhumancapabilitiesdesignedtoenhanceproductivity,efficiency,andproblem-solving •Throughouthistory,humanshavebeentheprimaryagentsintheinventionandmanipulationoftools •Question:canartificialintelligencebeascapableashumansintooluse? •Theanswerisyeswithfoundationmodels •Strongsemanticunderstanding •Extensiveworldknowledge •Powerfulreasoningandplanningcapabilities… •ToolLearning[1]:foundationmodelscanfollowhumaninstructionsandmanipulatetoolsfortasksolving •Tool-augmentedlearning •Augmentfoundationmodelswiththeexecutionresultsfromtools •Toolsareviewedascomplementaryresourcesthataidinthegenerationofhigh-qualityoutputs •Tool-orientedlearning •Utilizemodelstogoverntoolsandmakesequentialdecisionsinplaceofhumans •Exploitingfoundationmodels'vastworldknowledgeandreasoningabilityforcomplexreasoningandplanning Framework THUNLP Environmentprovidestheplatformwheretoolsoperate Theperceiversummarizesfeedbacktothecontroller ToolSet:acollectionoftoolswithdifferentfunctionalities Controllerprovidesfeasibleplanstofulfilluserrequests •Comprehendingtheunderlyingpurposeofaninstruction •Learningamappingfromtheinstructionspacetothemodel’scognitionspace •InstructionTuning •Wraptaskswithdiverseinstructions •Supervisedfine-tuning •Extraordinarygeneralizationcapability [1]FinetunedLanguageModelsAreZero-ShotLearners [2]MultitaskPromptedTrainingEnablesZero-ShotTaskGeneralization [3]OPT-IML:ScalingLanguageModelInstructionMetaLearningthroughtheLensofGeneralization9 userid:444287,docid:155342,date:2024-05-19,sgpjbg.com •Scalingupthemodelsizeandthediversityofinstruction-tuningdatasets •Enhancementofgeneralizationcapability •Challenges •UnderstandingVagueInstructions:vaguenessandambiguityintheuserquery •TheoreticallyInfiniteInstructionSpace:infiniteexpressionandper