热门搜索：

多环境下的LLM Agent应用与增强

信息技术2024-10-28刘邦全球人工智能开发与应用大会喜***

AI智能总结

大模型与智能体

1. 大模型与智能体概述

定义：智能体（Agent）是指通过传感器感知环境并借助执行器作用于环境的系统。
框架：智能体系统包括世界模型、感知模块、动作模块等组件。
挑战：
- 如何有效执行动作。
- 如何搜索庞大的动作空间。
- 如何设计和演化工具。

2. 多模态智能体

案例：多模态具身智能体（Multimodal Embodied Agents）。
案例分析：OPEx 项目通过分析 LLM 在具身指令跟随任务中的表现，揭示了多模态感知和具身行动的关键挑战。
VCR任务：
- 目的：解决视觉问答和场景文字识别问题。
- 挑战：模型难以处理图像中的像素级文字提示，需要多模态模型单独处理图像中的文字信息。
- 数据集：VCR-Wiki，包含中英文两种语言，两种难度级别的数据集。

3. 推理密集型智能体

案例：剧本杀（Jubensha）游戏。
方法：ThinkThrice 通过三步法（记忆检索、自我完善、自我验证）来提高推理准确性。
实验结果：
- 收集的信息越多，代理解决问题的能力越强。
- ThinkThrice 显著提升了推理能力。

4. 科学领域智能体

案例：HoneyBee 语言模型。
目的：专门化于材料科学的专业知识学习。
流程：
- 训练工作流：从任务/主题、指令、输入到输出。
- 评估：包括输出的准确性和完整性。
实验结果：
- 使用生成的指令数据提高了模型性能。
- 验证部分进一步改进了数据质量。

总结

本文详细介绍了大模型和智能体的应用，涵盖了多模态智能体、推理密集型智能体以及科学领域的智能体。通过具体案例和实验结果，展示了当前智能体面临的挑战和解决方案。未来的研究方向包括提高多模态感知能力和推理能力，特别是在复杂任务和专业领域的应用。

多环境下的LLMAgents应⽤与增强演讲⼈：刘邦蒙特利尔⼤学&Mila研究所助理教授 CanadaCIFARAIChair 1 2 CONT⽬E录NTS 01 ⼤模型与智能体 02 多模具身智能体 03 推理密集智能体 04 科学领域智能体 LLMandAgents 它的定义，框架，与挑战 3 Givemethedefinitionof‘Agent’. 4 defiGivemethenitionof‘Agent’. “Anagentisanythingthatcanbeviewedasperceivingitsenvironmentthroughsensorsandactinguponthatenvironmentthroughactuators. ——StuartJ.RussellandPeterNorvig” 5 defiGivemethenitionof‘Agent’. “AnagentisasystemthatcanhelpcompLetetasksintelligently.” 6 Buthow? Weneedtools Buthow? Toolsassubagentsofanagentsystem Weneedtools Buthow? WeneedLLM Toolsassubagentsofanagentsystem Weneedtools generation (NLG) Env LLM language understanding (NLU) machine Perception language Action Tools Sensor Percept Input Cost UserInputs Staticdata World WorldModel Query Backbone Feedback Dynamicenvironmentstate Memory Act Output Actor Input Error Read Write Think Response Predict Error Read Write GPT-3.5 MobileALOHA Voyager ThinkThrice GPT-4V DataInterpreter GenerativeAgents OPEx M3A WithAndroidWorld AIScientist AlphaGeometry Cradle DeepMindSIMA AndroidControlAgent Agents的分类Cognition GenerativeAgents GPT-3.5 AlphaGeometry GPT-4V Voyager DataInterpreter ThinkThrice DeepMindSIMA Cradle Perception Action M3A WithAndroidWorld OPEx MobileALOHA 13 Sensor PerceptInput ❖Howtorepresentandalignmultimodalinputsignals? ❖Howtoachievereal-timeperceptionindynamicsettings? ❖Howcanagentshandleincompleteornoisydatarobustly? UserInputs World Staticdata Response WorldModel Cost Input Error Predict Error Query Read Feedback Backbone ❖Howtoperformcomplextasks? Think ❖Howtodealwithunseentasks? ❖Howtolearnandutilizedomainknowledge? Write Read Write Dynamicenvironmentstate Memory Act Actor Output ❖Howtoeffectivelyexecuteactions? ❖Howtosearchhugeactionspace? ❖Howtodesignandevolvetools? 14 近期成果 MultimodalEmbodiedAgents 我们离具身智能助⼿还有多远？ 17 Why? https://ai2thor.allenai.org/demo/ WeNeedtoStrengthenMultimodalPerception ⽂档理解（DocUnderstanding） ❖⽬前⼤多数⽂档LLM评测中，答案仅来⾃于图中的⽂字部分视觉问答（VQA） ❖可能不需要图像信息即可回答场景⽂字识别（SceneTextRecognition） ❖可能直接通过OCR识别⽂字图象，不需要⾃然语⾔知识 Reference:Zhangetal.“VCR:VisualCaptionRestoration”,arXivpreprint(2024). 图像中被覆盖的⽂本是什么？请在不输出解释的情况下还原被覆盖的⽂本。 ❖答案取决于图像+⽂字图像+像素级⽂字提示+⾃然语⾔问题 ❖优势：需要进⾏图像/⽂字图像/⾃然语⾔三者的对⻬ Reference:Zhangetal.“VCR:VisualCaptionRestoration”,arXivpreprint(2024). Fyall,AmberM,etal.“DynamicRepresentationofPartiallyOccludedObjectsinPrimatePrefrontalandVisualCortex.”ELife.2017. Li,Bao,etal.“BrainFunctionalRepresentationofHighlyOccludedObjectRecognition.”BrainSciences13(10).2023. ❖⼈类很擅⻓识别被部分遮挡的物体 ❖⼈类在识别时会使⽤不同的脑区 ❖在识别被遮挡的事物涉及⼤脑不同区域之间的复杂协同，这些区域与视觉和感知控制相关 ❖设计初衷：解决视觉问答和场景⽂字识别中的问题 ❖不能避免多模态识别：图像信息对于正确回答是必需的 ❖不能通过OCR解决：被遮挡的⽂字仅保留像素级提示，⽆法通过OCR识别 ❖具有唯⼀答案：与MaskedLM不同，VCR中被遮挡的⽂字被露出的像素级提示唯⼀确定，可使⽤准确度（ACC）作为评测指标 ❖设计理念：将图像中的⽂字作为第三种模态对待 ❖图像中的⽂字具有和字符串类型⾃然语⾔/常规图像不同的特征，在多模态模型中应该单独加以考虑 ❖设计实现：对于图像/⽂字来源及难度的⾼度灵活性 ❖遮挡⽂字选择的灵活性：可选择遮挡特定token/句⼦/n-gram/POSTag ❖遮挡区域选择的灵活性：可调节遮挡⽂字区域的空⽩框⾼度来控制任务难度 ❖图像构建⽅式的灵活性：可选择在⽂字部分基础上有/⽆配套图像探究额外图像对模型影响 ❖我们基于维基百科构建了适⽤于VCR任务的数据集VCR-Wiki ❖包含两种语⾔：简体中⽂和英⽂ ❖包含两种难度：简单（OCR⽆法完成的难度）和困难（遮挡⽂字上下仅各保留1-2个像素） ❖包含训练集+验证集+测试集，其中训练集可以作为多模态⼤模型SFT数据 1.数据清洗：基于wit-base数据集，去除不含zh/en的条⽬及部分敏感条⽬ 2.⽂本处理：基于给定字体和字号，保留前5⾏维基百科介绍，通过spaCy选取其中不包含标点/数字/⼈名地名等的5-gram作为遮挡⽬标；筛去所有不包含任何遮挡⽬标的条⽬ 3.构建⽂字图像（TEI）：根据难度对遮挡⽬标进⾏不同程度遮挡 4.拼接：将视觉图像（VI）与⽂字图像（TEI）进⾏拼接，缩放⾄300px宽；筛去所有超过900px⾼的条⽬ ❖在VCR-Wiki上，对应语⾔的熟练使⽤者能够在简单和困难难度上取得超过90%的准确率，⽽模型距离⼈类⽔平还有极⼤差距 ❖⽬前开源模型整体弱于闭源模型，但存在有开源模型（如CogVLM2）能够以19B参数量⼤幅超越相似⼤⼩的开源模型及部分闭源模型 ❖VCR任务虽然看似简单，但其挑战涉及模型分辨率压缩（对像素级⽂本提示的保留），模型推理（利⽤上下⽂推断被覆盖⽂本）和常识利⽤（维基百科内容应已被各模型训练集覆盖，但效果仍然不好），在该评测上的提升还有很⻓的路要⾛ ❖我们在持续更新新模型在VCR-Wiki上的效果，希望能将VCR构建成未来的视觉-语⾔模型（VLM）常⽤评测之⼀ arXiv VCRVisualCaptionRestorationArxiv-2406.06462 GitHubhttps://github.com/tianyu-z/VCR HuggingFace VCR:VisualCaptionRestoration avcr-orgCollection(huggingface.co) 机器之⼼报道 Bengio团队提出多模态新基准，直指Claude3.5和GPT-4o弱点使⽤EvolvingLMMs-Lab/lmms-eval进⾏测试 EvolvingLMMs-Lab/lmms-eval:Accelerating thedevelopmentoflargemultimodalmodels(LMMs)withlmms-eval(github.com) 使⽤open-compass/VLMEvalKit进⾏测试 open-compass/VLMEvalKit:Open-source evaluationtoolkitoflargevision-languagemodels(LVLMs),supportGPT-4v,Gemini,QwenVLPlus,50+HFmodels,20+benchmarks(github.com) OPEx ⽬前LLM-centeredEmbodiedAgents瓶颈在于多模态Perception的表征与具身Action的执⾏ OPEx VCR VCR任务有助于提⾼多模态的表示学习，可成为视觉-语⾔模型（VLM）常⽤评测任务之⼀ Reasoning-IntensiveAgents “体⼒”有待提⾼，“脑⼒”⽔平如何？ 39 Diverse Complexity! Reference:Wuetal."DecipheringDigitalDetectives:UnderstandingLLMBehaviorsandCapabilitiesinMulti-AgentMysteryGames"ACLFindings(2024). Pleaseintroduceyourrolefirst,andthendescribewhatyouknowaboutMrs.Yang,animportantpersoninthecase,and… ConsultantWenqi,did younoticetheIamWenqiConsultant.emergencyontheshipAsMrs.Yang's onthenightofthepersonalconsultant,I incident?Whatwas….Ontheluxury yourreaction?cruiseshipWordofthe Sea,sheoften… Hello,ConsultantHello,Consultant Wenqi.AccordingtoWenqi.Fromyour youraccount,youdescription,itseems mainlyspenttimeonthatyouhaveavery theshipwithMrs…closerelationship… (b)Exampleofgroupdiscussion Selectscript Assi

点击免费查看完整报告