您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[全球人工智能开发与应用大会]:多环境下的LLM Agent应用与增强 - 发现报告
当前位置:首页/行业研究/报告详情/

多环境下的LLM Agent应用与增强

多环境下的LLM Agent应用与增强

多环境下的LLMAgents应⽤与增强 演讲⼈:刘邦 蒙特利尔⼤学&Mila研究所助理教授 CanadaCIFARAIChair 1 2 CONT⽬E录NTS 01 ⼤模型与智能体 02 多模具身智能体 03 推理密集智能体 04 科学领域智能体 LLMandAgents 它的定义,框架,与挑战 3 Givemethedefinitionof‘Agent’. 4 defiGivemethenitionof‘Agent’. “Anagentisanythingthatcanbeviewedasperceivingitsenvironmentthroughsensorsandactinguponthatenvironmentthroughactuators. ——StuartJ.RussellandPeterNorvig” 5 defiGivemethenitionof‘Agent’. “AnagentisasystemthatcanhelpcompLetetasksintelligently.” 6 Buthow? Weneedtools Buthow? Toolsassubagentsofanagentsystem Weneedtools Buthow? WeneedLLM Toolsassubagentsofanagentsystem Weneedtools generation (NLG) Env LLM language understanding (NLU) machine Perception language Action Tools Sensor Percept Input Cost UserInputs Staticdata World WorldModel Query Backbone Feedback Dynamicenvironmentstate Memory Act Output Actor Input Error Read Write Think Response Predict Error Read Write GPT-3.5 MobileALOHA Voyager ThinkThrice GPT-4V DataInterpreter GenerativeAgents OPEx M3A WithAndroidWorld AIScientist AlphaGeometry Cradle DeepMindSIMA AndroidControlAgent Agents的分类Cognition GenerativeAgents GPT-3.5 AlphaGeometry GPT-4V Voyager DataInterpreter ThinkThrice DeepMindSIMA Cradle Perception Action M3A WithAndroidWorld OPEx MobileALOHA 13 Sensor PerceptInput ❖Howtorepresentandalignmultimodalinputsignals? ❖Howtoachievereal-timeperceptionindynamicsettings? ❖Howcanagentshandleincompleteornoisydatarobustly? UserInputs World Staticdata Response WorldModel Cost Input Error Predict Error Query Read Feedback Backbone ❖Howtoperformcomplextasks? Think ❖Howtodealwithunseentasks? ❖Howtolearnandutilizedomainknowledge? Write Read Write Dynamicenvironmentstate Memory Act Actor Output ❖Howtoeffectivelyexecuteactions? ❖Howtosearchhugeactionspace? ❖Howtodesignandevolvetools? 14 近期成果 MultimodalEmbodiedAgents 我们离具身智能助⼿还有多远? 17 Why? https://ai2thor.allenai.org/demo/ WeNeedtoStrengthenMultimodalPerception ⽂档理解(DocUnderstanding) ❖⽬前⼤多数⽂档LLM评测中,答案仅来⾃于图中的⽂字部分 视觉问答 (VQA) ❖可能不需要图像信息即可回答 场景⽂字识别(SceneTextRecognition) ❖可能直接通过OCR识别⽂字图象,不需要⾃然语⾔知识 Reference:Zhangetal.“VCR:VisualCaptionRestoration”,arXivpreprint(2024). 图像中被覆盖的⽂本是什么?请在不输出解释的情况下还原被覆盖的⽂本。 ❖答案取决于图像+⽂字图像+像素级⽂字提示+⾃然语⾔问题 ❖优势:需要进⾏图像/⽂字图像/⾃然语 ⾔三者的对⻬ Reference:Zhangetal.“VCR:VisualCaptionRestoration”,arXivpreprint(2024). Fyall,AmberM,etal.“DynamicRepresentationofPartiallyOccludedObjectsinPrimatePrefrontalandVisualCortex.”ELife.2017. Li,Bao,etal.“BrainFunctionalRepresentationofHighlyOccludedObjectRecognition.”BrainSciences13(10).2023. ❖⼈类很擅⻓识别被部分遮挡的物体 ❖⼈类在识别时会使⽤不同的脑区 ❖在识别被遮挡的事物涉及⼤脑不同区域之间的复杂协同,这些区域与视觉和感知控制相关 ❖设计初衷:解决视觉问答和场景⽂字识别中的问题 ❖不能避免多模态识别:图像信息对于正确回答是必需的 ❖不能通过OCR解决:被遮挡的⽂字仅保留像素级提示,⽆法通过OCR识别 ❖具有唯⼀答案:与MaskedLM不同,VCR中被遮挡的⽂字被露出的像素级提示唯⼀确定,可使⽤准确度 (ACC)作为评测指标 ❖设计理念:将图像中的⽂字作为第三种模态对待 ❖图像中的⽂字具有和字符串类型⾃然语⾔/常规图像不同的特征,在多模态模型中应该单独加以考虑 ❖设计实现:对于图像/⽂字来源及难度的⾼度灵活性 ❖遮挡⽂字选择的灵活性:可选择遮挡特定token/句⼦/n-gram/POSTag ❖遮挡区域选择的灵活性:可调节遮挡⽂字区域的空⽩框⾼度来控制任务难度 ❖图像构建⽅式的灵活性:可选择在⽂字部分基础上有/⽆配套图像探究额外图像对模型影响 ❖我们基于维基百科构建了适⽤于VCR任务的数据集VCR-Wiki ❖包含两种语⾔:简体中⽂和英⽂ ❖包含两种难度:简单(OCR⽆法完成的难度)和困难(遮挡⽂字上下仅各保留1-2个像素) ❖包含训练集+验证集+测试集,其中训练集可以作为多模态⼤模型SFT数据 1.数据清洗:基于wit-base数据集,去除不含zh/en的条⽬及部分敏感条⽬ 2.⽂本处理:基于给定字体和字号,保留前5⾏维基百科介绍,通过spaCy选取其中不包含标点/数字/⼈名地名等的5-gram作为遮挡⽬标;筛去所有不包含任何遮挡⽬标的条⽬ 3.构建⽂字图像(TEI):根据难度对遮挡⽬标进⾏不同程度遮挡 4.拼接:将视觉图像(VI)与⽂字图像(TEI)进⾏拼接,缩放⾄300px宽;筛去所有超过900px⾼的条⽬ ❖在VCR-Wiki上,对应语⾔的熟练使⽤者能够在简单和困难难度上取得超过90%的准确率,⽽模型距离 ⼈类⽔平还有极⼤差距 ❖⽬前开源模型整体弱于闭源模型,但存在有开源模型(如CogVLM2)能够以19B参数量⼤幅超越相似 ⼤⼩的开源模型及部分闭源模型 ❖VCR任务虽然看似简单,但其挑战涉及模型分辨率压缩(对像素级⽂本提示的保留),模型推理(利⽤上下⽂推断被覆盖⽂本)和常识利⽤(维基百科内容应已被各模型训练集覆盖,但效果仍然不好),在该评测上的提升还有很⻓的路要⾛ ❖我们在持续更新新模型在VCR-Wiki上的效果,希望能将VCR构建成未来的视觉-语⾔模型(VLM)常 ⽤评测之⼀ arXiv VCRVisualCaptionRestorationArxiv-2406.06462 GitHubhttps://github.com/tianyu-z/VCR HuggingFace VCR:VisualCaptionRestoration avcr-orgCollection(huggingface.co) 机器之⼼报道 Bengio团队提出多模态新基准,直指Claude3.5和GPT-4o弱点 使⽤EvolvingLMMs-Lab/lmms-eval进⾏测试 EvolvingLMMs-Lab/lmms-eval:Accelerating thedevelopmentoflargemultimodalmodels(LMMs)withlmms-eval(github.com) 使⽤open-compass/VLMEvalKit进⾏测试 open-compass/VLMEvalKit:Open-source evaluationtoolkitoflargevision-languagemodels(LVLMs),supportGPT-4v,Gemini,QwenVLPlus,50+HFmodels,20+benchmarks(github.com) OPEx ⽬前LLM-centeredEmbodiedAgents瓶颈在于多模态Perception的表征与具身Action的执⾏ OPEx VCR VCR任务有助于提⾼多模态的表示学习,可成为视觉-语 ⾔模型(VLM)常⽤评测任务之⼀ Reasoning-IntensiveAgents “体⼒”有待提⾼,“脑⼒”⽔平如何? 39 Diverse Complexity! Reference:Wuetal."DecipheringDigitalDetectives:UnderstandingLLMBehaviorsandCapabilitiesinMulti-AgentMysteryGames"ACLFindings(2024). Pleaseintroduceyourrolefirst,andthendescribewhatyouknowaboutMrs.Yang,animportantpersoninthecase,and… ConsultantWenqi,did younoticetheIamWenqiConsultant.emergencyontheshipAsMrs.Yang's onthenightofthepersonalconsultant,I incident?Whatwas….Ontheluxury yourreaction?cruiseshipWordofthe Sea,sheoften… Hello,ConsultantHello,Consultant Wenqi.AccordingtoWenqi.Fromyour youraccount,youdescription,itseems mainlyspenttimeonthatyouhaveavery theshipwithMrs…closerelationship… (b)Exampleofgroupdiscussion Selectscript Assi