事项: AI Agent作为自主智能体,在软件开发、智能管理等多领域展现出的强大能力引起广泛关注。近期,AutoGLM作为智谱推出的跨平台AI管家,支持多模态理解和任务自动化,能够自主完成多种日常电子操作,并在初期测试中获得用户高度评价。Claude 3.5实现了模拟人类操作电脑的能力,表现出色的编码与跨应用任务处理能力,在SWE-bench和TAU-bench等测试中广受好评。我们认为,随着AI Agent在多模态融合与平台化应用上的进一步发展,这些AI系统将推动人机交互向智能化、自动化方向迈进,AI应用时代已至。 评论: AI Agent具备自主任务执行与智能循环能力:作为基于大语言模型的自主智能系统,其通过感知、规划、执行的循环流程,能自主完成复杂任务,广泛应用于软件开发、智能管理等领域,形成从信息获取到策略执行再到反馈优化的高效闭环,具备灵活适应能力,有望成为新一代计算平台。 AutoGLM支持自主跨平台任务处理,能够自主完成多种日常电子操作。 AutoGLM能够根据指令完成订酒店、点赞、发消息等多种任务。它支持图文理解和内容生成,具有跨应用操作、多模态理解等特性。测试阶段获得了用户广泛好评,展现出高度自主操作和理解力,标志着人机交互向智能化、自动化的新趋势迈进。 Claude3.5通过‘Computer use’功能实现了模拟人类操作电脑的能力 。 Claude3.5能够自主完成网站设计、表格填充等跨应用任务,在Chrome中表现出高度的自动化能力。Claude 3.5 Sonnet和Haiku在编码和工具使用上也表现出色,特别是在SWE-bench和TAU-bench等测试中展现出强大性能,广泛赢得了GitLab等业内认可。 AI Agent多模态交互的平台化趋势:将从单一语言处理扩展至多模态交互,使其更全面地感知和理解环境,提升智能化水平。未来,AI Agent将实现跨应用、跨设备的无缝体验,并从个人助手扩展至企业级自动化解决方案。随着自主决策的持续优化,AI Agent在复杂任务中的应变能力将进一步增强,逐步渗透至日常生活与工作场景,为用户提供高效便捷的智能服务。 投资建议:近期AI Agent相关应用的持续迭代引发关注,我们坚定看好AI+应用产品力与商业化落地进程。建议关注以下标的:应用侧:1)大模型:科大讯飞、三六零;2)办公:金山办公、福昕软件、合合信息;3)法律:金桥信息、华宇软件、通达海;4)医疗:润达医疗;5)教育:佳发教育、欧玛软件、新开普;6)金融:同花顺、新致软件;7)邮箱:彩讯股份;8)数据端:海天瑞声;9)电商:焦点科技;10)OA:致远互联、泛微网络;11)ERP:用友网络、金蝶国际;算力侧:1)算力基础:海光信息、寒武纪、龙芯中科、景嘉微;2)服务器:中科曙光、神州数码、浪潮信息、紫光股份、中国长城、高新发展、拓维信息。 风险提示:商业化后表现不及预期,用户付费意愿低,行业技术迭代速度较快。 一、AI Agent:改变计算机使用方式的智能助理 AI Agent是一种基于大语言模型的自主化系统,它在软件开发、智能家居管理、社交模拟等领域展现了广阔的前景,并有望成为未来计算平台的新形态。 (一)AI Agent定义:基于大语言模型的自主智能系统 AI Agent是基于大语言模型的智能体,能够自主完成复杂任务。在学术界和工业界中,关于AI Agent的定义存在多种阐述。根据OpenAI的定义,AI Agent是由大语言模型驱动,具备理解、感知、规划、记忆和使用工具能力的系统,能够自动完成复杂任务。AI Agent接收目标后可自动完成并交付结果,无需人为干预,展现出高度智能和灵活性。 (二)AI Agent工作原理:从感知到行动的智能循环流程 AI Agent的工作流程是一个连续的智能循环。它首先通过感知系统获取外部信息,然后由规划系统决策,将任务分解并制定策略。接着,行动系统执行任务,并通过工具系统调用外部资源以提高效率。任务完成后,AI Agent根据反馈调整优化,提升未来的决策和行动能力。这个循环流程使其高效处理信息并不断提高智能与适应性。 图表1 AI Agent智能行为的架构图 二、AutoGlm:代替人类操作手机和网页的AI管家 AutoGLM是一款由智谱AI推出的智能人工助手,具备高度自主操作的能力。它不仅可以理解用户意图,还能自主完成多种任务,从而将人机交互带到新的高度。 (一)核心亮点:自主完成跨平台的多种操作 AutoGLM具备自主操作、多模态理解和跨应用操作的特性,能够高效完成多种任务。首先,它可根据指令自主完成订酒店、取消点赞、发送消息等任务,简化用户操作。其次,支持多模态理解,能够处理图文信息并自动生成内容,如文章和评论。此外,AutoGLM具备跨应用操作的潜力,未来有望实现无缝切换,为用户带来流畅的操作体验。 图表2 AutoGLM的自适应学习:在迭代过程中稳定地提高自身性能 (二)广泛的应用前景:从智能预订到社交互动与内容创作 AutoGLM具有广泛的应用前景,能提供全方位的服务支持。它可帮助用户完成酒店预订,仅需用户提出需求,即可自动搜索并预订。社交互动上,它能在微信等平台自动点赞、评论,轻松维护社交圈。内容创作方面,它支持旅行攻略、评论等自动生成,且可处理点餐、打车、购物等日常任务。此外,AutoGLM可协助旅行规划,提供行程建议,甚至在旅行结束后自动发布照片至社交平台。 (三)初期测试表现:高度智能带来的震撼体验与广泛好评 AutoGLM在初期测试中表现出出色的体验,获得了内测用户的广泛好评。尽管仍处于测试阶段,用户反馈显示其具备高度的自主操作和理解力,不仅能精准理解用户指令,还能如同真实助手般完成操作,显著降低用户参与需求。其强大的自动化功能帮助用户节省大量时间,标志着AI从“能说”向“能干”转变,预示着人机交互的新趋势。 图表3 AutoGLM:未来的手机智能生活管家 三、Claude 3.5:突破性的自主操作和工具编码能力 Claude 3.5是Anthropic推出的新一代AI模型,包括升级版本Claude 3.5 Sonnet和Claude 3.5 Haiku。本次升级带来了突破性创新,尤其在自主操作计算机、编码能力和跨应用任务处理上表现突出。 (一)Claude 3.5 Sonnet:具备“像人一样使用电脑”的能力 Claude 3.5 Sonnet新增“Computer use”功能,可模拟人类操作电脑。通过API指令,Claude能观察屏幕、移动光标、点击按钮和输入文本,从而执行网站设计、表格填充等任务,显著提升AI的自动化能力。在测试中,Claude在Chrome浏览器中可自主创建网站并修改代码,表现出高度自主性。不过,由于该功能仍在测试,滚动、拖动等操作仍不稳定,Anthropic建议开发者从低风险任务入手。 除此之外,Claude 3.5 Sonnet也在编码和工具使用方面表现优异。在SWE-bench Verified测试中,其表现提升至49.0%,超越了所有公开可用的模型。在自主工具使用任务(TAU-bench)中,Claude的表现显著增强,特别是在零售和航空领域展现出更高的准确性。GitLab、Cognition和The Browser Company均高度评价其编码能力、推理能力以及多步骤开发任务中的表现。 (二)Claude 3.5 Haiku:经济与高性能的结合 Claude 3.5 Haiku是Anthropic最新推出的高性价比模型。它的性能优于前代,并在多项基准测试中超越了Claude 3 Opus和其他同类模型。它在SWE-bench Verified测试中得分40.6%,超过了原版Claude 3.5 Sonnet和其他高端模型,具备低延迟、强指令跟随能力和更高的工具使用精度。Claude 3.5 Haiku将于2024年10月末通过API等渠道上线,主要面向用户产品的子任务代理和个性化体验需求。 图表4 Claude 3.5对比行业同类模型的惊人性能 四、AI Agent未来发展:多模态融合与平台化应用 AI Agent的发展将带来多模态融合和平台化应用的突破。预计AI Agent将从单一语言处理扩展至多模态交互,使其能够更全面地感知和理解环境,提升智能化水平。同时,AI Agent有望成为新一代计算平台,实现跨应用和跨设备的无缝体验,应用场景将从个人助手拓展至企业级自动化解决方案。 在自主决策和工具使用能力上,AI Agent正在不断优化,未来应用前景广阔。AI Agent的发展将进一步提升其在任务执行中的准确性和灵活性,使其能够在处理复杂任务时展现出更强的自主性和应变能力。随着安全性和标准化的逐步增强,AI Agent的应用将逐渐向日常生活和工作场景渗透,为用户提供更加便捷、高效的智能服务。无论是在家庭管理、商务助手,还是在企业自动化流程中,AI Agent都有望成为可靠的智能助手,成为AI应用实现C端爆发的主要方向。 图表5终端智能化的分级定义 五、投资建议 近期AI Agent相关应用的持续迭代引发关注,我们坚定看好AI+应用产品力与商业化落地进程。建议关注以下标的:应用侧:1)大模型:科大讯飞、三六零;2)办公:金山办公、福昕软件、合合信息;3)法律:金桥信息、华宇软件、通达海;4)医疗:润达医疗;5)教育:佳发教育、欧玛软件、新开普;6)金融:同花顺、新致软件;7)邮箱:彩讯股份;8)数据端:海天瑞声;9)电商:焦点科技;10)OA:致远互联、泛微网络; 11)ERP:用友网络、金蝶国际;算力侧:1)算力基础:海光信息、寒武纪、龙芯中科、景嘉微;2)服务器:中科曙光、神州数码、浪潮信息、紫光股份、中国长城、高新发展、拓维信息。 六、风险提示 商业化后表现不及预期,用户付费意愿低,行业技术迭代速度较快。