计算机 智能助理潜力从苹果开始扩散 智谱推出AutoGLM,智能助理迎来PhoneUSE时刻。10月26日,智谱技术团队推出智能体AutoGLM,只需接收简单的文字/语音指令,就可 以模拟人类操作手机。安卓端目前可操作的APP包括:微信、淘宝、美团、大众点评、小红书、高德地图、12306、携程。具体使用时,在任务执行 证券研究报告|行业点评 2024年11月01日 增持(维持) 行业走势 过程中如果出现了多个符合要求的搜索结果,或者需要用户进一步进行选计算机沪深300 择,AutoGLM会主动询问用户的意见;任务执行完后,用户可以通过左右拖动悬浮球进行反馈;用户还可以创建自己的常用指令。将来AutoGLM的能力不止于此,理论上,通过对GUI的深刻理解,AutoGLM可以完成人类在可视化电子设备上能做的任何事。可以真正做到在日常生活、工作中辅助人类。 Agent为产业重要方向,智谱技术水平领先。1)10月22日Anthropic宣布推出升级版Claude3.5Sonnet,开创性推出ComputerUSE功能。开发 10% 0% -10% -20% -30% -40% 2023-102024-022024-062024-09 人员可以指导Claude像人们一样使用计算机。AutoGLM也有可以执行 Web端操作的浏览器助手智谱清言插件。OpenAI、谷歌也均在布局Agent技术。我们认为,业界顶尖公司纷纷布局Agent,明确了产业方向。智谱在Claude推出“ComputerUse”后几天内就推出了“PhoneUse”,验证了我国大模型公司在技术能力上处于世界前沿水平。2)在技术上,AutoGLM基于智谱自研的“基础智能体解耦合中间界面”和“自进化在线课程强化学习框架”,大模型作为智能体时动作执行不够精确和任务规划不够灵活的两个关键挑战,相对于电脑,目前手机陪伴大部分用户的时间更长,如果说“ComputerUse”开启了人机交互的新范式,那么“PhoneUse”则更进一步,解锁更多应用的可能性,让AI真正惠及每一个人。 智能助理未来展望:终端厂商、推理侧算力有望高度受益。我们认为长期来看,主流手机厂商都大概率会通过自研或与大模型厂商合作推出自己的Agent应用。AutoGLM需要手机操作系统给予无障碍权限、悬浮窗权限、 麦克风权限以及录屏权限。终端硬件厂商把握流量入口,在未来AI终端的生态中相对于APP厂商或将有更高话语权。除手机外,耳机等其他终端智能助理也进展不断,如字节跳动豆包发布AI智能体耳机OlaFriend。我们认为受益于端侧AIAgent的发展,手机、耳机、AR眼镜等终端厂商的产品需求以及价值量均有较大增长机会。同时随着各类AIAgent的广泛应用,推理侧算力需求有望大幅提升。未来随着终端算力的增强以及模型的不断优化,AIAgent模型有望在端侧广泛部署。端侧模型对于终端硬件性能的需求有望促进终端的更新换代。 建议关注: 潜力硬件:漫步者、传音控股、中科创达; 智谱合作公司:豆神教育、电广传媒;果链:立讯精密、东山精密、鹏鼎控股; 算力:寒武纪、中科曙光、海光信息、云赛智联、软通动力、中际旭创、新易盛、浪潮信息、工业富联、神州数码、协创数据、弘信电子、朗科科技、云天励飞、高新发展等。 风险提示:AI技术迭代不及预期风险;经济下行超预期风险;行业竞争加 剧风险。 作者 分析师刘高畅 执业证书编号:S0680518090001邮箱:liugaochang@gszq.com 相关研究 1、《计算机:投资修复再思考》2024-09-29 2、《计算机:资本市场IT复盘与大机遇》2024-09- 29 3、《计算机:复盘历次计算机板块底部特征》2024- 09-25 请仔细阅读本报告末页声明 内容目录 智谱推出AutoGLM,智能助理迎来PhoneUSE时刻3 Agent为产业重要方向,智谱技术水平领先7 智能助理未来展望:终端厂商、推理侧算力有望高度受益16 建议关注20 图表目录 图表1:AutoGLM部分案例展示3 图表2:AutoGLM任务执行中交互4 图表3:AutoGLM任务完成后接受反馈5 图表4:AutoGLM添加快捷指令6 图表5:ClaudeComputerUse功能,帮助用户填写表单7 图表6:智谱清言Chrome插件部分功能8 图表7:o1在具有挑战性的推理基准上大大优于GPT-4o。实线表示pass@1准确率,阴影区域表示64个样本的多数投票(共识)表现。9 图表8:OpenAICEO发文称“在目标3上表现出色”10 图表9:OpenAI正在招聘multiagent团队成员11 图表10:谷歌Deepmind正在招聘multiagent团队成员12 图表11:基础智能体解耦合中间界面方案示例13 图表12:在AndroidLab评测基准上,AutoGLM就显著超越了GPT-4o和Claude-3.5-Sonnet14 图表13:在简单任务的人工评测中,AutoGLM的成功率15 图表14:MagicOS9.0部分能力16 图表15:AutoGLM需要获取设备权限17 图表16:借助AppleIntelligence,Siri可以在应用程序中和跨应用程序执行数百个新操作18 图表17:OlaFriend智能体耳机宣传图19 智谱推出AutoGLM,智能助理迎来PhoneUSE时刻 10月26日,智谱技术团队推出GLM第一个产品化的智能AutoGLM,基于GLM技术团队在语言模型、多模态模型和工具使用方面的努力和研究成果,AutoGLM只需接收简单的文字/语音指令,就可以模拟人类操作手机。目前用户可以在Chrome或Edge安装智谱清言插件来体验AutoGLM-Web。在手机端,AutoGLM首批开放给部分清言用户,暂时仅支持安卓系统。 图表1:AutoGLM部分案例展示 资料来源:AutoGLMGithub项目,国盛证券研究所 在安卓端,测试版AutoGLM能力范围目前限于操作一部分特定APP,出于内测安全性的考虑,现阶段以下列表以外的APP/任务场景将会被直接拒绝,无法尝试执行,目前可操作的APP如下: 微信:发消息(文字/位置等等),公众号文章总结,朋友圈点赞/评论,打电话等;淘宝:商品选购,店铺查找,评价总结/撰写,订单/购物车操作等美团:点外卖相关;大众点评:打卡,写好评,查评价/榜单,查店铺等小红书:点赞/评论笔记,关注指定用户,写总结等; 高德地图:导航,路线规划,查询周边等; 12306:订车票,订机票,查车次等;携程:订酒店等。 在任务执行过程中如果出现了多个符合要求的搜索结果,或者需要用户进一步进行选择,AutoGLM会主动询问用户的意见。 图表2:AutoGLM任务执行中交互 资料来源:AutoGLM用户手册,国盛证券研究所 任务执行完后,AutoGLM会反馈成功/失败的状态,并且通过文字信息告诉用户详细的结 果,用户可以通过左右拖动悬浮球进行反馈。 图表3:AutoGLM任务完成后接受反馈 资料来源:AutoGLM用户手册,国盛证券研究所 用户可以点击编辑,创建自己的常用指令,一键点击即可快速触发,省去反复输入任务的困扰。 图表4:AutoGLM添加快捷指令 资料来源:AutoGLM用户手册,国盛证券研究所 智谱团队表示AutoGLM的应用场景还远不止于此。理论上,通过对GUI的深刻理解, AutoGLM可以完成人类在可视化电子设备(电脑,手机,平板……)上能做的任何事。 它不受限于简单的任务场景或API调用,也不需要用户手动搭建复杂繁琐的工作流,操作逻辑与人类类似,真正做到在日常生活、工作中辅助人类。 Agent为产业重要方向,智谱技术水平领先 10月22日Anthropic宣布推出升级版Claude3.5Sonnet,开创性推出ComputerUSE(计算机使用)功能。开发人员可以在API上使用Claude来指导Claude像人们一样使用计算机-通过查看屏幕、移动光标、单击按钮和键入文本。Anthropic不是制作特 定的工具来帮助Claude完成单个任务,而是向它传授通用的计算机技能,让它能够使用各种专为人们设计的标准工具和软件程序。Anthropic构建了一个API,允许Claude感知计算机界面并与之交互。开发人员能够将说明(例如“使用来自我的计算机和在线的数据来填写此表单”)转换为计算机命令(例如检查电子表格;移动光标以打开Web浏览器;导航到相关网页;使用这些页面中的数据填写表单等等)。在OSWorld(评AI模型像人类一样使用计算机的能力)上,Claude3.5Sonnet在纯屏幕截图类别中的得分为14.9%,明显优于排名第二的AI系统的7.8%。当提供更多步骤来完成任务时,Claude的得分为22.0%。Anthropic预计这种能力将在未来几个月内迅速提高。 图表5:ClaudeComputerUse功能,帮助用户填写表单 资料来源:Anthropic官网,国盛证券研究所 我们认为,Anthropic推出的“计算机使用”功能,强化了AI与计算机交互的能力,利于各类自动化Agent的创建,AI的能力将进一步深入各类工作流中,替代或辅助人类完成更多任务。 AutoGLM也有可以执行Web端操作的网页版本,即智谱清言插件。智谱清言插件是一个能模拟用户访问网页、点击网页的浏览器助手,能力包括: 通用问答——即时解答疑惑,唤起清言侧边栏,向清言提问,无需切换页面,让问题解答更加流畅。 页面总结——快速把握内容要点,清言能够智能总结网页内容,提供关键信息的概览,节省阅读时间,提升信息获取效率。 页面对话——互动式信息探索,通过清言侧边栏,与网页内容直接对话,提问并获得即时回答,让信息获取变得更有趣、更高效。 划线助手——网页内容的深度解读,选中感兴趣的内容,清言为用户提供解释、总结、翻 译,轻松掌握网页内容。 写作助手——文本创作的得力帮手,在浏览器中遇到写作需求时,清言写作助手可以一键生成文章、评论、邮件,让创作变得轻松简单。 勾选总结——快速获取关键信息在浏览网页时,选择您感兴趣的内容,清言为您提供深度总结,节省阅读时间。 高级检索——信息的精准筛选在知网、知乎、小红书等网站上,清言帮您执行复杂的搜索和筛选任务,快速获取您所需的信息。 图表6:智谱清言Chrome插件部分功能 资料来源:Chrome应用商店,国盛证券研究所 OpenAI、谷歌均在布局Agent技术: OpenAIo1模型推理能力大幅提升,Agent或为OpenAI下一阶段目标,据彭博社报道,在OpenAI的规划中,通往AGI的阶段可分为�级,即: 1级:聊天机器人、具有对话语言的AI; 2级:推理者,人类水平的问题解决能力; 3级:Agent,可以采取行动的系统; 4级:创新者,可以协助发明的AI; 5级:组织,可以完成组织工作的AI。 2024年9月12日,OpenAI宣布其开发了一系列新的AI模型,旨在花更多时间思考后再做出反应。它们可以推理复杂的任务,解决比以前的科学、编码和数学模型更难 的问题。o1的推理能力大幅增强,我们认为这意味着OpenAI已经达到了其通向AGI目标的第二阶段。 图表7:o1在具有挑战性的推理基准上大大优于GPT-4o。实线表示pass@1准确率,阴影区域表示64个样本的多数投票(共识)表现。 资料来源:OpenAI官网,国盛证券研究所 2024年9月18日,OpenAICEOSamAltman在社交媒体发文称“在目标3上表现出色,尽管这需要一段时间”,同时附上OpenAI在2016年发布的一篇名为《OpenAI技术目标》的博客链接,其中提到OpenAI的目标3为:构建具有有用的自然语言理解能力的Agent。 图表8:OpenAICEO发文称“在目标3上表现出色” 资料来源:X平台,国盛证券研究所 2024年9月20日,OpenAI研究员N