Anthropic发布升级版Claude 3.5 Sonnet,并推出Computer Use功能。2024年10月22日,Anthropic发布的两款大模型,分别对标GPT-4o、GPT-4o mini,并在多维参数上实现了超越,同时推出了Computer Use功能。 Claude 3.5 Sonnet(new)具备行业领先的软件编程能力,在SWE-bench Verified上排名第一;Claude 3.5 Haiku具备出众的性价比和速度,同样擅长编程。 Computer Use让AI像人一样操作电脑,开启人机交互新范式。 Anthropic推出Computer Use功能,让大模型可以像屏幕前的人类那样直接操纵电脑鼠标和键盘去完成指令。具体步骤可分为:多模态理解屏幕,通过不断地对屏幕截图,对静态图片中信息进行解析并理解,类似于“看漫画”;定位像素,基于对任务指令和屏幕内容的理解,像人类那样“移动鼠标”;点击或输入,像人类那样“点击鼠标”或“键盘打字”;完成相应任务,通过将具体的任务,拆解为上述步骤,像人一样操作电脑来工作。 划时代的人机交互新范式,让大模型直接使用PC软件,而无需额外适配环境。复盘人机交互历史,从早期的“命令行界面”到PC时代的“图形用户界面”,到智能手机时代的显示屏触控交互,本质上都是人利用信息工具来控制设备,人既要充当命令的发起者,也要做执行者,而Claude的Computer Use功能让人类可以从执行者的角色中解脱出来,实现从发布命令到获得结果,由AI来利用现有ICT基础设施填补过程。Anthropic将Computer Use功能带来的改变描述为从“工具适应模型”到“模型适用工具”,我们认为前者像是“为了过河专门给大模型重新建一座适合它的桥”,后者是“教会大模型直接模仿人类,从人类已经建好的桥上过河”。 引领AI Agent发展,Computer Use尚需平衡效果、安全、成本。Computer Use尚处起步阶段,实际效果仍存在诸多不足,在OSWord(用于测试大模型使用电脑解决问题的能力)评估中,Claude的得分率为14.9%,远远落后于人类的水平(通常得分在70-75%)。Anthropic高度重视管理Computer Use功能的安全性,从规避“提示注入”风险、规避Computer Use干预政治、保护用户隐私三方面入手管控风险。当前Computer Use的使用成本相当高,后续Anthropic必须不断降低Computer Use的使用成本,才有希望引领AI Agent加速革新和落地推广。 投资建议:详见正文。 风险提示:模型商业化落地不及预期风险、AI技术迭代不及预期风险、地缘政治或供应链风险、全球宏观经济波动风险。 1Anthropic发布升级版Claude 3.5 Sonnet,并推出Computer Use功能 Anthropic发布升级版Claude 3.5 Sonnet和Claude 3.5 Haiku,在多项指标超过Open o1,并且发布Computer Use功能,开启人机交互新范式。2024年10月22日,Anthropic发布的两款大模型,分别对标GPT-4o、GPT-4o mini,并在多维参数上实现了超越,同时推出了Computer Use功能。目前,Claude 3.5 Sonnet(new)已向全体用户开放,可在Anthropic API、亚马逊Bedrock和谷歌云的Vertex AI上使用,Claude 3.5 Haiku将在本月底发布。 图1.Anthropic发布升级版Claude 3.5 Sonnet和Claude 3.5 Haiku,性能参数业内领先 Claude 3.5 Sonnet(new)具备行业领先的软件编程能力。Claude 3.5 Sonnet(new)主要在代理编程和工具使用任务上提升明显。 编码能力超越所有公开模型。在SWE-bench Verified(用于测试大模型自动解决GitHub问题的能力)上,性能排名第一,测试的GitHub问题解决率达到49%,超越了OpenAIo1-preview等推理模型和专为代理编码设计的模型。 代理工具使用能力领先。在TAU-bench(用于测试大模型模拟人类和AI Agent的交互效果)的性能上,在零售领域提升至69.2%,在航空领域提升至46%,均排名第一。 图2.Claude 3.5 Sonnet升级版在代理编程能力上行业第一 Claude 3.5Haiku具备出众的性价比和速度。Claude 3.5 Haiku是Anthropic最新大模型中速度最快的,在所有能力较上一代模型均有所提高,尤其是在编程方面成绩突出,同样超越了GPT-4o。 2Computer Use让AI像人一样操作电脑,开启人机交互新范式 Anthropic推出Computer Use功能,让大模型可以像屏幕前的人类那样直接操纵电脑鼠标和键盘去完成指令。具体步骤可分为: 多模态理解屏幕:通过不断地对屏幕截图,然后对图片中信息进行解析并理解,暂时只支持理解静态页面,类似于“看漫画”,而非“看视频”。 定位像素:像人类那样“移动鼠标”,基于对任务指令和屏幕内容的理解,拆解具体操作下,需要移动的光标位置。 点击或输入:像人类那样“点击鼠标”或“键盘打字”,在光标确定的位置,点击或输入信息。 完成相应任务:通过将具体的任务,拆解为上述步骤,像人一样操作电脑完成工作。 图3.Anthropic推出的Computer Use功能让大模型模拟人来操作电脑 官方案例中,开发者让Claude根据电脑表格或CRM系统查询数据,填写一个问卷。Claude的Computer Use具体执行步骤如下: 接收指令:要求利用电脑上已有表格的企业数据,将“Ant Equitment Co.”的公司信息填写到右侧的问卷表中,如果表格中没有该公司的数据,就从CRM系统里查询数据再填写问卷。 图4.Claude接受指令利用电脑上已有表格或CRM系统数据填写问卷表 截图理解:Claude截图理解并分析后,发现打开的表格里,没有要求的“Ant Equitment Co.”公司数据。 图5.Claude截图理解分析后发现,打开的表格里没有可使用的数据 移动光标打开CRM系统并查询数据:Claude通过计算屏幕像素位置,移动光标打开CRM系统网页,在搜索框中输入要查询的“Ant Equitment Co.”公司数据,获取数据。 图6.Claude移动电脑光标,打开CRM系统并查询数据 根据查询到的数据在问卷表的对应位置填写信息:Claude通过理解右侧问卷表里不同空格里需要填写的信息,从CRM系统界面里找到对应的内容,比如填写公司的联系电话。 图7.Claude根据查询到的数据在问卷表的对应位置填写信息 划时代的人机交互新范式,让大模型直接使用PC软件,而无需额外适配环境。 复盘人机交互历史,从早期的“命令行界面(CLI,Command-line Interdace)”到PC时代的“图形用户界面(CUI,Craphical User Interface)”,到智能手机时代的显示屏触控交互,本质上都是人利用信息工具来控制设备,人既要充当命令的发起者,也要做执行者,而Claude的Computer Use功能让人类可以从执行者的角色中解脱出来,实现从发布命令到获得结果,由AI来利用现有ICT基础设施填补过程。 Claude的Computer Use功能官方对其理念的阐述为,从“工具适应模型”到“模型适用工具”,具备交互层面的革命性意义。 “工具适应模型”路径(maketools fit the model):为了让大模型协助完成某项具体任务,专门为其提供定制化的工具和环境,就像“为了过河专门给大模型重新建一座适合它的桥”,定制化成本高,需要下游应用的配合,逐步实现生态建立和磨合。 “模型适用工具”路径(make the model fit the tools):让大模型直接模仿人类,让大模型站在人类的肩膀上,使用人类已经建设十分成熟的软件产品和生态,就像“教会大模型直接模仿人类,从人类已经建好的桥上过河”,可以与存量兼容,不受权限和生态的束缚。 3引领AI Agent发展,Computer Use尚需平衡效果、安全、成本 Computer Use尚处起步阶段,实际效果仍存在诸多不足。在OSWord(用于测试大模型使用电脑解决问题的能力)评估中,Claude的得分率为14.9%,远超同类排名第二的大模型(得分为7.7%),远远落后于人类的水平(通常得分在70-75%),未来在面临人类高度复杂的工作要求,当下的Claude Computer Use就像“刚学会识字读书的小孩”,在效果维度仍然存在巨大不足,但是根据Anthropic官网报道,Computer Use的开发正在进入不断试错迭代升级的螺旋上升轨道。 图8.OSWorld评估大模型模仿人类完成各类电脑任务的能力 Anthropic高度重视管理Computer Use功能带来的潜在安全问题。根据Anthropic评估,Claude 3.5 Sonnet和Computer Use功能安全等级与现有模型相当,暂不存在更大的安全隐患,但是Anthropic从三方面来确保其安全性: 规避“提示注入”风险:提示注入(prompt injection)是一种网络攻击,通过将恶意的指令输入AI模型,导致其覆盖先前指令或执行偏离原始意图的意外操作,Anthropic在开发版本中采取了预防措施。 规避Computer Use干预政治:Anthropic已经开发了分类器(classifiers)监控Claude,避免其通过生成或发布社交媒体内容、注册网站等方式干预政治选举。 保护用户隐私:Anthropic宣称,在默认情况下,不会使用Claude的Computer Use获得的用户屏幕截图来训练其AI大模型。 ComputerUse当前的使用成本相当高。根据Composio上开发者的测试数据,开发人员使用Claude的Computer Use功能执行了4项任务,包括:查找Top5的电影,并生成CSV文件(成功);寻找某城市的最佳餐厅(成功);在线订餐(暂不支持该功能);亚马逊购买衣服(成功选购产品加入购物车,但尚无法登录账号或付费)。上述四项简单测试花费30美元,我们认为Anthropic后续必须不断降低Computer Use的使用成本,才有希望引领AI Agent加速革新和落地推广。 4投资建议 生成式AI的高速发展,将持续推升AI底层算力需求,建议关注AI基座产业链的公司,如NVIDIA、台积电、AMD、博通、ORACLE、MICROSOFT、AMAZON、ALPHABET、海光信息、协创数据、中科曙光、曙光数创、寒武纪、英维克、神州数码、紫光股份、VERTIV、美光科技等。 Computer Use的功能为AI PC、AI手机、AI耳机等AI终端打开了新思路,建议关注联想集团、传音控股、漫步者等。 5风险提示 模型商业化落地不及预期风险:大模型在应用侧尚未产生商业化较好的案例,若后续模型应用不及预期,可能会影响到相关厂商的AI Capex,对英伟达数据中心产品需求侧造成影响。 AI技术迭代不及预期风险:若AI技术迭代不及预期,则相关产业发展进度会受到影响。 地缘政治或供应链风险:若地缘政治因素造成供应链产生波动,或供应链某环节未能按时供给相关算力芯片,将对AI发展速度造成一定的影响。 全球宏观经济波动风险:若全球宏观经济产生波动,或将影响到AI相关投资的稳定性。