您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[财通证券]:计算机-“AI操作系统”时代已至 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机-“AI操作系统”时代已至

信息技术2024-12-01杨烨、李宇轩财通证券丁***
AI智能总结
查看更多
计算机-“AI操作系统”时代已至

投资评级:看好(维持) 核心观点 证券研究报告 最近12月市场表现 计算机 沪深300 22% 10% -1% -13% -25% -37% 分析师杨烨 SAC证书编号:S0160522050001 yangye01@ctsec.com 分析师李宇轩 SAC证书编号:S0160524080001 liyx02@ctsec.com 相关报告 1.《智驾月报:10月车市环比向好,文远知行上市》2024-11-18 2.《计算机行业2025年投资策略:多维共振,精彩纷呈》2024-11-17 3.《外政预紧,内需预旺,国产科技迎腾飞机遇》2024-11-10 AI+OS,操作系统级Agent开启人机交互革命。AI赋能OS,操作系统级Agent由于其C端入口特性,有望成为首个“爆款”AI应用。当前市场中长期缺乏“爆款”AI应用,我们认为主要系C端大众对AI的感知度仍然较低,尽管有大量可下载、可付费的AI应用存在,但从广大用户体验来讲,各类AI软件对其生活重塑的边际变化不大。而近期,包括手机端苹果、荣耀、Vivo等以及PC端联想等厂商上新操作系统级Agent作为新的人机交互形态,以端侧入口形式首次深入群众,令其“被迫”体验接受新的操作范式,有望打造首个“爆款”AI应用,由此将带动AI端侧硬件需求涌现,以及刺激软件内部AI功能快速迭代。 建立交互数据集,深耕Post-Training,获得“从Chat走向Act”通用Agent能力。智谱的Agent能力主要来源于其底层大模型的训练与迭代:CogAgent是18B参数的视觉语言模型(VLM),专门用于GUI理解和导航,基于视觉语言模型CogVLM并结合高分辨率交叉模块,实现了高效GUI推理;AutoWebGLM通过简化HTML增强网页阅读能力,添加人类与AI混合方法构建的网络浏览数据集进行微调,大幅提升大语言模型的Agent能力;AutoGLM实现图形用户界面的自主基础Agent,可用于网页浏览与安卓手机操作,与人类表现差距进一步缩小。我们认为,智谱克服了当前Agent训练的堵点,通过建立网页浏览交互数据集,以及在强化学习、微调阶段进行算法创新,实现了在大语言模型上操作系统级Agent突破。 GLM多端Agent家族,打造手机、PC、汽车等终端交互入口。(1)GLM-Phone:可实现跨APP操作、支持超长任务流程、支持更多主流APP,针对手机端应用提供了新的解决方案,显著扩展了其在手机端的应用场景和操作能力;(2)GLM-PC:办公领域将迎来生产力跃升,GLM-PC可实现会议替身、文档处理、网页搜索与总结、远程和定时操作等;(3)GLM-Car&More:Agent为AI终极形态,加速万物智能、万物互联,未来Agent有望渗透至各类智能设备,落地AI原生设备,实现设备主动服务用户。 投资建议:见正文。 风险提示:技术迭代不及预期;商业化落地不及预期;政策支持不及预期;全球宏观经济风险。 计算机/行业专题报告/2024.12.01 “AI操作系统”时代已至 请阅读最后一页的重要声明! 内容目录 1AI+OS,操作系统级Agent开启人机交互革命4 2建立交互数据集,深耕Post-Training,获得“从Chat走向Act”通用Agent能力6 2.1CogAgent:CogVLM结合高分辨率交叉模块,实现高效GUI推理6 2.2AutoWebGLM:基于大语言模型的Web导航Agent8 2.3AutoGLM:图形用户界面的自主基础Agent,可用于网页浏览与安卓手机操作11 3GLM多端Agent家族,打造手机、PC、汽车等终端交互入口13 3.1GLM-Phone:可实现跨APP操作、支持超长任务流程、支持更多主流APP13 3.2GLM-PC:办公领域将迎来生产力跃升15 3.2.1CogAgent实现ComputerUse15 3.2.2AutoGLM-Web进一步扩展AI搜索能力边界18 3.3GLM-Car&More:Agent为AI终极形态,加速万物智能、万物互联19 4投资建议20 5风险提示20 图表目录 图1.Agent类型分为通用型与垂域型两个层面4 图2.智谱清言Agent发展历程5 图3.智谱清言GLMAgent系列产品6 图4.CogAgent模型架构7 图5.CogAgent在多个测试集上显著领先通用模型,部分领域领先专业微调模型8 图6.AutoWebGLM的系统架构9 图7.训练步骤包括课程学习、强化学习、拒绝采样微调9 图8.训练数据集构建包括简单和复杂任务两部分10 图9.AutoWebGLM在Mind2Web、MiniWoB++和WebArena上测试性能具有明显优势11 图10.通过AutoGLM在美团App上“点一杯半糖瑞幸热椰奶拿铁”12 图11.在VAB-WebArena-Lite上各模型与人类表现的差距12 图12.在AndroidLab(VAB-Mobile)上测试各模型的成功率13 图13.GLM-Phone前版本操作示例13 图14.GLM-Phone跨APP操作实例14 图15.GLM-Phone多步骤任务流程实现15 图16.GLM-Phone循环任务执行15 图17.GLM-PC实现ComputerUse16 图18.GLM-PC理解指令、规划任务、逐步完成16 图19.GLM-PC隐形屏幕功能17 图20.像人一样使用电脑,具备更高能力上限17 图21.通过WebAgent实现给智谱清言微博点赞、评论流程自动化18 图22.AutoGLM-Web的操作面板18 图23.AutoGLM-Web的基础AI生成功能18 图24.智谱与小鹏合作的“AI小P”19 图25.大模型为智能设备带来新的机会20 1AI+OS,操作系统级Agent开启人机交互革命 AI赋能OS,操作系统级Agent由于其C端入口特性,有望成为首个“爆款”AI应用。AIAgent(人工智能代理)一般认为是能够感知环境,基于目标进行决策,并利用工具自主执行动作的智能化应用,其包括规划、记忆、工具、行动四大核心能力。我们认为Agent可以进一步划分为通用与垂域两个层级: 通用层级:壁垒在于底层大模型能力,终局大概率为少数有实力的大型厂商。其分类包括操作系统级与平台级Agent:操作系统级Agent可跨应用、跨界面甚至跨设备操作,是对不同细分功能协调的“总指挥”;平台级Agent是底层通用模块的组合,用户可根据自己所需功能调用或搭建。 垂域层级:壁垒在于高质量数据、工作流know-how与行业工具生态。包括众多细分行业的应用智能化与流程自动化,包括办公、金融、医疗、法律、教育、创意设计等。不过其中一些非交互性、高度流程化的应用功能,也存在被通用层级Agent“吃掉”的风险。 当前市场中长期缺乏“爆款”AI应用,我们认为主要系C端大众对AI的感知度仍然较低,尽管有大量可下载、可付费的AI应用存在,但从广大用户体验来讲,各类AI软件对其生活重塑的边际变化不大。而近期,包括手机端苹果、荣耀、Vivo等,以及PC端联想等厂商上新操作系统级Agent作为新的人机交互形态,以端侧入口形式首次深入群众,令其“被迫”体验接受新的操作范式,有望打造首个“爆款”AI应用,由此将带动AI端侧硬件需求涌现,以及刺激软件内部AI功能快速迭代。 图1.Agent类型分为通用型与垂域型两个层面 数据来源:《中国Agent应用研究报告》InfoQ研究中心,财通证券研究所 智谱开创了操作系统级Agent从模型训练到应用落地的先河,搭建了完备的技术栈,开启了新的人机交互革命。11月29日智谱Agent开放日,智谱发布了多项Agent突破,包括:自主任务完成智能体AutoGLM可以自主执行超过50步的长步骤操作,也可以跨App执行任务;AutoGLM开启“全自动”上网新体验,支持数十个网站的无人驾驶;GLM-PC启动内测,基于视觉多模态模型实现通用Agent的技术探索,涵盖会议代理、文档处理、网页搜索与总结、远程及定时操作、隐形屏幕等功能。自2023年4月份推出AgentBench以来,智谱团队投入一年半时间,专注于AutoGLM及CogAgent的研发,在国内乃至国际上实现了领先。今年10月23日,Anthropic推出了ComputerUse功能,让Claude能够像人类一样操作电脑,目前仍处于测试阶段,而当前智谱已实现了Agent技术的产品化。从技术层面,AutoGLM团队研究发现,GUIAgent发展趋势与大模型相似,同样存在推理的ScalingLaw和模型涌现: Agent有o1Scaling(推理规模扩张带动模型能力提升),与o1的推理过程类似,存在环境的反馈监督,以及随着推理训练时间的增加,模型能力也显著提升。 Agent有EmergentAbility(涌现能力),在计算量较低时Agent可以适应单应用、短距离的任务复杂度,但当计算量突破一定程度模型突然能够实现跨应用长距离的复杂任务,同时还能在从未训练过的环境执行命令,泛化能力显著增强。 图2.智谱清言Agent发展历程 数据来源:智谱清言官方发布会,财通证券研究所 打造多终端Agent产品矩阵,以AutoGLM、CogAgent作为技术底座,实现在各类终端的GLM-OS通用性。智谱认为,手机+AI会变成随身个人智能助理,PC+AI将会成为全新生产力工具,汽车+AI将会让车成为人们的智能第三生活空间,大模型不仅仅会为手机、PC和汽车带来机会,更会惠及各种各样的智能设备。随着端侧算力的不断提升,以及专为AI原生设备设计的模型和端云协同架构的出现,Agent技术不仅在操作系统和应用层面引领用户体验的革新,更将这一变革延伸 至各类智能设备,包括手机、电脑、汽车、眼镜、智能家居等,Agent赋能软硬件一体将重塑人机交互范式。 图3.智谱清言GLMAgent系列产品 数据来源:智谱清言官方发布会,财通证券研究所 2建立交互数据集,深耕Post-Training,获得“从Chat走向Act”通用Agent能力 2.1CogAgent:CogVLM结合高分辨率交叉模块,实现高效GUI推理 CogAgent是18B参数的视觉语言模型(VLM),专门用于GUI理解和导航。2023年12月,清华KEG实验室与智谱AI联合推出了CogAgent,一个通用的视觉理解大模型,具备视觉问答、视觉定位(Grounding)、GUIAgent等多种能力,可接受1120×1120的高分辨率图像输入,使其能够识别微小的页面元素和文本。CogAgent是基于预训练的VLM(CogVLM-17B,开源大型视觉语言模型),并添加了一个交叉注意模块(EVA2-CLIP-L,0.30B参数的高分辨率图像编码器)来处理高分辨率输入。添加该模块主要是因为高分辨率图像会导致极大的计算时长和内存开销:视觉语言模型通常将文本和图像特征序列连接起来作为输入提供给解码器,因此自注意力模块的计算成本与视觉补丁的数量成二次方。在低分辨率下,图像能够有效地描绘大多数物体和布局,然而在清晰呈现文字方面有所不足;高分辨率模块强调与文本相关的特征,对于理解图形用户界面至关重要。因此,该方法通过合理分配资源,使模型能理解高分辨率的GUI图片,同时有效降低了显存与计算开销。 图4.CogAgent模型架构 数据来源:《CogAgent:AVisualLanguageModelforGUIAgents》清华大学、智谱清言团队,财通证券研究所 预训练数据集与训练方法与一般多模态训练有明显不同:(1)文本识别:识别高分辨率图像中各种大小、方向和字体的文本能力,数据包括来自语言预训练数据集(8000万)的合成渲染图像中的文本、自然图像的光学字符识别(OCR)(1800万张)、学术文献(9M);(2)视觉定位:图像中文本和对象的定位能力,使用从LAION-115M中采样的包含4000万张图像及其图像-标题对的构建的视觉定位