您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:Aiagent相关值得关注的方向梳理国金计算机孟灿事件 - 发现报告

Aiagent相关值得关注的方向梳理国金计算机孟灿事件

2025-01-26未知机构李***
Aiagent相关值得关注的方向梳理国金计算机孟灿事件

Aiagent相关值得关注的方向梳理 ○【国金计算机孟灿】 事件:24日凌晨OpenAI发布AIAgent智能体Operator,通过CUA系统进行复杂的思维链反思和步骤规划,能够在不进行精调的情况下完成泛化任务。 在目前的演示中,Operator可进行网购、订餐、论文分类搜索、文献综述等。 CUA(Computer-UsingAgent)原理:融合GPT-4o的视觉能力Aiagent相关值得关注的方向梳理 ○【国金计算机孟灿】 事件:24日凌晨OpenAI发布AIAgent智能体Operator,通过CUA系统进行复杂的思维链反思和步骤规划,能够在不进行精调的情况下完成泛化任务。 在目前的演示中,Operator可进行网购、订餐、论文分类搜索、文献综述等。 CUA(Computer-UsingAgent)原理:融合GPT-4o的视觉能力,可通过处理原始像素数据来了解屏幕上发生的事情,按照“集成感知(提供计算机当前状态的屏幕截图)—推理—行动”的流程进行迭代循环,能够操作屏幕上的按钮、菜单和文本框。 目前Operator以“研究预览”形式向ChatGPTPro美国用户开放,将逐步推广至Plus/Team/Enterprise用户,此外,Operator还为DoorDash、Instacart、OpenTable、Uber等企业提供服务。 SamAltam表示将在ChatGPT免费版中提供o3-mini模型,目前该模型已完成安全测试,预计在未来几周正式发布。 未来,Operator预计会在包括真实场景的持续落地,更多代码编辑和终端操作,安防防御能力优化等几个维度持续优化。 AIAgent的发展离不开底层大语音模型的升级进步,使其在感知、记忆、规划、执行等能力得到提升,在智能化、自主化方面有更多进步,通过与软硬件的结合,使得AI落地有了更好的抓手。 Agent一方面可以替代大量重复、机械的操作任务,提升效率,也突破了问答交互、信息处理和推理等初级智能,可以执行和解决更多复杂问题,推动AGI向前迈进。 其核心能力一是准确理解指令,二是包括复杂任务处理与持续学习优化在内的智能化决策能力。 从巨头的探索看,海外大模型厂商包括Anthropic、OpenAI等,国内包括智谱等都发布了相关Agent,在应用端,海外的微软、谷歌、Salesforce等,国内焦点科技、中科创达、新致软件、致远互联等也在持续落地。