AIAgent的GPT时刻?Manus第一时间解读20250306导读2025年03月06日2004 关键词 大模型推理模型AIagentMonicamanus多模态自主AI成果交付个人助理工具调用异步处理OpenAI编程大模型GGAAAAI零售风险AI通用微型车奔驰onedeepresearchbenchmark 全文摘要 当前人工智能领域,”大模型”技术突飞猛进,成本低廉却性能卓越,加速了国内与国际先进水平的接轨,预示着多模态应用的创新突破。一款名为manus的AI代理产品,由初创公司开发,能自主完成编写代码、网页浏览、应用操作等复杂任务,离线工作且跨领域工具调用能力强,展现出色性能。该产品技术优势显著,采用OpenAI模型等底层技术,提升了云计算、API调用效率,但面临计算需求增加及全网开放的挑战。 AIAgent的GPT时刻?Manus第一时间解读20250306导读2025年03月06日2004 关键词 大模型推理模型AIagentMonicamanus多模态自主AI成果交付个人助理工具调用异步处理OpenAI编程大模型GGAAAAI零售风险AI通用微型车奔驰onedeepresearchbenchmark 全文摘要 当前人工智能领域,”大模型”技术突飞猛进,成本低廉却性能卓越,加速了国内与国际先进水平的接轨,预示着多模态应用的创新突破。一款名为manus的AI代理产品,由初创公司开发,能自主完成编写代码、网页浏览、应用操作等复杂任务,离线工作且跨领域工具调用能力强,展现出色性能。该产品技术优势显著,采用OpenAI模型等底层技术,提升了云计算、API调用效率,但面临计算需求增加及全网开放的挑战。manus的出现,不仅提升了AI在零售等领域的应用价值,推动了市场积极反响,如信创板块股价上涨,同时也揭示了未来技术发展的方向与挑战。 章节速览 0000大模型技术进展与AI代理的突破 近期,国内大模型技术快速发展,阿里推出千万级参数的32倍推理模型,性能接近满血版D21,成本仅为十分之一。国内模型性能追赶海外模型的速度超预期,预计年内在多模态方面将有重大突破。同时,初创公司Monica发布AI代理产品manus,能自主解决复杂任务,如编写代码、浏览网页、操作应用和交付完整成果,如创作并部署网页游戏。这标志着个人AI助理的概念正逐步实现,成为市场关注焦点。行业专家将分享manus的性能、优缺点及未来路径。 0131Minus:一款由中国团队开发的通用型AI助手 由中国团队莫妮卡点IM开发的Minus是全球首款通用型AI助手,其核心功能在于能够自主执行复杂任务并交付成果,相比传统AI助手有显著提升。Minus具备强大的多代理架构和工具调用能力,能在多个领域表现出色,包括简历筛选、股票分析和旅行规划等。其技术领先性体现在GAIA基准测试的高排名,以及多代理架构确保任务执行的稳定性和速度。此外,Minus还具备个性化能力,能根据用户偏好调整输出形式,广泛应用于教育、金融、商业分析等领域。 0659AI零售行业的成熟与未来挑战 AI在零售行业的应用标志着该领域的成熟,尤其今年被视为AI零售的延年,AI的角色从回答问题升级为解决问题,例如自动撰写市场调研报告和处理文件。AI的高性能对国内影响显著,引发相关板块股价上涨。市场对AI的期待高,但面临后台计算能力和专利成本增加的挑战。Manus的内测显示其异步处理和任务分解能力,用户可离线操作,最终收到完成报告。这标志着AI从解决问题到自动完成任务的跨越。应用场景广泛,未来可能激发更多垂直行业深度应用的AI解决方案。然而,通用型AI可能在某些垂类行业表现浅层,需进一步优化。 1428比较和讨论AI通用Agent的发展与应用 对话主要围绕一种新型通用AIagent与其竞争对手OpenAI的产品进行了比较和讨论。这种新型agent被描述为在完成具体任务方面比OpenAI的agent更强大,尤其在网页操作、API调用、数据分析等方面表现出色,但并不涉及物理 世界的直接操作。此外,还讨论了新型agent所基于的基础模型可能包括OpenAI和CodePink,以及其使用H20芯片进行推理的可能性。参会者提出了关于模型基础和芯片类型的问题,展现了对AIagent技术细节的高度关注。 1909大模型在编程任务和执行能力中的应用 对话围绕一个特定的大模型在编程任务和执行能力中的应用展开。首先讨论了该模型在编程校验方面的优势,因其能通过代码执行的正确性实时判断任务完成情况,从而提高学习效率。随后,详细探讨了模型所使用的基础架构、芯片类型,以及如何调用API执行任务。此外,还提到了模型在公开数据和知识上的局限性,以及其在工程和产品创新上的应用。最后,会议邀请电话和网络端的参会者进行提问,以便进一步讨论相关议题。 2552讨论单任务成本、token用量及云端推理生态体系 本次讨论集中于单任务的成本及所使用的token数量,初步估算单任务平均成本约为两美金,token用量可能在1000 左右。进一步探讨了基于云端运行任务和推理过程的生态体系,指出这一体系对于云计算有积极影响,但对特定平台任务的支持有限,如不支持Windows操作系统下的游戏任务。此外,还讨论了AI处理PDF文件的方式,包括直接读取文字和使用OCR技术识别图片中的文字,并指出演示中的翻页动作更多是为了视觉效果而非实际需求。 3143Manus产品的本质及其技术壁垒探讨 对话围绕Manus目前所做的工作是否可视为套壳产品进行了深入讨论。参会者指出,若从大部分技术基础来源于外部供应的角度看,可以将Manus的产品视为套壳模型。然而,从另一个角度看,Manus更像是一个供应链管理系统,通过整合各领域最佳模块形成最终产品。虽然其他公司如阿里智杰可能复制其流程,但在细节和整体一致性上达到完全相同水平存在难度,这表明Manus的产品虽非绝对壁垒,但在技术整合与实现上有其独特之处。 3411Venus系统准确率保证及Token消耗量讨论 讨论了Venus系统通过编程大模型生成代码以保证准确率,尽管能确保代码正确运行,但无法百分百满足客户需求。同时,提及Venus这种形式对Token的消耗量相比传统超包要高10到100倍,主要由于其决策模型可能引起的多次循环和结果检查导致。 3614探讨端侧大模型应用及单任务成本问题 讨论了使用端侧大模型配合云端容器在实际应用中的局限性,特别是考虑到GPU计算要求、安全性问题以及执行 代码的潜在风险。同时,对话还涉及了如何定义单任务成本的问题,明确指出单个提问的成本是整体的,而非拆分后的子任务单独计算。 问答回顾 发言人问:近期大模型和应用层面有哪些重要的催化事件? 发言人答:近期有阿里发布了千万参数规模的32倍推理模型,该模型在性能上可以与满血版D21相媲美,并且以约10分之1的成本达到相同效果。此外,国内大模型的性能正在迅速追赶海外模型,预计年内会在多模态方面取得突破。 发言人问:AIagent领域有什么新的进展? 务,如编写执行代码、浏览网页、操作应用,并能交付完整成果,比如创作网页游戏或编写并部署代码。个人助理功能正在逐步实现,受到市场高度关注。 发言人问:Manus的主要特点是什么? 发言人答:Manus由莫妮卡团队开发,是全球首款通用型AIagent产品,其核心定位在于能够自主执行复杂任务并交付成果。相比传统AI助手,Manus具备更强的跨领域工具调用能力,不仅限于某一个垂直领域,例如在股票分析中可以自动生成可视化仪表盘和提供投资建议。 发言人问:Manus的技术优势有哪些? 发言人答:Manus在GAIA基准测试中的表现突出,综合能力超越了openAI同类产品,达到业内领先水平 (SOTA)。其关键技术优势在于采用多代理架构,通过多个独立智能体协作保证任务执行的稳定性和安全性,同时具有很强的个性化能力,能根据用户的偏好优化输出形式。 发言人问:Manus对行业产生了什么影响? 发言人答:Manus标志着AI零售的成熟,今年成为AI零售的元年,将AI角色从问答升级为解决问题。其优异性能超越了openAI,对国内市场特别是信创板块产生积极影响,股价上涨,市场需求强烈,用户抢着内测邀请码,显示出市场对AI1点的高度期待。 发言人问:Manus未来面临哪些挑战? 发言人答:未来Manus面临的挑战在于后台需要强大的计算能力支持多个子代理协作,对算力需求比传统模型大幅增加。目前仅开放部分内测,若要实现全网开放,还需解决算力不足的问题。 发言人问:它的运行过程中,子agent完成任务后如何进行标记和通知用户? 发言人答:在异步处理中,当每个子agent完成一个任务时,会修改todolist并将任务标记为完成。整个过程中,人可以离线操作,无需实时关注。当所有任务完成后,系统会自动通知用户。 发言人问:这个agent在执行任务并生成报告输出时,是否满足用户个性化需求? 发言人答:是的,该agent能够根据用户的具体需求生成符合用户期望的报告,不仅解决了问题,还进一步满足了用户对于报告内容和格式的要求,相比之前仅解决基础问题的产品,进步跨度较大。 发言人问:该通用型agent的应用场景有哪些,并且未来发展前景如何? 发言人答:该agent已具备四十多个案例,并且随着更多用户的接入,案例数量可能会增加。它提供了一个完整的通用agent解决方案,长远来看,对于像OpenAI和科比等公司推出类似产品也会相对容易,只需在工程上进行调整和应用优化。未来可能会催生出更多垂直行业的专业agent,有助于市场教育和发展。 发言人问:Matus使用的后台大模型是否基于云服务或openAI等平台,以及它的定位是什么? 发言人答:Matus可能采用基于云服务或openAI等全球顶级编程大模型,利用多架构代理方式,以实现高质量的代码运行。它的定位是在浏览器环境下完成一些类似网站操作的任务,而非直接进行编程或物理世界操作。 发言人问:Matus推出的通用agent是否比OpenAI的通用agent更强? 发言人答:Matus的通用agent相较于OpenAI的通用agent,在web操作和具体任务完成方面更为聚焦和丰富,虽然没有直接执行物理世界操作,但在数据分析、API调用等方面表现出更强的能力。 发言人问:Matus使用的具体基础模型是什么?所用芯片类型能否透露? 发言人答:Matus基础模型主要采用openAI和codepink,虽然无法确定百分之百使用,但有很大概率采用这两种模型。至于芯片类型,大概率使用的是H20芯片进行推理计算。 发言人问:从现在结果来看,分数更高的原因是否是因为选择了特定的benchmark? 发言人答:不是因为他选择了benchmark导致分数更高,而是由于其架构设计,在同样的模型基础上,通过引入大量编程任务进行校验,能够实时了解任务执行情况的正确与否,并利用代码固化成功经验,从而提升表现。 发言人问:这种自主学习能力主要来源于哪里? 发言人答:这种学习能力大部分来自于代码执行过程中的正确结果,系统会将这些成功经验固化下来,形成后续可复制的能力。 发言人问:minus使用的基础大模型是什么?推理芯片主要是什么类型? 发言人答:使用的基础大模型必然包含高德的编程模型和其他一些技术(如openAI),推理芯片主要以H20为主,而openAI等服务通常无需采购芯片,直接调用API即可完成。 发言人问:执行的任务是否需要对应APP开放API,还是现有的API调用就能执行任务? 发言人答:执行的任务主要针对公开网站和数据,对于完全不公开的APP无法执行任务。例如减龄分析和金融股票分析,这些数据源要么受用户提供且无需外部交互,要么数据本身完全公开,大部分现有大模型都能编写相应的分析代码。 发言人问:大模型是否具备绝对创新性和AGI能力? 发言人答:大模型目前不具备绝对创新性和AGI能力,它们基于以往公开数据和经验形成模