AI智能总结
中国AI Agent行业研究报告 大模型时代的“APP”,探索新一代人机交互及协作范式 出品机构:甲子光年智库智库院长:宋涛撰写分析师:刘瑶、胡博文发布时间:2024.4 Part01前世今生:科幻憧憬、学术概念与商业尝试 目录 Part02奇点已至:让每个人掌握AI的力量 CONTENTS Part03百家争鸣:属于大模型时代的APP繁荣 Part04时代先驱:当下商业实践值得关注的里程碑 Part05潜力无限:来自于数据、算法、算力的飞轮效应 AI Agent的发展历程梳理:大模型赋予了AI Agent核心改变 Agent(代理)一概念起源于哲学,描述了一种拥有欲望、信念、意图以及采取行动能力的实体。在人工智能领域,这一术语被赋予了一层新的含义:具有自主性、反应性、交互性等特征的智能“代理”。大型语言模型(LLMs)的出现为智能代理的进一步发展带来了希望。 基于大模型 LLM给AI Agent底层提供了一个突破性技术方案:LLM带来了深度学习新范式,思维链和强大的自然语言理解能力有望让Agent具备强大的学习能力和迁移能力,从而让创建广泛应用且实用的Agent成为可能 LLM的框架优势:过去等强化学习基于深度学习框架可让Agent学到技能,但Agent的泛化性较差,往往用于非常窄的特定领域,例如用在游戏或低维层面的控制或计划,标志性应用是围棋领域的AlphaGo。 过往的工作主要集中在增强代理的特定能力,如符号推理或对特定任务的掌握(国际象棋、围棋等)。这些研究更加注重算法设计和训练策略,而忽视了模型固有的通用能力的发展,如知识记忆、长期规划、有效泛化和高效互动等。事实证明,增强模型固有能力是推动智能代理进一步发展的关键因素。 过往的AI Agent类型: 符号型智能体:采用逻辑规则和符号表示来封装知识和促进推理过程,如1980年前后,出现的医学诊断专家系统,模拟心理治疗程序等;反映型智能体:关注智能体与其环境之间的交互,强调快速和实时响应,缺乏复杂缺乏复杂决策和规划能力;基于强化学习的智体题:关注如何让智能体通过与环境的交互进行学习。基于迁移学习和元学习的智能体:使智能体从少量样本中迅速推理出执行任务的最优策略。 LLM是Agent能力的增效器,交互协作程度是Agent能力的扩展器 当下大模型的参数量提升AI Agent的理解力和泛化能力,使其能更好地处理多种任务和上下文信息。这增强了AI代理的自然语言处理能力,从而提供更个性化、连贯的交互体验,是当下Agent的构建关键。 大模型时代的AI AgentLLM(规划+记忆+工具+行动) 核心特征 LLM是核心控制器,构建核心能力 提升AI Agent的理解力和泛化能力,使其能更好地处理多种任务和上下文信息。这增强了AI代理的自然语言处理能力,从而提供更个性化、连贯的交互体验。 人类用户 架构解析 通过用户接口、命令指示等方式与Agent形成交互,是Agent的监督者、合作者和决策者 外界环境 Agent所处的环境(可能包括虚拟及物理世界),外界环境可以与Agent形成交互 当下的AI Agent可以看作LLM技术下Prompt工程的进化 AI Agent是Prompt工程的一种升级,Agent的核心在于自主性的增强,可有效完成某一个工作点或工作单元,尽量减少人的干预;评价一个AI Agent的核心逻辑:在流程上的节点上完成了什么程度的自动化。 因此在2023年,全球AIGC关注者发展了多种Prompt工程的玩法,如角色扮演、零样本提示和少样本提示,希望将Prompt工程发挥到极致。例如一个澳大利亚少年编写了一个15000个字符的提示词,成功地让他变身为人类的导师,教授各种知识。这种方式就像能直接构建软件一样。 【记忆】和【规划】是学术概念下的关键功能点,商业概念也将逐步落地 从学术概念来看【记忆】和【规划】对于AI Agent学术概念上的完整性非常关键,但受限与市场发展早期,在实际的商业产品落地中【记忆】和【规划】能力未必能完全呈现 理解这点就能接受在当下市场环境下AI Agent产品功能的不完整,并且对Agent的形态持续保持关注和期待。 2024年仅仅距离AIGC全面爆发的2023年才过去1年,受限于算力、模型、数据等等多种因素制约,往往部分Agent产品会难以获得“记忆能力”和“规划能力”; AI Agent市场处于早期阶段,产品及服务模式需要大量的探索 当下的市场状态是AI Agent商业类产品的爆发前夜,市场需要给与AI Agent更多的空间,AI Agent需要进行不断地探索;此时,AI Agent的市场概念与学术概念出现混淆感和分歧,部分Copilot产品在结果上也可作为Agent模式的产品出现。 Copilot与Agent最大的区别在于“自主规划”的能力:Copilot的模式需要人的指挥;而Agent则是直接面对目标任务,具有自主记忆、推理、规划和执行的全自动能力,因此终极形态的AI Agent只需要用户的起始指令和结果的反馈,过程中并不需要人的介入。 2024是AI Agent的爆发之年,也是产品逐步从Copilot模式转向AI Agent的探索之年;因此市场中往往也会把自动化程度高的Copilot产品作为泛化的Agent概念产品。 Copilot与Agent的混淆点在于对于“工作流”的“自动化”的区分:从完成效果看,工作可以人为地被无限拆分,部分“Copilot产品+自动化”可以完成单个工作单元的完全自动化。 随着AI Agent的能力提升,过往的工作范式可被颠覆 Agent的商业价值围绕工作范式差别展开(面向过程VS面向目标),工作范式的改变则意味着真正的智能时代开启。 Part01前世今生:科幻憧憬、学术概念与商业尝试 目录 ·Part02奇点已至:让每个人掌握AI的力量 CONTENTS Part03百家争鸣:属于大模型时代的APP繁荣 Part04时代先驱:当下商业实践值得关注的里程碑 Part05潜力无限:来自于数据、算法、算力的飞轮效应 AI Agent是每个普通人都可以尝试搭建的AIGC领域个性化应用 如果说大模型是属于工程师的技术游戏,那么AI Agent则是每个普通人都可以尝试的乐高;但同时这也意味着用户的需求并不明确,往往是供给激发需求;用户对产品体验往往要求较高,强调“易用性”;杀手级应用的“Super APP”是面向上亿级别C端用户的大众化应用,用户群体庞大且喜好各异,因此产品本身需要适配大多数用户的使用习惯,包括较低的学习成本、较快的响应速度、合适的使用场景等。 AI Agent可以实现员工与数字生产力的协作,直接带来企业价值 对产品体验的要求较低,强调“可用性”:面向企业端的定制化应用,客户群体规模较小且需求明确,因此帮助企业效率提升的重要性大于产品本身的使用体验; AI Agent则带来人机协作的价值:企业面对真正意义上的数字化生产力的来临,每个员工都可以有自己的数字助力协作工作,将每个员工的能力最大化的提升。 AI Agent的商业价值核心因素之一:用工程化的思想提高群体的工作均值 AI Agent可以用工程化思想对抗个体工作的不确定性,过往的SOP、PDCA、OKR等管理方法可以与AI Agent进行适配,完成管理工作的科学升级。 AI Agent实现行业know-how的具象化:个性化+专家级的知识库构建 AI Agent通过挖掘企业流程、文档及相关信息化知识完成知识库的具象化 •专家知识的数字化是AI Agent成功落地的关键。通过不断标注和反馈,专家的个人知识可以丰富和完善知识库,形成知识闭环,使系统能够持续学习并提升性能。•AI Agent的出现将改变人机交互的方式,使得专家知识不仅能够被复制和传承,还能够通过自然语言处理等技术被更广泛地应用。 ➢技术窍门:指的是企业在生产过程中掌握的特定技术,这些技术可能未被广泛知晓,是企业保持竞争力的关键。➢操作技巧:涉及日常操作中的技巧和方法,这些技巧可能来自于员工的个人经验或企业多年的实践。➢工艺流程:企业在生产过程中形成的特定工艺流程,这些流程可能经过多次优化,以达到提高效率和质量的目的。➢商业策略:企业在市场竞争中形成的特定商业策略,包括市场定位、产品定价、营销推广等。➢管理方法:企业在管理过程中形成的有效管理方法,如人力资源管理、财务管理、供应链管理等。➢市场洞察:企业对市场的深入理解和预测,包括消费者行为、市场趋势、竞争对手分析等。➢知识产权:虽然知识产权通常被视为正式的知识,但它们也是know-how的一部分,因为它们保护了企业的创新成果,如专利、商标、版权等。➢企业文化:企业的价值观、行为准则和工作氛围,这些文化因素可以影响员工的行为和企业的决策。➢客户关系:企业与客户建立的长期关系,包括客户信任、忠诚度和口碑等。 AI Agent在逐步实现AIGC的核心价值,完成更好的交互和流程 AI Agent在逐步实现AIGC的核心价值,完成更好的交互和流程价值——让AI融入到实际的工作流中,实现生产效率、生产关系的变化,实现技术革命。 Part01前世今生:科幻憧憬、学术概念与商业尝试 目录 Part02奇点已至:让每个人掌握AI的力量 CONTENTS Part03百家争鸣:属于大模型时代的APP繁荣 Part04时代先驱:当下商业实践值得关注的里程碑 Part05潜力无限:来自于数据、算法、算力的飞轮效应 AI Agent将给应用软件的形态和业态带来颠覆性变化,成为垂直应用的超级入口 AIGC将给应用软件的形态和业态带来颠覆性变化。基于自然语言的极简交互将替代很多传统的图形界面交互,形成LUI+GUI的混合形态,未来,诸如硬件入口、汽车入口等,手机制造商可能都会做Agent store; AI Agent形态可以对既有软件进行智能化改造与升级,以API的形式增加重要环节的可交互性和认知能力;也可以对软件的应用架构和模式进行全新重构。业务流程和个人交互方式的改变对用户体验影响巨大,可快速调取超级应用承载的海量复杂功能,形成组合式输出。 当AI Agent成为新的数字生产力,AIGC+流程的组合能力成为未来致胜关键 AI与工作流的结合有3类方式,均是为了实现更高效、更智能的决策支持和自动化服务,关键在于如何根据具体应用场景和需求,选择最合适的融合策略: ✓“+AI”是在现有的智能体或系统中引入AI技术,以增强其能力,可以逐步提升现有系统的智能化水平; ✓“AI+”则是指将AI作为核心驱动力,围绕它构建智能体的能力; ✓或者直接以应用场景为目的地,实现垂直领域的卡位。 工作流及AI能力齐头并进3 •直接瞄准刚需性的市场场景,通过结合AIGC和工作流实现AIAgent的迭代;AI Agent可建立起对某一个垂直领域认知的场景,迅速实现岗位中位数水平以上的员工表现 先有AIGC能力,后寻找落点场景2 •随着AIGC技术的爆发,相关技术公司迅速崛起,大模型及后续调优及适配技术能力强,借助大语言模型甚至多模态模型切入市场刚需 先有工作流能力,后结合AIGC技术 •和AIGC在近2年内爆发不同,数字化企服能力伴随着中国数字化发展而来,因此泛企业服务软件领域在工作流程的建设,数字员工的协同领域具备相当丰富的经验 AI Agent成为企业知识资产积累与高效复用中的创新角色 AI Agent在形成知识资产的积累与复用方面扮演着至关重要的角色,AI Agent能够从企业运营过程中大量繁杂的信息“建立”有价值的企业流程“知识”,形成可查询、可复用的专家级别的企业知识库;更重要的是,AIAgent能够将这些知识资产快速提供给需要的用户或系统,极大地提高了信息的可获取性和应用效率;并且,AI Agent能够根据新的数据和反馈不断优化和更新知识库,确保知识资产的时效