目录 CONTENT 01AIAgent市场发展背景和特征分析 02AIAgent市场特征和案例分析 03AIAgent市场未来趋势 AIAgent市场发展背景和特征分析 2024年中国人工智能成熟度模型 研究说明 2024年中国人工智能成熟度模型 准成熟技术▸ 半定制芯片(FPGA) 2023年,InfoQ研究中心第一次发布人工智能成熟度模型。在这一年中,人工智能领域发生了诸多变化,因此InfoQ研究中心再次基于技术专利数量、技术发展时间、技术舆论指数等核心指标,结合市场规模与融资事件等公开资料,以及技术和市场专家的验证,绘制了中国人工智能成熟度模型。 前沿技术▸ 航天航空、航海和特种汽车无人驾驶合成数据生成 类脑芯片脑机接口人型机器人视频生成 通用人工智能(AGI) 早期推广技术▸ AI安全可解释AI 大模型工程化 检索增强生成(RAG)通用大模型 行业大模型 端侧AI(IOT、Edge、Mobile)基于大模型的对话机器人 多模态模型 AI智能体(Agent)图像生成 3D生成三维视觉LLMOps 全定制芯片(ASIC)强化学习 分布式深度学习机器/深度学习平台提示工程 文本分析文本生成音频生成语义分析知识图谱代码生成 智能视频编码汽车自动驾驶数字人/虚拟人RPA AIOps 成熟技术▸ 通用芯片(GPU)传统对话机器人机器学习 OCR识别人脸识别生物识别数据挖掘推荐系统物体识别语音识别专家系统MLOps Agent衔接模型层与应用层,是现阶段大模型应用落地的重要补充 •中间层是连接应用层和模型层的桥梁,在现阶段是作为大模型应用落地能力补充的重要层级。 •随着底层模型技术的持续进步与演化,未来可能会出现模型层逐渐内化并泛化出原本由中间层提供的部分能力。 •与此同时新的应用需求还会持续出现。 •智能体,在众多中间层中,处于中心位置,可以封装模型微调、提示工程、检索增强生成。 适 随着中间层能力的不断实践和积累,相对通用和标准化的能力将从中间层中提炼集成在模型层中 应用层 中间层 模型层 基于应用的需要,中间层通过技术形式帮助应用层实现通用模型不具备的一些能力 应 性调用 高 提示工程 用于解决模型对于不同任务的泛化能力不足的问题。 适应性低 成本低 智能体(Agent) 用于解决模型在实际应用中的交互和决策问题。 检索增强生成用于幻觉和知识更新的问题。 微调 用于解决预训练模型在特定任务上性能不足的问题。 成本高 Agent框架持续发布,单/多智能体协同发展 •自2023年3月,以AutoGPT为代表的一系列技术框架的发布,AIAgent以其自主性和解决问题的能力,迅速获得科技圈各方讨论。并在之后一年多的时间中,陆续发布多项不同种类的技术框架。 •除了使用领域的探索之外,单智能体和多智能体协同的两种智能体框架,也在同步发展。 2023年3月-2024年6月期间发布的典型Agent框架 通用类环境模拟类软件开发类多模态类翻译类终端交互类数据分析类 CAMEL 多 MetaGPT AutoGen TalkWeaver UFO AgentUniverse 智Generative 能Agents 体 ChatDEV AgentVerse AgentHospital TransAgent BabyAGI 单AutoGPT 智Hugging GPTeam AgentGPT GPT- Engineer CrewAI AutoAgents TranslationAgent APPAgent DS-Agent OSCopilotScreen SWE-AgentDevika SimClass 体 能GPT ShortGPT Agent JAT SIMA Cradle 2023年6月2023年9月2023年12月2024年3月2024年6月 Agent是集大模型、数据、工具多维一体的系统化工程 •在技术框架的不断探索中,Agent的技术框架认知逐渐统一,大模型作为大脑,驱动规划、工具使用、记忆三大基本能力模块指导行动,智能体逐渐通过与环境、智能体和人类交互的反馈中不断进化。 •在T-Eval大模型智能体基准测试中,步骤推理(REASON)能力得分明显落后于测试均分,这意味着推理仍是能力短板。 Agent通用技术框架 长期记忆短期记忆 记忆 工具使用大模型规划 行动 智能体环境感知反馈智能体 •COT 插件 任务拆解 •Plan-and-Solve•TOT•GOT•… 外部API 反思改进 •ReAct•Reflexion•CRITIC•Self-Refine•…… T-Eval大模型智能体基准测试分数 T-Eval均分指令规划得分步骤推理得分 GPT-4 100 InternLM-…80 60 Yi-Chat-34B ChatGLM-6B-… Mistral-7BBaichuan2-13B 40 20 0 LLaMA2-70B Claude2.1 Qwen-72BDeepSeek-… 数据来源:T-Eval大模型智能体基准测试,是专门针对智能体工具使用的全过程设计的基准测试,包含:规划(Plan)、推理(REASON)、检索(RETRIEVE)、理解(UNDERSTAND)、指令跟随(INSTRUCT)和审查(REVIEW)。测评结果仪表盘链接:https://open-compass.github.io/T-Eval/leaderboard_zh.html、https://hub.opencompass.org.cn/dataset-detail/T-Eval 大模型「大脑」经历3轮主要更新,竞争重点由参数向应用变化 •作为智能体大脑的大模型,在短短2年时间内,经历了3轮主要更新和竞争重点的转变。 •2024年第二季度,模型竞争逐渐转向在性能不打折的情况下,具备更强的成本效应和快速响应。 2023-2024年主要大模型发布/更新及竞争阶段 多模态模型以Sora拉开序幕 语言模型MOE成果积累 语言模型长文本竞争拉开序幕模型竞争转向性价比与响应速度 2024Q2 国内外大模型厂商第一轮交卷完成 宣传重点经历了从单纯的模型参数到能力提升 2024Q1 •Zamba-7B •abab6.5 •Llama3 •Qwen2 •Claude3.5Sonnet •讯飞星火V4.0 2024年以前发布的大模型/大模型家族 •Yi-VL-34B •Baichuan3 •讯飞星火V3.5 •MobileVLMV2视觉语言模型 •Open-Sora1.0 •OpenELM •Phi-3Mini •Qwen1.5 •InternLM2.5 •Vidu •可灵 •Baichuan1-2模型家族 •Claude1.0-2.1 •DeepSeek模型家族 •ERNIE2.0-4.0模型家族 •Gemini1.0 •GLM1-3大模型家族 •GPT-1到4共计5个大模型 •混元大模型 •InternML •LLaMA开源模型家族 •Mistral开源模型家族 •Moonshotv1 •Skywork •书生·浦语模型家族 •天工模型家族 •Qwen开源模型系列 •讯飞星火模型V1.0-3.0 •XVERSE1.0-2.0 •Yi开源模型家族 •MiniCPM-V-2 •Gemini1.5 •MistralLarge •Claude3 •DeepSeekVL •Grok-1 •Grok-1.5 •MAGnet •DBRX •Qwen1.5-MoE-A2.7B •Jamba •DeepSeek-V2 •Yi-1.5 •GPT-4o •Yi-large •豆包大模型 •Baichuan4 •GLM-4 •视界一粟YiSu •Veo •天工3.0 •源2.0-M32 现阶段的智能体应用,仍未长出足够的自主思考能力以应对复杂场景 •在Agent的理论框架中,自主思考和规划能力是其核心特征,这也是Agent与ChatBot和Copilot等应用的关键区别。然而,当前阶段的智能体实际构建与这一理想状态仍有显著差距。 理想中的智能体现阶段的智能体 •自主思考:理想中的智能体应具有较强的自主决策能力和环境适应性。 •规划与工具调用:只需设立目标,理想中的智能体即可自主思考和规划路径,选择合适的工具达成目标。 •记忆:在逐渐的使用过程中,理想中的智能体可以实现持久的记忆和学习能力,能够积累并保留知识经验。 •多模态:理想中的智能体应具备对现实世界的理解、模拟、反馈持续学习能力。 •自主思考:现阶段的Agent大多仍处在RPA的思路中,依赖人为干预和预设规则。 •规划与工具调用:现阶段的智能体在复杂场景下的推理能力差,只有在清晰、详细的指令下才可以稳定发挥。 •记忆:现阶段的智能体大多局限于通过Prompt构建短期记忆,事实性记忆多通过RAG来构建。虽然大模型的上下文长度上限 一直在提升,但仍然缺乏在对话之外持久保存和累积知识的机制。 •多模态理解:现阶段的智能体大脑仍以大语言模型为主,缺乏对多模态的理解。 AIAgent市场特征和案例分析 应用场景分析:生活类情感陪伴场景先行,专业类场景开始试点 •在生活陪伴类场景中,AIAgent通过对话交互形式,结合记忆模块的能力,能够提供更加丰富和深入的情感体验,这使得生活陪伴成为AIAgent应用探索程度较高的一个领域。 场景容错性 高 AIAgent现阶段典型应用场景分析 生活陪伴类场景 AI游戏队友 世界观体验(游戏、影视、小说关键角色) 生活专业类场景 社交媒体运营 旅行规划 情感陪伴 保险规划 理财顾问 口语教学 虚拟顾问(塔罗、星盘、八字等) 陪伴助教 医疗顾问订票助手 个人法律顾问智能导购 低 低AIAgent应用探索程度高 应用场景分析:企业场景与大模型应用保持一致 •企业专业类场景应用探索程度,与其大模型「大脑」保持相对一致,在办公、编码、财税、数据分析、营销等场景优先起步。 •对于生活专业类场景而言,受限于早期的工具生态、服务监管和尚未清晰的盈利模型,AIAgent应用探索程度普遍较低。 场景容错性 高 AIAgent现阶段典型应用场景分析 企业财务助手招聘助手 研报分析 智能NPC 数据分析开票专家 话术专家 内容制作 私域运营智能纪要 企业法律顾问 低 低 商家助手 企业专业类场景 营销助手 智能编码企业知识顾问 智能客服 AIAgent应用探索程度高 产品发展早期阶段,四大类厂商各显神通 •InfoQ研究中心在对市面上对外服务的AIAgent产品进行研究后,发现其背景主要分为大模型创业厂商、互联网科技厂商、RPA/流程自动化厂商和数字化企业服务商。 厂商类型 大模型创业厂商 互联网科技厂商 RPA/流程自动化厂商 数字化企业服务商 升级路径 借助自身大模型技术基础,满足企业大模型技术实际应用需求 借助自身大模型以及AI云服务,为客户提供完整的AI技术解决方案 依托自身长期积累的企业内流程自动化落地经验,为客户提供更智能化的产品和服务 依托自身长期积累的垂类领域或行业的Know-how,实现企业内数字化系统的功能升级 产品形态 AIAgent应用市场&开发平台 AIAgent应用市场&开发平台 Agent技术思路集成进原有RPA产品 Agent作为一个功能组件,内置进数字化系统 用户基础好,产品迭代快速 大量成功落地经验 API联动生态完善 代表厂商 Dify、澜码科技、面壁智能等 百度、火山引擎、腾讯等 来也科技、实在智能等 用友、金蝶、标普云、数势科技等 厂商优势 对大模型具有技术前瞻视角 AI生态建设完整; 在流程自动化领域积累的 与原有数字化系统深度集成, 多种Agent构建方式满足不同技术水平、不同场景的用户需求 •虽然产品形态各异,但在构建和使用方式上,AIAgent产品均支持根据内置模版构建、复杂智能体构建和代码构建三种基础构建