AIAgent:核心技术进展、欧美落地场景深度讨论20241205_导读2024年12月05日21:27 关键词 AIA准确度大模型工程手段技术进展应用场景高质量数据代理模型优化框架经济效益AI货币化毛利斯坦福大学GPT4成本节约未来三年企业软件推理成本技术进步模型迭代 全文摘要 本次讨论全面剖析了AI技术及其应用的多个维度。市场对AI技术持乐观态度,海外投行在AIA竞争中扮演重要角色。AI技术的核心特性包括高准确度、处理复杂问题的能力及成本效益,这些在过去一个月的研究中得到强化。 AIAgent:核心技术进展、欧美落地场景深度讨论20241205_导读2024年12月05日21:27 关键词 AIA准确度大模型工程手段技术进展应用场景高质量数据代理模型优化框架经济效益AI货币化毛利斯坦福大学GPT4成本节约未来三年企业软件推理成本技术进步模型迭代 全文摘要 本次讨论全面剖析了AI技术及其应用的多个维度。市场对AI技术持乐观态度,海外投行在AIA竞争中扮演重要角色。AI技术的核心特性包括高准确度、处理复杂问题的能力及成本效益,这些在过去一个月的研究中得到强化。在实际应用层面,AI已展现出在客户服务、广告推荐系统及代码编写等领域的潜力,显著提高了效率并降低了成本。然而,技术挑战如核心复杂性仍是待解决的问题。展望未来,AI技术的发展趋势、不同厂商的产品进展及商业化挑战成为关注焦点,为IT板块的投资提供了丰富的机会。讨论强调了理解AI技术现状与未来潜力的重要性,为相关公司提出了投资建议。 章节速览 ●00:00A级市场及技术研究进展报告 报告聚焦于A级市场的发展前景及当前的技术挑战,包括技术要点、性能表现和未来技术演进方向。同时,探讨了 基于技术判断的市场应用场景和推广深度广度,强调了现阶段对技术层面研究的重视。报告由王浩负责详细汇报技术研究和判断,深入分析了A级社区在软件领域中的现状和未来趋势。 ●02:15AIH技术进展与应用场景期待 AIH技术关注点在于提高准确度和处理复杂问题的能力,同时考虑成本问题。大模型与大元模型的幻觉问题影响了AI在医疗领域的商业化应用。为提升AI准确度,产业界和学术界探索了多种工程手段,如长上下文连锁检索生成和图谱使用。这些方法虽提高了准确度,但成本、经济性和模型调用成本仍是关键问题。预计未来AI系统将采用模块化减速增加生成技术,以提升准确度和降低成本,更好地应用于复杂环境。 ●07:07AIAgent复杂任务处理的进展与潜力 讨论了AIAgent在处理复杂任务方面的进步及潜力,指出提升这一能力主要依靠三大方法:一是先进算法框架的创新,二是基座大模型性能的提升,三是使用高质量数据。例如,通过原子化推理框架应用原则指导决策,改善AI在多步骤任务中的表现,并通过自适应优化框架使AI能根据环境变化调整策略。同时,提升数据质量也是增强AI处理能力的重要手段之一。这些方法的应用显示出了AI在复杂任务处理上的显著提升,但仍存在较大的发展空 间。 ●09:56大模型在AI客服任务中的应用与成本优化探讨 在一项研究中,基于CRM环境测试集的分析揭示,大模型驱动的AI在处理复杂任务时表现出了潜力,但目前完成率不足55%。尽管如此,AI客服产品仍能有效替代一定比例的人工客服工作,预计能节约显著 成本。例如,假设一个公司有20个客服人员,未来三年通过采购AI客服产品,可以节约总计约19.8万元的成本。此外,研究还关注了大模型的成本优化问题,指出目前AI模型的供给端在成本管理上表现良好,显示出了提高效率的可能。 ●15:15大模型推理成本降低的技术手段与未来趋势 技术改进,包括底层模型算法优化和工程手段,如模型量化蒸馏和大模型代理设置,共同推动了推理成本的显著下降。这些措施不仅降低了24年二月的基础成本78%,还使得使用成本在过去一年半里分别下降了98%和96%。随着技术进步和企业积累更多知识和技能,大模型的应用场景正在从简单的逻辑和高容错率领域拓展到更复杂的领域,以更好地满足客户需求。 ●18:13AI技术在多模态输出场景的应用展望 当前,大模型在文本生成领域的应用接受度最高,如代码生成、推荐系统和客服等,但图片生成、工作流自动化等非文本场景的应用排名相对靠后。这主要是因为机构大模型的文本技术成熟度较高。预计随着AI能力增强,多模态输出将更广泛应用于AI产品。SAP计划在ERP产品中推出行为分析洞察功能,展示出多模态输出趋势。同时,头部软件公司如Salesforce、ServiceNow、Workday等正积极研发AI相关产品,且AI开支在不同部门间分布不均,表明AI技术在职能性部门的应用潜力巨大。 ●21:38大模型迭代对AI发展的影响 讨论强调了API能力迭代对人工智能发展的重要性,特别是在技术大模型的更新方面。提及大模型厂商通常以六个月为周期进行模型迭代,并预计未来更新速度将持续。同时,提及了OpenAI计划发布一系列新闻发布会,表明行业对此持续高度关注。 ●22:44AI应用商业化探索 讨论了AI应用在产品商业化过程中的不同策略,包括直接收费模式和产品内嵌AI应用的半买半送策略。指出目前AI应用处于早期发展阶段,厂商在产品成熟度不足的情况下,尝试不同的货币化方式。强调了持续跟踪厂商订单情况和产品商业化收费模式的重要性。还提及了一项研究成果,表明AI产品输出的准确度高,但成本是主要约束因素,经济性最优的模型尚未确定。 ●25:13AIH应用及市场潜力分析 讨论了AIH在四大任务处理中的不足与市场潜力,指出A股具有显著增长潜力,且存在较大提升空间。高容错性与简化用户链复杂度的应用场景已开始落地,预期将扩展至更多领域。强调了AI整体货币化潜力,尤其是易于量化的场景,一旦产品性能满足客户需求,有望加速推广。同时,观察到欧美IT指数复苏,看好未来12个月美股软件板块的投资机会,建议投资者增加配置权重。特别推荐已推出AIH产品的公司,如微软、ServiceNow、Salesforce,并关注SAP、Workday等公司未来产品落地与货币化进展。 要点回顾 AIA技术在软件领域的当前主要技术要点和性能表现是什么? AIA技术在软件领域的当前主要技术要点在于其准确度和处理复杂问题的能力。准确度方面,大模型与大元模型存在“幻觉”问题,这是AIA症患者来源及商业化进入诊疗的一大障碍,但业界正在通过工程手段如长上下文连锁检索生成、高级提示词、图谱等方法提高准确度。目前应用最广泛的一种工程手段是检索增强生成,通过整合外部知识库增强大模型性能,具有问答稳定、成本低和相应延迟低的优点,被众多厂商采纳。 检索增强生成的具体架构有哪些? 检索增强生成主要有三种架构:原生检索增强生成、高级检索增强生成(目前最普遍,各家都在推进)以及未来可能出现的模块化检索增强生成。目前,业界集中于高级检索增强生成,例如标错在这方面做了较多工作,并在今年推出了问题覆盖框架,该框架下输出的答案质量在66%的产品中显著强于基准的原生检索增强生成结果。 在提升准确度方面,有哪些具体的进展和效果? 根据斯坦福大学的论文,使用GPT4等先进模型的DIagent准确度可以达到95%,但在考虑经济性问题的情况下,保证模型调用成本和用户运行成本合理,以提供给软件厂商可观的利润空间,仍需进一步提升准确度。尽管现有进展显著,但整体收益率还未达到70%。 在AIagent技术中,当前提升复杂任务处理能力的主要方法有哪些?销售模式最近关于AIagent在复杂任务处理方面的研究结果如何? 当前提升复杂任务处理能力的主要方法有三种。第一种是针对框架的创新,例如OpenAI等研究团队推出的新框架,通过原则指导AIagent决策过程以改善其在执行多步骤任务时可能出现的矛盾结果,并设计了自适应优化框架,使AI能够根据环境变化实时调整策略。第二种是底层技术,即提升基座大模型性能,许多软件厂商利用客户数据进行训练,增强模型能力。第三种是使用高质量的数据体系,这有助于改变算法结构,提高模型能力,像微软和国产大模型的例子就展示了使用高质量数据集后模型性能的显著提升。销售模式在今年11月发布的一篇论文中,根据CRM环境推出了一种测试集,该测试集包含不同场景的任务。测试结果显示,即使使用了诸如Salesforce的头部大模型驱动的AIagent,任务完成率仍只有15%。这表明AIagent在复杂任务处理上具有较大潜力,但目前整体复杂任务完成率可能不足55%。不过,通过进一步的工程手段优化,潜在提升空间很大,比如有研究表明AIagent可能能取代超过20%的客服人员工作,从而带来良好的经济效益和AI货币化效果。 从成本约束角度出发,目前大模型的成本优化情况如何? 目前,在模型供给端,大模型的成本可以通过按照当前收费标准进行管理,实现较好的成本控制。例如,salesforce披露其AIagent单个任务平均处理成本在0.12到0.4美元之间,而其使用的头部大模型单个推理的成本按收费标准计算为2美元,这确保了收入能完全覆盖推理成本并获得约80%的毛利,且不会影响公司主营业务。在AIagent的需求方,虽然准确度和复杂任务处理完成度可能未达理想水平,但如果AIagent能有效替代人力成本,企业采购AIagent产品仍能带来较好的经济效益。根据美国劳工部评估数据,结合实际推算,AIagent在未来三年内节约的成本相较于人力成本具有明显优势。 基于当前的假设,采购agentforce能为公司带来多少成本节约? 基于A(agentforce)的ROS计算器,预计在未来三年,公司通过采购agentforce可以节约总计19.8万元的成本。推理成本下降的主要技术推动因素有哪些? 推理成本下降主要受到两方面技术推动:一是底层模型算法的改进,包括模型量化蒸馏等方法;二是厂商采用工程手段降低推理成本,例如优化大模型输入输出上下文长度、内存使用及提升模型可观察性以实现更好的性能控制和成本节约。 在过去的案例中,性能提升与使用成本之间有何变化趋势?H技术目前主要的应用场景是什么? 过去一年半左右的时间里,以具体模型为例,性能提升的同时,使用成本和维护成本分别下降了98%和96%。我们预计未来推理成本将快速下降。H技术目前主要应用于广告推荐系统、代码编写、客服系统等场景,如salesforce推出的H产品就主要用于客户管理系统。 这些应用场景具备哪些特点? 这些应用场景逻辑相对简单,容错率较高,例如代码编写和客服系统只需最终产出有效结果即可。随着机构模型能力的进步,未来会有怎样的拓展方向? 随着机构模型能力增强,企业将能将其产品向更复杂的领域拓展,满足客户需求并解决更复杂的问题。同时,多模态输出场景(如图片生成、工作流自动化)的AI功能会不断涌现。 在跟踪AI产品发展时,应重点关注哪些方面? 应重点关注头部软件公司如Workday等在职能性部门管理软件产品方面的创新和迭代,以及API能力的迭代更新,因为它们将直接影响到AI技术的成本、准确度和复杂任务处理能力。 目前AI开支的主要分布情况如何? 在2024年,AI开支在IT产品工程和数据科学技术支持部门占据49%的比例,销售营销部门占17%,客服、人力资源、财务、设计和法务等部门占32%。这表明职能性部门在未来将成为产品拓展的重要部分,并且这些部门拥有预算并愿意采购相关产品。 模型厂商的迭代速度是怎样的? 各大模型厂商大概以六个月的周期进行模型迭代,预计未来技术大模型的更新迭代速度也将保持这个水平,对AIA进展需要持续跟踪。 目前各厂商在产品商业化方面的表现如何?对于AI产品商业化货币化的看法是什么? 目前各家厂商虽已推出包含AI的产品,但只有标准port明确提出了基于使用指数的收费模式。其他如SAP等公司则是通过在产品中嵌入AI应用实现间接收费。软件厂商的订单情况和交付订单的进展是当前需要密切关注的焦点。我们认为目前各厂商在软件产品的商业化尝试仍处于早期发展阶段,通过不同的方式实现货