您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[阿里云]:2024年GenAI技术落地白皮书 - 发现报告

2024年GenAI技术落地白皮书

2024-06-19-阿里云单***
AI智能总结
查看更多
2024年GenAI技术落地白皮书

GenAl技术落地白皮书 目录 Contents 核心观点 1.GenAI构建企业竞争新优势2 2.大模型的选择3 3.大模型的培育7 4.大模型的使用10 5.GenAI技术落地策略总结17 核心观点 生成式人工智能(Generative Artificial Intelligence,GenAl)即将迎来全面爆发,各行各业必须为此做好准备。本报告从企业视角出发,聚焦技术,阐述GenAI在企业落地时的关键考量点,提出了“选-育-用”方法论,覆盖了从模型和技术路线的选择,到如何培育适合企业的大模型,并将其广泛应用在企业流程实现全面创新的全生命周期,为企业规模化GenAI落地提供指导。核心观点如下: 1.企业应充分了解不同产品服务、技术解决方案背后的技术难度、成本及其能达到的效果,结合自身的技术实力、资金储备以及业务目标,作出合适的选择;特别是面向不同应用场景时,可以采取不同的产品服务模式而不必限于单一选择。 2.选:企业需要结合自身情况选择构建GenAI能力的技术路线:深度研发大模型,或者基于现有大模型进行工程化适配,或者直接使用大模型服务。后两条路线适合大多数企业,此时要做好大模型的选择,形成自己的大模型池。面对具体的应用场景,选择大模型的关键是在成本、效果和性能的“不可能三角”间进行权衡和取舍。 3.育:定制适应企业的大模型需要基于基础大模型进行工程化适配,按照技术难度从小到大和投入成本从少到多,主要包括提示词工程、检索增强生成和微调三种方式。其中,微调会改变部分大模型参数,微调后还可以通过知识蒸馏、剪枝、量化等手段“压缩”大模型达到灵活的适应性,需要较高的技术门槛。 4.用:广泛应用GenAI需要解决基础设施问题。相比传统的自建或租用数据中心方式,使用云基础设施或者采用云托管大模型的方式能够节约时间成本、降低现金流压力。企业可以通过Agent将大模型的能力与企业应用紧密集成,基于GenAIOps做好跨团队紧密协作、消除流程断点,从而加速GenAI应用上线,并根据效果及时更新。此外,需要始终关注GenAI应用的信任、风险和安全管理,构筑可信任的基石。 1.GenAI构建企业竞争新优势 GenAI是一种先进的人工智能技术,它能够基于已有的数据和知识生成全新的内容。这种技术的发展得益于深度学习、大数据和计算能力的发展,特别是大型语言模型(Large Language Models,LLMs)等基础模型的进步。GenAl将逐渐改变人们与机器交互的方式,为各行各业带来前所未有的创新机遇。 当前,GenAI正处于爆炸性增长阶段,ChatGPT的火爆更是印证了这一点,它展现了GenAl在交互性、实用性和创造性上的巨大潜力。工业界和学术界都在积极投入资源,探索如何利用GenAI实现经营提效、体验提升以及业务创新。市场上涌现出各种基于GenAI的应用,比如自助式数据分析、定制化内容创作、个性化推荐、自动化客户服务以及辅助设计与研发等。与此同成为各界广泛关注的问题。 打造GenAI能力,已经成为企业全面迈向智能化、构建市场竞争优势的必然选择。GenAI可以推动产品创新,通过快速生成设计和创意,加速产品开发流程;提升成本效益,利用自动化内容生成,将人力从重复性工作中解放出来,更专注于发挥创造力;降低数据分析的门槛,人人都成为数据分析师,从而实现科学决策,为企业提供精准的决策支持;改善用户体验,根据用户行为和偏好,实现高度个性化的产品和服务;基于GenAI能力打造AI原生应用,带来颠覆性的体验和价值。 企业构建GenAI能力,是一个涉及战略、组织、文化和技术等多个维度的综合问题。本研究将聚焦技术层面,分析GenAI在企业业务场景中全面落地的关键考量因素,提出“选-育-用”的GenAI落地方法论,从选择技术路线和基础模型入手,培育好适合企业的定制化大模型,并将其高效、安全地应用在企业的方方面面,从而助力企业充分发挥GenAI能力,构建独一无二的竞争优势,带来可观的商业价值。 2.大模型的选择 2022年11月30日ChatGPT的面世,拉开了GenAI发展的新篇章。短时间内,GenAI取得了日新月异的发展,目前市面上已经出现众多各具特色的产品服务:产品门类繁多一一有适合多种通用任务的基础大模型,还有各类适应特定行业或场景的行业大模型和场景大模型;服务模式多样一既可以像私有云一样本地化部署,还可以如公共云那般按用量付费,甚至能够类似混合云那样博采众长、多措并举。 面对如此众多的市场选择,企业应当如何确定最适合自己的GenAI服务呢?我们建议,企业首先根据自身的业务需求和成本预算来选择技术路线,然后权衡模型的效果、性能等因素选择合适的大模型。特别是当企业在面向多个业务场景需求时,可以不局限于单一大模型产品服务甚至技术路线,而是根据不同场景的特殊需求和市场上相应产品服务的成熟性和契合度,分别选择最合适的产品服务。 大模型技术路线2.1 企业使用大模型服务的技术路线,主要包括深度研发大模型、基于现有基础大模型进行工程化适配、直接使用大模型服务三种。 1深度研发大模型 深度研发大模型,是指企业从0到1完全自主研发或者基于开源模型做深度定制得到大模型。这一过程涵盖模型设计、数据准备、环境准备、模型训练、模型评估和优化等多个阶段。 深度研发大模型可以针对企业的具体场景需求进行优化设计,理论上可以更为聚焦地解决特定问题,从而拥有更好的表现。企业在研发过程中掌握充分的模型技术细节,拥有较高的自主性,从而不受外部供应商的限制。 线应用的时间跨度长达数月甚至以年计,并且需要持续投入,以确保在快速的技术迭代中不掉队。由于技术体系复杂、研发难度大,企业可能面临模型性能不理想、项目延期或失败等风险。 总体而言,深度研发大模型是成本最高、难度最大、周期最长的一条技术路径,除非是拥有高密度AI人才、资金充足的企业,否则并不推荐。 2基于现有基础大模型进行工程化适配 基于现有基础大模型进行工程化适配,是指企业在已有的大模型基础上,针对具体应用场景进行的技术调整和优化工作,以更好地适应企业场景。这一过程不仅涉及技术上的适配,还需要综合考量成本、性能、安全、可维护性等因素。对于用户来说,常用的工程化适配方式包括提示词工程(PromptEngineering)、检索增强生成(Retrieval-AugmentedGeneration,RAG)和模型微调(Fine-tuning)。企业还可以通过知识蒸馏、剪枝、量化等手段减少大模型的参数规模,降低推理的计算量,提高大模型的响应速度。 选取这一技术路线无需为基础大模型的训练付费,从而显著减少开发成本;同时可以优化大模型在特定任务领域的输出,在特定任务上得到更好效果的预期较高。该路线尽管有一定的技术门槛,但不算太高,经过一定培训的技术人员即可掌握,因此适合于几乎所有的企业用户。特别是当市面上现有的大模型产品和服务无法直接满足企业的特定需求时,基于现有基础大模型进行工程化适配几乎成为企业的必然选择。 3直接使用大模型服务 企业还可以直接采购已经训练好的大模型来解决业务问题。一些模型服务商提供将自家模型部署在客户环境的能力,更多模型服务商和云平台合作,采用云托管的方式,这种方式随用随取,按需使用,进一步降低了使用大模型的门槛。 直接使用大模型服务无需投入大量资源,有效降低使用成本。企业不需要深入了解技术细节,业务团队可以快速上手,直接将大模型集成到现有系统中,迅速享受到大模型的红利。部分第三方服务提供商针对市场规模较大的行业或通用性较强的业务场景推出了特定领域的专用大模型产品,例如在智能客服、信息检索、代码生成等领域,这进一步提升了大模型的使用效果和用户体验。直接使用大模型服务的方式适合于大多数企业,特别是成本预算有限、技术能力欠缺的中小微企业。另外,随看基础模型能力的不断提升,以及该方式可以与提示词工程、RAG等工程化适配方法相结合,使得云端API调用的方式被越来越多的企业重视 2.2基础大模型的选择 在企业构建GenAI能力的三条技术路线中,除了不适用于多数企业的深度研发,无论是对基础大模型进行工程化适配,还是大模型的直接使用,其中最关键的环节就是基础大模型的选择。在这一过程中,需要综合考量各种因素,包括企业的业务场景需求、成本预算、员工技术水平,模型的生成质量、泛化能力、响应速度等,但本质上,选择大模型服务的关键是在成本、效果和性能构成的“不可能三角间进行权衡和取舍。 ·成本指的是企业大模型落地的整体费用,包括大模型的训练成本、推理成本以及部署、运维和升级成本等。企业有时仅关注有形成本:例如GPU购置费用、消耗的电费,或从第三方服务商购买模型服务的费用;而会忽略无形成本:包括为实现大模型服务而配置的人力成本,以及大模型在部署、训练或调试阶段消耗的时间成本等。企业在核算成本时,需要考量总持有成本,特别是不要忽略无形成本。按成本从高到低,一般为深度研发大模型、微调、RAG、提示词工程、直接调用。 ·效果指的是大模型生成内容的质量,包括内容的准确性,是否存在幻觉问题,或是否会生成不合适的内容。大模型效果可以基于“3H原则进行评价:1)Helpful:内容可用有帮助,不要废话连篇、泛泛而谈;2)Harmless:内容合规无害处,符合伦理规范和监管要求;3)Honest:内容正确无幻觉,不要一本正经地胡说八道,甚至给出错误信息。通常来说,大模型的参数规模越大,生成效果越好。因此,当业务需求对生成内容质量要求严苛时,应尽量选择参数规模更大的模型。此外,目前市场上主流商业化模型的效果,大多优于同期同参数规模的开源模型。 ·性能指的是大模型服务的速度,包括大模型的训练速度,推理时的响应速度、生成速度等。一般而言,大模型的参数规模越大,则需要的训练时间越长,即训练速度越慢,而其进行推理服务时的需求响应速度和内容生成速度也越慢。因此,大模型的效果和性能不可兼得,当成本固定时,大模型的选择主要是在效果和性能之间进行平衡和取舍。对于性能要求较高而对效果有一定容忍度的场景,可以选择参数规模相对较小的大模型。 基础大模型的选择是个综合性任务,除了做好成本、效果、性能“不可能三角”的权衡,还需要同时考虑一系列其他因素:例如集成难度,即模型服务与现有系统的集成复杂度及其所需的技术投入;技术友好性,即技术人员的学习和使用难度;模型扩展性,即模型的更新、升级频率和向下兼容性;模型生态,包括模型系列的参数尺寸全面性及其背后的工具生态系统和合作伙伴网络等;服务商可靠性,包括服务商的口碑声誉、技术实力和服务能力以及客户成功案例等。这其中,企业需要格外注意大模型服务的合规性与安全性,以免影响业务的正常开展甚至造成企业数据的泄露。在国内,提供基础大模型服务的供应商除了需要遵守数据安全相关法规,还需要完成生成式人工智能的算法备案和服务备案。 3.大模型的培育 在大模型的三条主要技术路线中,基于现有大模型进行工程化适配是最受企业关注的一条路线:它在成本方面与直接使用大模型相持平,有一定的技术门槛但总体上难度不大,同时能够解决基础大模型或行业大模型不能实现的一些业务特殊需求。工程化适配按技术难度从小到大和成本从低到高,主要包括提示词工程、检索增强生成和微调三种方式。 提示词工程 提示词工程,是指通过精心设置提示词(Prompt),引导模型生成更准确、更有用的输出。 提示词工程的关键是清晰、明确地表达用户的意图,需要确保提示词直接、具体,减少歧义,让模型能够准确捕捉到问题的核心。因此,通常采用包括指令、上下文和期望输出格式的提示词结构,特别是可以根据模型擅长处理的格式来设计提示词模板(Prompt Template),并通过试验找到最优的提示词组合。 提示词工程能够在不修改或重新训练大模型的情况下,引导模型更加精准地完成任务,从而有效控制成本。良好的提示词设计能够显著提升模型的输出质量,使得模型效果更贴近用户期待。但同时,提示词工程高度依赖用户经验,优秀的提示词需要对领域知识和模型特