行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

数据领导者的 Scaling gen AI 技术指南

信息技术 2024-07-08 麦肯锡大王雪

指导数据与人工智能领导者实现大规模生成式AI（Gen AI）的关键行动

强化数据质量和准备度

改善和扩展源头数据：确保从复杂数据类型获取更高质量和准确的数据，包括结构化和非结构化数据。通过知识图谱等工具捕捉实体间复杂关系，为大型语言模型（LLMs）及其下游数据集提供有意义的上下文。
处理不同数据类型和来源之间的关系：采用多模态模型解析不同文档格式中的复杂文档，如从非结构化文档提取表格数据。虽然这类模型正在变得更容易使用，但准确性问题仍需持续关注，并通过自动化评估方法、版本管理机制和数据相关性评分来增强输出准确性。

创造不可用数据

在数据难以获取的情况下生成数据：对于某些难以获取和处理的数据驱动型应用，数据工程师可以通过手动生成文件测试用例的有效性。然而，这种方法耗时且效率低下。相反，投资于生成合成数据作为测试数据或基于列描述和上下文产生新值的Gen AI工具，可以帮助创建统计上相似的数据集或对现有数据集进行修订。

加速构建可重用的数据产品

利用Gen AI加速数据产品的开发：通过更好的数据和新的Gen AI工具，企业能够加速数据产品的开发并改进输出结果。例如，某酒店公司通过自动生成端到端的数据转换管道（如PySpark）和详细记录所有复杂转换，将客户领域数据模型的创建速度提高了60%，同时将特征工程生产力提高了50%。
采取端到端的方法构建数据管道：转向全面构建数据管道的方法，通过自动化所有步骤，可以实现高达80%至90%的时间节省，并为特定用例提供增强的可扩展性。这包括在SQL或Python等语言中编写数据管道代码，以生成能够解决多个用例的整个模型。

提升一致性：优化协调和数据管理

确保数据质量：确保数据源可靠、易于理解和可用，对于长期构建数据资产的公司来说至关重要。通过使用各种代理（Gen AI应用程序）跨多个LLM分析遗留代码库并生成自然语言文本描述，可以改善组织对其代码库的理解，简化识别和删除冗余代码段的过程。通过优化数据流程的协调和管理，增强数据的一致性和可重复性。

这些策略旨在帮助数据和AI领导者从Gen AI试点项目过渡到规模化数据解决方案，通过改进数据质量、利用Gen AI生成数据和加速构建可重用的数据产品，以及提升数据管理的一致性，为企业实现数据驱动的未来奠定坚实基础。

Gene AI的出现迫使数据和AI领导者重新审视他们的数据平台。现在移动的公司可以为数据驱动的未来做好准备。本文是Asin Tavakoli，Carlo Giovine，Joe Caserta，Jorge Machado和Kayvaun Rowshankish以及JonBoorstein和Nathan Westby的合作成果，代表了麦肯锡Digital和QuantumBlack的观点。 2024年7月数据和AI领导者在一年多的时间里，他们一直在狂热地研究生成人工智能(geerativeAI)用例。他们的经验让人们看到了一代人工智能的巨大价值，但也暴露了实现规模的各种挑战。管理数据仍然是GeAI创造价值的主要障碍之一。事实上，在麦肯锡最近的一项调查中，70%的顶尖员工表示，他们在将数据整合到人工智能模型中遇到了困难，包括数据质量问题、定义数据治理流程以及拥有足够的培训数据。1 以下改进和扩展其源数据的方法。从复杂数据类型获得更好、更准确的源数据组织正在努力处理日益复杂的非结构化数据集。例如，银行可能希望同时查看结构化财务信息，例如交易历史，以及财务报表和市场分析，以确定公司客户的信誉。但是处理结构化和结构化的组合非结构化数据通常会增加出错的机会，因为尽管内部团队和主题专家拥有相关知识，但他们通常很难将这些知识编成代码，以便可以轻松复制数据管道流程。根据我们的经验，组织对如何发展数据功能以大规模支持geer AI案例以及如何使用geer AI改善数据实践的理解仍然成熟。本文将涵盖数据和AI领导者可以考虑的三个行动，以帮助他们从新一代AI飞行员转向扩展数据解决方案。第一个重点是组织如何加强质量。以及他们的数据为Gene AI用例做好准备。第二部分研究组织如何使用Gene AI通过其现代化的数据平台构建更好的数据产品。第三部分探讨了实现重用和加速数据解决方案开发的关键数据管理考虑因素。工具已经发展到处理不同类型和数据源之间的关系。例如，知识图可以帮助捕获实体之间的复杂关系，为大型语言模型(LLM)及其下游数据集提供有意义的上下文。这些类型的功能使得更容易将数据点从非结构化数据准确映射到结构化数据。即使数据工程师了解数据集之间的关系，他们仍然需要分配不同的方法来根据属性解释数据，例如数据格式（例如PDF、PowerPoit、Word或图像文件）。这是一个挑战，因为公司将格式集成到他们的系统中，这些系统变得越来越复杂。现在，多模式模型已经足够复杂，可以解析具有不同数据格式的更复杂类型的文档，例如从非结构化文档中提取表格数据。它从源头开始：改善您的数据虽然数据质量长期以来一直是数据和AI领导者的重要关注点，但将不良数据提供给Gen AI模型的风险和成本怎么强调都不为过，从糟糕的结果，昂贵的修复和网络漏洞到用户对输出的信任丧失。事实上，麦肯锡的调查发现，63%的受访者(比2023年的调查高出7个百分点)表示，产出不准确是他们在组织使用Gene AI时看到的最大风险。2 虽然这些模型变得越来越容易使用，但它们仍然会出错（并且在某些情况下是昂贵的）。准确性问题需要不断审查，这通常仍然是手动的。例如，一些数据工程师花了很多钱确保数据质量的传统方法是不够的；领导者应该考虑表，允许他们创建新的数据集或对现有数据集进行修订。一些公司已经使用合成数据生成器来创建统计上相似的数据集。时间检查集成开发环境的两个屏幕以观察输出之间的差异。随着并发用例的增加，这种手动方法很快就达到了极限。数据领导者需要将资源集中在实施自动化评估方法、管理版本控制的机制和数据相关性评分上增强多模态模型输出精度和一致性。利用GenAI加速构建可重用数据产品数据产品，例如个人客户的360度视图，是公司如何使用数据为业务大规模产生价值的基石。3Butsuchdataproductscanbedifficultandtime-consumingtodevelop.WithbetterdataandnewgenerAItools,however,companiesarefoundtheycanacceleratedevelopmentandimproveoutput.Forexample,onehospitalitialcompanyspreakedthe 一家投资公司知道它需要改进数据访问和使用以实现虚拟助手。为了使用来自结构化和非结构化数据源的产品信息，它必须构建用于解析和处理非结构化数据的数据管道，确定每个文档的最新版本，并为移动用户调整文章的长度。该公司的数据工程师使用多模态模型功能将文档中的表格数据解析为结构化数据，并构建徽章架构（用于组织支持模块化管道开发的数据的流行设计模式）。此外，他们引入了版本控制和相关性评分以提高输出准确性。因此，该公司能够在两周内通过生产级的gen AI环境快速开始用例工作，例如尽职调查活动。客户领域数据模型的创建率高达60%，同时功能工程的生产率提高了50%。它能够通过专注于在PySpark中自动生成端到端数据转换管道和发生的所有复杂转换的强大文档来达到这些标记。转向端到端数据产品的创建在数据不可用时创建数据一些传统的AI用例很难追求，因为所需的数据很难获得和处理，这通常是医疗保健、生命科学或其他具有严格数据安全法规的部门。为了克服这些挑战，在某些情况下，数据工程师可以手动生成文件来测试用例的有效性。但是该过程可能耗时且效率低下。直到最近，可用的技术还将数据管道(如徽章架构)的创建限制在费力的循序渐进的方法，虽然使用genai执行任务，例如通过自然语言生成单个表，可能会使数据工程师更高效，但工程师仍然必须完成一系列其他上下游步骤，例如合并所有表。相反，数据和AI领导者正在投资General AI工具，以生成合成数据作为测试数据或完全基于新的价值的列描述和上下文相反，数据和AI领导者开始采取端到端的方法来构建数据通过自动化所有步骤，在某些情况下实现80％至90％的时间节省，并增强了特定用例的可扩展性。传统上，编写数据管道代码以生成数据产品一直是最涉及缩放它们的使用(和重用)。基于代理的框架具有推理、代码执行、工具使用和规划能力以及增强的工作流管理。它们可以帮助解决与LLM相关的限制，例如流程管理挑战、交叉验证错误和端到端工作流设计约束。通过将这些代理整合到AI架构中，组织可以更好地管理复杂的任务，并提高整体性能、可靠性、价值和用户满意度。一些公司在面向消费者的聊天机器人或企业知识检索系统中采用基于代理的框架。数据工程师的耗时任务。我们现在看到了用SQL或Pytho等语言编写的数据管道的自动创建，以创建可以同时解决多个用例的整个模型。而不是着眼于适度的工作范围，例如从自然语言提示生成单个表，而是存在生成数十个表作为能够为多个用例提供解决方案的内聚目标数据模型的能力。但是，在组织开始生成这些类型的功能之前，它需要确保其具有可信赖，易于理解和可用的数据。对于已经为许多多年来，这个过程的一个重要因素是了解他们的遗留代码库和现有数据。但是，由于数据沿袭或编目不佳，许多公司都在苦苦挣扎，导致对如何他们的数据生成。作为回应，一些公司正在使用跨多个LLM的各种代理（代AI应用程序）来分析遗留代码库并生成自然语言文本描述。这种方法不仅提高了组织对其代码库的理解，而且还促进了数据目录功能的创建，简化了冗余代码段的识别和删除。为了更好地管理其数据产品，许多公司正在转向一系列工具。有些正在使用现成的工具，尽管这些工具通常会遇到复杂场景的问题，例如从非结构化数据自动生成见解。使用Geeral AI增强数据目录的组织可以促进实时元数据标记，包括从结构化和非结构化内容自动生成元数据以及创建智能标记。这可以改善数据发现并帮助为Geeral AI模型选择适当的结构化和非结构化数据。迁移和现代化数据产品在开始使用Geeral AI功能（例如代码翻译）将数据产品及其基础管道从一个平台迁移到另一个平台之前，公司需要首先确定适合该工作的LLM。虽然许多组织使用其云服务提供商提供的LLM，但某些LLM在一组编码语言上的训练可能比在其他语言上更熟练。例如，一个LLM可能更适合为管道编写PySpar代码，而另一个在Terraform上更有效地将基础设施开发为代码。组织可以使用这些LLM来促进更平滑地迁移到使用PySpar或SQL的平台，但在某些情况下，根据编码语言或框架的不同，可能仍然需要微调模型。通过更好的编排和数据管理增强一致性开发gener AI应用程序需要一定程度的编排和模块化，以轻松重用特定功能。传统的持续集成/持续交付（CI/ CD）方法通常无法胜任任务，因为由于介绍一代AI特定活动，如提示工程。作为回应，一些数据和AI领导者正在使用基于代理的框架，这种结构促进了协作和协调在多个世代AI代理之间。这些框架协调世代AI代理和复杂性通过了解将哪些LLM用于给定的编码语言以及如何跨语言自动化代码翻译，公司可以更好地将管道从大型机和已有的传统托管服务迁移到更现代的云资源。然而，确定合适的LLM可能需要额外的测试时间，数据和人工智能领导者应该在他们的项目路线图中考虑这些时间。不一致的数据和AI领导者应该在数据管道中的每个检查点仔细构建一致、安全的访问控制和防护，从摄取到向量化到检索增强生成(RAG)，再到general AI模型的消费。将编码最佳实践集成到GeneralAI输出中规模的一个关键特征是确保在工程数据时一致遵守批准的标准和最佳实践。这可以当使用直接来自LLM的代码时，质量可能无法满足期望，因为，例如，代码缺乏组织上下文或不适合组织使用的标准框架。为了帮助克服这些问题并提高数据质量，一些组织正在将编码最佳实践集成到所有传统AI生成的代码中。具有安全和编码标准的ScalegenAI 数据和人工智能领导者在管理和管理快速扩展的非结构化数据的使用方面面临着巨大的挑战。新一代人工智能模型和应用程序的激增不仅带来了风险，而且阻碍了扩展，因为团队最终经常使用不同的工具和方法，有时甚至是相互冲突的工具和方法。另一种方法是使用gen AI分析列值，根据现有规则确定合适的数据质量规则，然后将其无缝集成到管道生成过程中。公司通常会有一组通用的数据产品数据质量规则，通常在不同用例中只有轻微的变化。通过在开发过程的每个阶段保护数据并自动化编码最佳实践的集成，公司可以降低风险并执行标准以扩展其代AI解决方案。定义这些规则的组织-使用正确的参数来调整不同的情况-可以开发genen AI解决方案，使他们能够自动将规则添加到其管道中。在每个步骤中保护数据 PDF，视频和音频文件等非结构化数据为General AI模型提供了丰富的信息，但它们可以创建显着的安全性例如，必须将非结构化数据转换为gen AI应用程序可以分析的格式，以了解上下文，然后生成有助于确定对数据的访问权限的元数据。 Gen AI工具可用于加速数据产品和数据平台的开发并提高其性能。但是要有效地使用它们，公司将必须解决广泛的技术挑战。集中在编排能力、自动化数据开发计划和提高可用性方面，数据和人工智能领导者将帮助他们的组织从新一代人工智能试点转向可驱动真正价值的扩展解决方案。为了降低安全风险，一些数据和人工智能领导者正在设计能够自动保护数据的模块化管道。例如，提取PDF中包含多个页面的注释的收益表需要实施传统的基于角色的访问控制，包括在文本中隐藏相关句子。因为gener AI输出仍然经常 Asin Tavakoli是麦肯锡杜塞尔多夫办事处的合伙人；Carlo Giovine是伦敦办事处的合伙人；乔·卡塞塔and豪尔赫·马查多是纽约办公室的合伙人Kayvaun Rowshankish是高级合伙人；Jon Boorstein是丹佛办事处的解决方案架构师；以及内森·韦斯特比是芝加哥办公室的数据策略师. 作者希望感谢Bryan Pe

点击免费查看完整报告

数据领导者的 Scaling gen AI 技术指南

指导数据与人工智能领导者实现大规模生成式AI（Gen AI）的关键行动

强化数据质量和准备度

创造不可用数据

加速构建可重用的数据产品

提升一致性：优化协调和数据管理

你可能感兴趣

2024 年收入部门利用 Gen AI 科技术推动可保持续发展目标(SDGs) 实现：行动战略、案例研究及风风险管理指南报

如何利用容器加速 AI 创新：技术领导者指南

llms和gen ai：业务转型的有效技术

Gen AI ： CFO 指南

打造成功的Gen AI数据驱动型企业

AI PC转型的领导者指南

前沿者的AI扩展指南：来自行业领导者的经验教训

以人工智能获胜：业务领导者从战略到执行的AI指南—— IMD playbook

用准确可靠的合成数据改进Gen AI模型

IT 领导者针对新威胁的数据保护指南

数据领导者的 Scaling gen AI 技术指南

你可能感兴趣

2024 年收入部门利用 Gen AI 科技术推动可保持续发展目标(SDGs) 实现 ： 行动战略、案例研究及风风险管理指南报

如何利用容器加速 AI 创新：技术领导者指南

llms和gen ai：业务转型的有效技术

Gen AI ： CFO 指南

打造成功的Gen AI数据驱动型企业

AI PC转型的领导者指南

前沿者的AI扩展指南：来自行业领导者的经验教训

以人工智能获胜：业务领导者从战略到执行的AI指南—— IMD playbook

用准确可靠的合成数据改进Gen AI模型

IT 领导者针对新威胁的数据保护指南

2024 年收入部门利用 Gen AI 科技术推动可保持续发展目标(SDGs) 实现：行动战略、案例研究及风风险管理指南报