数据领导者的ScalinggenAI技术指南 GeneAI的出现迫使数据和AI领导者重新审视他们的数据平台。现在移动的公司可以为数据驱动的未来做好准备。 本文是AsinTavakoli,CarloGiovine,JoeCaserta,JorgeMachado和KayvaunRowshankish以及JonBoorstein和NathanWestby的合作成果,代表了麦肯锡Digital和QuantumBlack的观点。 ©GettyImages 2024年7 月 数据和AI领导者在一年多的时间里,他们一直在狂热地研究生成人工智能(geerativeAI)用例。他们的经验让人们看到了一代人工智能的巨大价值,但也暴露了实现规模的各种挑战。管理数据仍然是GeAI创造价值的主要障碍之一。事实上,在麦肯锡最近的一项调查中,70%的顶尖员工表示,他们在将数据整合到人工智能模型中遇到了困难,包括数据质量问题、定义数据治理流程以及拥有足够的培训数据。1 根据我们的经验,组织对如何发展数据功能以大规模支持geerAI案例以及如何使用geerAI改善数据实践的理解仍然成熟。本文将涵盖数据和AI领导者可以考虑的三个行动,以帮助他们从新一代AI飞行员转向扩展数据解决方案。第一个重点是组织如何加强质量。以及他们的数据为GeneAI用例做好准备。第二部分研究组织如何使用GeneAI通过其现代化的数据平台构建更好的数据产品。第三部分探讨了实现重用和加速数据解决方案开发的关键数据管理考虑因素。 它从源头开始:改善您的数据 虽然数据质量长期以来一直是数据和AI领导者的重要关注点,但将不良数据提供给GenAI模型的风险和成本怎么强调都不为过,从糟糕的结果,昂贵的修复和网络漏洞到用户对输出的信任丧失。 事实上,麦肯锡的调查发现,63%的受访者(比2023年的调查高出7个百分点)表示,产出不准确是他们在组织使用GeneAI时看到的最大风险。2 确保数据质量的传统方法是不够的;领导者应该考虑 以下改进和扩展其源数据的方法。 从复杂数据类型获得更好、更准确的源数据 组织正在努力处理日益复杂的非结构化数据集。例如 ,银行可能希望同时查看结构化财务信息,例如交易历史,以及财务报表和市场分析,以确定公司客户的信誉。但是处理结构化和结构化的组合 非结构化数据通常会增加出错的机会,因为尽管内部团队和主题专家拥有相关知识,但他们通常很难将这些知识编成代码,以便可以轻松复制数据管道流程。 工具已经发展到处理不同类型和数据源之间的关系。例如,知识图可以帮助捕获实体之间的复杂关系,为大型语言模型(LLM)及其下游数据集提供有意义的上下文 。这些类型的功能使得更容易将数据点从非结构化数据准确映射到结构化数据。 即使数据工程师了解数据集之间的关系,他们仍然需要分配不同的方法来根据属性解释数据,例如数据格式(例如PDF、PowerPoit、Word或图像文件)。这是一个挑战,因为公司将格式集成到他们的系统中 ,这些系统变得越来越复杂。现在,多模式模型已经足够复杂,可以解析具有不同数据格式的更复杂类型的文档,例如从非结构化文档中提取表格数据。 虽然这些模型变得越来越容易使用,但它们仍然会出错(并且在某些情况下是昂贵的)。准确性问题需要不断审查,这通常仍然是手动的。 例如,一些数据工程师花了很多钱 1“2024年初的AI状况:GenAI的采用激增并开始产生价值”,麦肯锡,2024年5月30日。 2Ibid. 时间检查集成开发环境的两个屏幕以观察输出之间的差异。随着并发用例的增加,这种手动方法很快就达到了极限。数据领导者需要将资源集中在实施自动化评估方法、管理版本控制的机制和数据相关性评分上 增强多模态模型输出精度和一致性。 一家投资公司知道它需要改进数据访问和使用以实现虚拟助手。为了使用来自结构化和非结构化数据源的产品信息,它必须构建用于解析和处理非结构化数据的数据管道,确定每个文档的最新版本,并为移动用户调整文章的长度。 该公司的数据工程师使用多模态模型功能将文档中的表格数据解析为结构化数据,并构建 徽章架构(用于组织支持模块化管道开发的数据的流行设计模式)。此外,他们引入了版本控制和相关性评分以提高输出准确性。因此,该公司能够在两周内通过生产级的genAI环境快速开始用例工作,例如尽职调查活动。 在数据不可用时创建数据一些传统的AI用例很难追求,因为所需的数据很难获得和处理,这通常是 医疗保健、生命科学或其他具有严格数据安全法规的部门。为了克服这些挑战,在某些情况下,数据工程师可以手动生成文件来测试用例的有效性。但是该过程可能耗时且效率低下。 相反,数据和AI领导者正在投资GeneralAI工具,以生成合成数据作为测试数据或完全基于新的价值 的列描述和上下文 表,允许他们创建新的数据集或对现有数据集进行修订。一些公司已经使用合成数据生成器来创建统计上相似的数据集。 利用GenAI加速构建可重用数据产品 数据产品,例如个人客户的360度视图,是公司如 何使用数据为业务大规模产生价值的基石。3Butsuchdataproductscanbedifficultandtime-consumingtodevelop.WithbetterdataandnewgenerAItools,however,companiesarefoundtheycanacceleratedevelopmentandimproveoutput.Forexample,onehospitalitialcompanyspreakedthe 客户领域数据模型的创建率高达60%,同时功能工程的生产率提高了50%。它 能够通过专注于在PySpark中自动生成端到端数据转换管道和发生的所有复杂转换的强大文档来达到这些标记。 转向端到端数据产品的创建 直到最近,可用的技术还将数据管道(如徽章架构)的创建限制在费力的 循序渐进的方法,虽然使用genai执行任务,例如通过自然语言生成单个表,可能会使数据工程师更高效 ,但工程师仍然必须完成一系列其他上下游步骤,例如合并所有表。 相反,数据和AI领导者开始采取端到端的方法来构建数据 通过自动化所有步骤,在某些情况下实现80%至90 %的时间节省,并增强了特定用例的可扩展性。 传统上,编写数据管道代码以生成数据产品一直是最 3VeeralDesai,TimFountaine和KayvaunRowshankish,“如何解锁数据的全部价值?像产品一样管理它”,麦肯锡,2022年6月14日。 数据工程师的耗时任务。我们现在看到了用SQL或Pytho等语言编写的数据管道的自动创建,以创建可以同时解决多个用例的整个模型。而不是着眼于适度的工作范围 ,例如从自然语言提示生成单个表,而是存在生成数十个表作为能够为多个用例提供解决方案的内聚目标数据模型的能力。 但是,在组织开始生成这些类型的功能之前,它需要确保其具有可信赖,易于理解和可用的数据。对于已经为许多 多年来,这个过程的一个重要因素是了解他们的遗留代码库和 现有数据。但是,由于数据沿袭或编目不佳,许多公司都在苦苦挣扎,导致对如何 他们的数据生成。作为回应,一些公司正在使用跨多个LLM的各种代理(代AI应用程序)来分析遗留代码库并生成自然语言文本描述。这种方法不仅提高了组织对其代码库的理解,而且还促进了数据目录功能的创建,简化了冗余代码段的识别和删除。 通过更好的编排和数据管理增强一致性 开发generAI应用程序需要一定程度的编排和模块化,以轻松重用特定功能。传统的持续集成/持续交付(CI /CD)方法通常无法胜任任务,因为由于介绍一代AI特定活动,如提示工程。 作为回应,一些数据和AI领导者正在使用基于代理的框架,这种结构促进了协作和协调 在多个世代AI代理之间。这些框架协调世代AI代理和复杂性 涉及缩放它们的使用(和重用)。基于代理的框架具有推理、代码执行、工具使用和规划能力以及增强的工作流管理。它们可以帮助解决与LLM相关的限制,例如流程管理挑战、交叉验证错误和端到端工作流设计约束。通过将这些代理整合到AI架构中,组织可以更好地管理复杂的任务,并提高整体性能、可靠性、价值和用户满意度。一些公司在面向消费者的聊天机器人或企业知识检索系统中采用基于代理的框架。 为了更好地管理其数据产品,许多公司正在转向一系列工具。有些正在使用现成的工具,尽管这些工具通常会遇到复杂场景的问题,例如从非结构化数据自动生成见解。使用GeeralAI增强数据目录的组织可以促进实时元数据标记,包括从结构化和非结构化内容自动生成元数据以及创建智能标记。这可以改善数据发现并帮助为GeeralAI模型选择适当的结构化和非结构化数据。 迁移和现代化数据产品 在开始使用GeeralAI功能(例如代码翻译)将数据产品及其基础管道从一个平台迁移到另一个平台之前,公司需要首先确定适合该工作的LLM。虽然许多组织使用其云服务提供商提供的LLM,但某些LLM在一组编码语言上的训练可能比在其他语言上更熟练。例如,一个LLM可能更适合为管道编写PySpar代码,而另一个在Terraform上更有效地将基础设施开发为代码。组织可以使用这些LLM来促进更平滑地迁移到使用PySpar或SQL的平台,但在某些情况下,根据编码语言或框架的不同 ,可能仍然需要微调模型。 通过了解将哪些LLM用于给定的编码语言以及如何跨语言自动化代码翻译,公司可以更好地将管道从大型机和已有的传统托管服务迁移到更现代的云资源。然而,确定合适的LLM可能需要额外的测试时间,数据和人工智能领导者应该在他们的项目路线图中考虑这些时间。 具有安全和编码标准的ScalegenAI 数据和人工智能领导者在管理和管理快速扩展的非结构化数据的使用方面面临着巨大的挑战。新一代人工智能模型和应用程序的激增不仅带来了风险,而且阻碍了扩展,因为团队最终经常使用不同的工具和方法,有时甚至是相互冲突的工具和方法。 通过在开发过程的每个阶段保护数据并自动化编码最佳实践的集成,公司可以降低风险并执行标准以扩展其代AI解决方案。 在每个步骤中保护数据 PDF,视频和音频文件等非结构化数据为GeneralAI 不一致的数据和AI领导者应该在数据管道中的每个检查点仔细构建一致、安全的访问控制和防护,从摄取到向量化到检索增强生成(RAG),再到generalAI模型的消费 。 将编码最佳实践集成到GeneralAI输出中 规模的一个关键特征是确保在工程数据时一致遵守批准的标准和最佳实践。这可以 当使用直接来自LLM的代码时,质量可能无法满足期望,因为,例如,代码缺乏组织上下文或不适合 组织使用的标准框架。为了帮助克服这些问题并提高数据质量,一些组织正在将编码最佳实践集成到所有传统AI生成的代码中。 另一种方法是使用genAI分析列值,根据现有规则确定合适的数据质量规则,然后将其无缝集成到管道生成过程中 。公司通常会有一组通用的数据产品数据质量规则,通常在不同用例中只有轻微的变化。 定义这些规则的组织-使用正确的参数来调整不同的情况 -可以开发genenAI解决方案,使他们能够自动将规则添加到其管道中。 模型提供了丰富的信息,但它们可以创建显着的安全 性 例如,必须将非结构化数据转换为genAI应用程序可以分析的格式,以了解上下文,然后生成有助于确定对数据的访问权限的元数据。 为了降低安全风险,一些数据和人工智能领导者正在设计能够自动保护数据的模块化管道。例如,提取PDF中包含多个页面的注释的收益表需要实施传统的基于角色的访问控制,包括在文本中隐藏相关句子 。因为generAI输出仍然经常 GenAI工具可用于加速数据产品和数据平台的开发并提高其性能。但是要有效地使用它们,公司将必须解决广泛的技术挑战。集中 在编排能力、自动化数据开发计划和提高可用性方面,数据和人工智能领导者将帮助他们的组织从新一代人工智能试点转向可驱动