行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

利用生成式人工智能增强数据提取

信息技术 2025-05-23 - 安永大熊

EY与Elastic合作：利用生成式AI增强数据提取

摘要

随着结构化数据库、非结构化文本和多媒体数据日益普及，组织在从复杂数据中提取有意义的洞察时面临重大挑战。传统搜索和检索方法已无法应对当今数据复杂性及海量数据。本文探讨了生成式AI（Gen AI）如何通过语言嵌入和来源定位增强检索策略，优化性能、速度和可扩展性，以有效应对这些挑战。研究聚焦金融服务业与环境、社会和治理（ESG）的交叉领域，具体分析从银行排放报告和季度报告中提取数据，并构建数据库，展示高级数据检索在金融服务领域的实际应用和优势。

引言

数据提取始终充满挑战，尤其是处理非结构化、不一致且大量数据时。传统方法依赖外部数据提供商或自建提取管道，成本高且更新不及时。Gen AI的出现改变了数据提取领域，可自动分析大量非结构化数据，显著提高准确性和速度。然而，Gen AI实施也面临新挑战，如LLM可能产生与上下文无关的虚假信息、成本和速度限制导致扩展性受限，以及现成LLM和搜索引擎难以根据需求设置。

当前状态和主要挑战

数据激增使传统数据提取和分析方法过时。这些遗留系统依赖手动关键词搜索和静态查询，难以应对当今庞大、动态和多样化的数据流。主要挑战包括：

关键词依赖：仅限于精确关键词匹配，无法捕捉语言 nuances 和语义变化。
静态查询：预定义查询缺乏灵活性，难以适应新数据类型。
可扩展性挑战：数据量和复杂性增长超出传统工具能力，导致搜索响应变慢。
非结构化数据复杂性：非结构化数据需要更高级的分析技术。
速度和容量障碍：传统架构难以应对数据速度和容量的快速增长。

Gen AI和检索策略

Gen AI驱动的先进检索系统通过语言嵌入和来源定位等技术，实现高效的数据搜索、存储和分析。这些系统可实时处理结构化、非结构化文本、数值和地理空间信息，支持复杂领域查询。检索系统管道包括：

向量存储：存储多种数据类型，包括非结构化文本、结构化数据和密集向量。
嵌入模型：如Elastic Learned Sparse EncodeR（ELSER），将自然语言转换为向量，强调上下文理解和用户意图。
排名模型：如Reciprocal Rank Fusion（RRF），结合多种搜索策略提高结果相关性。
相似性搜索：使用k-Nearest Neighbors（kNN）快速高效地查找相似文档。

用例实施评估

1. 从年度ESG报告中提取ESG变量

ESG报告是公司透明度和问责制的重要组成部分，但报告格式不一致、数据质量参差不齐，导致提取关键数据（如Scope 1、2、3排放）困难。EY解决方案利用Elastic RAG技术，通过语言嵌入和来源定位，实现高效、准确的ESG数据提取。与Naive RAG相比：

弹性RAG响应速度快3倍。
在上下文相关性和准确性方面均优于Naive RAG。
多种数据检索方法（如关键词过滤、混合检索）保持高准确性，证明系统鲁棒性和可扩展性。

2. 从财务报告中提取财务变量

从季度报告中提取40多个财务变量更具挑战性，因财务报告包含结构化表格数据，而LLM擅长处理文本数据。EY解决方案结合搜索能力和表格摘要技术，采用链式思维和验证过程提高准确性。混合检索系统（向量搜索+BM25）显著提升数据提取可靠性。2023年Q1财务报告测试显示，EY解决方案准确率提升近24%，优于传统RAG方法。

结论

生成式AI通过整合先进搜索技术与AI，显著提升复杂数据提取的准确性、速度和可扩展性，为金融服务行业树立新标准。这些解决方案不仅解决当前数据分析挑战，还为未来创新奠定基础，强调采用AI驱动策略以充分利用数据，支持更明智的决策。

摘要为了评估这些由生成式人工智能驱动的策略的有效性，我们将探讨金融服务与环境、社会和治理（ESG）之间的一个关键交叉点。我们将重点关注从非结构化文档中提取数据，例如银行的排放报告和季度报告，并从这些以前难以获取的数据点构建数据库，展示高级数据检索在金融服务领域的实际应用和好处。不同类型数据（包括结构化数据库、非结构化文本和多媒体）日益普及，给希望从复杂数据中获取有意义的洞察的组织带来了重大挑战。传统的搜索和检索方法日益不足以管理复杂性以及当今海量的数据。让我们看一下生成式人工智能（gen AI）如何通过语言嵌入和来源锚定来增强检索策略，重点在于优化性能、速度和可扩展性，以有效应对这些挑战。引言或者，组织必须建立自己的提取管道，这一举措伴随着自身的挑战。但随着生成式人工智能的出现，整个金融服务行业受到颠覆，导致数据提取领域发生了持久的变化。数据提取一直具有挑战性，尤其是在处理非结构化、不一致且显著大量的数据时。组织通常依赖外部数据提供商，这不仅成本高昂，而且不始终最新或实时。生成式人工智能可以自主分析并解释海量非结构化数据，以史无前例的准确性和速度，使用自然语言处理和机器学习算法。这些创新功能包括情境理解、模式识别和生成连贯的数据摘要，这显著减少了提取数据所需的时间和资源。已经尝试实施生成式AI解决方案的组织很快遇到了新的挑战，包括：让我们来看看可提供创新信息检索方法给金融服务领域的不同检索和语言模型策略。大型语言模型（LLMs）可能生成幻觉——脱离语境的响应——导致不可靠的结果。成本和速度限制可能会导致在广泛的数据源数据库上有限的可扩展性。开箱即用的LLMs和搜索引擎难以设置为最适合的参数当前状态及主要挑战近期数据可用性的激增使得传统的数据提取和分析方法过时了。这些遗留系统曾经依赖手动关键词搜索和静态查询，当面对今天广阔的时，挣扎动态的、多样化的数据流。这些挑战凸显了需要一种针对数据提取和分析的复杂解决方案。此类解决方案应设计为处理语言的复杂性、适应不断变化的数据类型，并根据日益增长的数据和复杂度。生人工智能和检索策略在整个管道中，该技术由EY的生成式人工智能专家开发，并由Elasticsearch提供支持1为了进行比较，我们将比较EY方法与简单检索管道之间的效率、成本和速度。由于分布式系统方法以及总体设计，EY的解决方案与Elastic的技术堆栈相比显示出卓越的性能。1Elasticsearch 是一个开源的分布式、RESTful 搜索和分析引擎，可扩展数据存储以及能够应对不断增长的使用场景的向量数据库。作为 Elastic Stack 的核心，它集中存储您的数据，以实现闪电般的搜索、精细调整的相关性以及易于扩展的强大分析能力。这些检索系统的管道是一个增强核心功能的工具集合。它将语言嵌入模型和源接地、数据转换和存储（包括向量）以及数据搜索和检索，全部整合在一个单一生态系统中。它还包括数据安全工具，并提供与其他软件的集成能力，包括各种数据源和LLMs。这种集成对于应对金融服务行业非常细致的挑战尤其有价值。使用由生成式人工智能（gen AI）赋能的高级检索系统，数据搜索、存储和分析的过程正在发生革命性变革。这些系统以其可扩展性和高性能为特点，擅长处理各种数据类型，包括结构化数据、非结构化文本、数值和地理空间信息。在这些系统中使用复杂的特定领域查询，能够进行复杂详尽的信息搜索，从而挖掘出深刻来自海量数据集的洞察。这些策略是用于日志和事件数据分析、全文搜索、安全情报、商业分析和运营情报等各种应用的积分。向量存储检索系统的端到端流程概述如下：生成式 AI 与检索策略（续）检索流程中的一个关键组件是向量存储，它本质上是一个能够处理多种数据类型的稳健数据存储系统。这包括非结构化文本、结构化数据，稠密向量（嵌入）。向量存储设计用于容纳嵌入模型转换前后的数据，使其成为管道中多功能的工具。嵌入模型这些检索系统通常采用嵌入模型，例如弹性学习稀疏编码器（ELSER）2，以促进检索模型为企业提供了执行精确的能力语义搜索。这些模型有助于将正常语言转换为检索系统理解的向量空间，强调对上下文和用户意图的理解，并超越传统关键词匹配的限制。利用由高质量问答对组成的丰富训练数据集，这些模型提高了查询和文档之间计算相似度的效率。这不仅提高了信息检索，同时也加快了索引处理，改善用户的搜索体验 2elser 是由 elastic 训练的检索模型，它支持语义搜索，允许解决方案检索更相关的搜索结果。这种搜索类型基于上下文含义和用户意图提供搜索结果，而不是精确的关键词匹配。3RRF是一种将具有不同相关性指标的多个结果集组合成一个结果集的方法。RRF不需要调整，不同的相关性指标无需相互关联即可获得高质量的结果。排名模型生成式 AI 与检索策略（续）排名模型，例如互惠排序融合（RRF）3,是检索流程的关键部分。这些模型结合了多种搜索策略的优势,以提高结果的相关性。通过合并来自各种查询和算法的结果,排名模型改进了对复杂文档的检索过程,使得在海量数据集中更容易找到相关信息。相似性搜索这个过程为处理复杂数据提供了强大的基础使企业能够更充分地利用其数据的潜力。结合解决方案工程和行业专业知识，它代表了一种变革性的方法，以应对数字时代数据分析的多方面挑战。在检索流程中使用k近邻（kNN）等方法，可以实现快速高效的相似度搜索。这些方法会在嵌入空间中找到与给定查询最“近”的文档。这对于识别具有相似模式或主题的文档特别有用，即使没有匹配到确切的关键词，也能实现更直观的搜索体验。检索系统管道中的组件能够增强搜索能力，理解用户意图，存储和检索复杂相似性搜索的最相关数据，并支持融合多种搜索策略以进一步优化搜索相关性。搜索引擎有效处理元数据并采用不同检索方法进行直观相似性搜索的能力，进一步突显其高效导航和解释复杂数据结构的能力。金融服务行业的ESG报告正变得至关重要公司透明度的组成部分问责制，体现企业对可持续和道德运营的承诺。这些报告为公司应对环境、社会和治理相关风险和机遇的方法提供了宝贵的见解。用例实施评估1.从年度ESG报告中提取ESG变量ey气候变化风险压力测试调查强调了组织在整合多样化的外部和内部数据源方面面临的挑战。不一致性在因此，ESG数据已成为投资者、监管机构和公众的一个关键指标，他们越来越将非-将其金融要素纳入其评估识别材料风险，并因其多样性和细微信息而发现增长潜力。报告格式和不同详细程度造成重大障碍，影响有效环境、社会和治理关键要素的索引和检索数据点，例如范围1、2和3的排放。这些挑战因数据差距、数据质量随时间的变化以及ESG平台缺乏适应性而加剧，这些平台难以跟上不断演变的监管环境。在这个案例研究中，我们的目标是从加拿大顶级公开的年度ESG报告中提取ESG变量银行。在完善ESG方面，关键目标数据提取包括实现高准确性和速度以支持关键财务和合规决策，帮助实现可扩展性以处理日益增长的环境、社会和治理（ESG）数据量及其复杂性，并保持灵活性以适应不断发展的报告标准和框架。图1：EY解决方案的工作流程1.从年度ESG报告中提取ESG变量用例实施评估（续） EY的解决方案，通过Elastic的先进技术增强，为这些挑战提供了一种复杂的解决方案。通过部署检索策略，打造出一个强大且上下文感知的解决方案，该方案不仅简化了从各种半结构化报告中提取数据的流程，还提供了必要的灵活性和可扩展性，以满足不断增长的数据需求和分析的严谨性。这种方法的优势是显著的。它通过提高准确性和速度来改进数据检索过程，增强了基于ESG指标派生的解决方案的灵活性和可扩展性，并加强了为明智的可持续商业实践奠定基础。图1 展示了通过将Elastic的堆栈与LLMs集成呈现的EY解决方案的工作流程，突出了我们建立了一个符合效率、灵活性、可扩展性以及为可持续商业战略提供可操作洞察力的ESG报告基准。检索增强生成（RAG）是一种创新的AI技术提高精度的用于复杂文档（如ESG报告）的信息检索，利用语言嵌入和基础来源。它通过分析PDF文档、索引和分块（即将文本分成更小的“块”）来实现这一点，确保全面分析和详细信息的可访问性在这样文档中，这能够精准识别和提取相关信息。一个限制是朴素rag的数据处理（索引和分块）可能会减慢检索速度。为了解决这个问题，采用优化的搜索技术可以通过改进索引策略来显著减少响应时间。提高数据效率通过复杂的算法和分布式计算进行检索。如图2所示，Elastic RAG比Naive RAG能将响应速度提高高达三倍，且不会影响性能。各种组件及其相互连接。对比：Elastic RAG 与 Naive RAG用例实现评估(续)1.从年度ESG报告中提取ESG变量图 2：处理时间比较：弹性 RAG 与朴素 RAG 将搜索技术与生成式AI融合，代表着该领域的重大进步，为从这些报告中提取数据提供了一种可扩展和精确的方法。这种方法不仅紧跟当前需求，而且具有前瞻性，将其定位为创新领域的领导者，并为未来ESG数据处理设定了高标准。rag图3和图4说明了弹性rag相对于基线朴素rag在五个加拿大银行在上下文相关性和准确性方面的对比分析。在这两个指标中，弹性rag始终优于朴素RAG。上下文相关性得分，它评估检索到的信息与查询上下文的匹配程度，在所有银行中，使用Elastic RAG都显著更高。同样，Elastic RAG实现了更高的准确率，表明它以更大的精确度检索到更多相关的数据。图5显示，各种数据检索方法，例如带关键词过滤（KF）的Elastic RAG和带关键词过滤的混合检索（向量搜索和BM25），始终保持着高准确率水平，这能有效应对数据量增长带来的挑战。这表明了系统的鲁棒性和适应性，带关键词过滤的Elastic RAG对于细化搜索尤其有效。搜索框架内不同搜索技术的整合确保了系统在处理更多ESG报告时保持高效和准确，证明可扩展性并未牺牲质量。 2. 从财务报表中提取金融变量用例实施评估（续）在金融分析领域，从季度报告中提取40多个金融变量是一项复杂的任务，而使用通常针对非结构化文本进行优化的LLM（大型语言模型）来分析金融报告中发现的表格数据则会进一步加剧这一挑战文件。这些报告包含填充了组织好的数据的表格。行和列，这为擅长处理文本数据但对表格的复杂关系和数字细微差别处理能力较弱的大型语言模型（LLMs）带来了独特的挑战。从这些报告中提取财务变量比ESG报告更具挑战性，因为它通常涉及更多的变量。与ESG数据提取相比，这代表了对数据复杂性的显著增加，使其成为一个特别艰巨的任务，原因是所呈现的财务信息不仅数量庞大而且错综复杂。EY在应对这些挑战时采用强大的搜索方法功能以及先进的表格汇总技术。这包括采用思维链和验证链过程来提高提取数据的准确性。借鉴ESG报告的经验，我们开发了一种混合检索系统，该系统结合了向量搜索和BM25算法，显著提高了数据提取过程的可靠性和精确性。图6：EY的财务变量提取解决方案用例实现评估(续)2. 从财务报表中提取金融变量图6说明了财务数据提取解决方案的工作流程。该流程从PDF分析开始。财务报表要准确捕获基于表格的数据。然后它将那些数据转换为更适用于大语言模型处理，使用复杂的提示技术以实现表格信息的完整解读。该解决方案包含一个双层检索机制。初始阶段涉及提取完整表格，在上下文线索的指导下，随后由大语言模型进行分析。采用了高级查询机制，包括一个混合查询引擎，它是高级搜索生态系统的一部分。 2. 从财务报表中提取金融变量用例实施评估（续）图7：EY解决方案在2023年第一季度补充财务报告中的表现图7展示了EY解决方案在2023年第一季度补充财务报告中的性能表现。总而言之，EY解决方案在准确率提升方面取得了显著进步，在一些实例中展现了与传统RAG相比近24%的准确率提升。方法。这一进步不仅优化了数据提取过程，而且提升了从财务报告中提取洞察力的质量，为财务数据分析领域的效率和稳健性设立了新标准结论生成式AI在革新金融服务领域的数据检索方面发

点击免费查看完整报告

利用生成式人工智能增强数据提取

EY与Elastic合作：利用生成式AI增强数据提取

摘要

引言

当前状态和主要挑战

Gen AI和检索策略

用例实施评估

1. 从年度ESG报告中提取ESG变量

2. 从财务报告中提取财务变量

结论

你可能感兴趣

利用生成式AI增强数据提取

Project Spectrum：利用生成式人工智能增强通货膨胀临近预报（英文）

利用aws和生成式人工智能解开客户情绪并更快地洞察

2024年利用生成式人工智能的价值：第二版：跨行业的顶级用例

2024利用生成式人工智能重塑并购市场：机遇当前研究报告

利用生成式人工智能获得成功

项目光谱：利用生成式人工智能强化通货膨胀临近预报

2024 生成式 AI Copilots 指南：关于务业如如何最大化利用生成式人工智能能

零售媒体网络战略：利用生成式人工智能解锁高利润收入

2024 年重振实业营调研报：利用生成式 AI 动业务激增、激增强战态势

利用生成式人工智能增强数据提取

你可能感兴趣

利用生成式AI增强数据提取

Project Spectrum：利用生成式人工智能增强通货膨胀临近预报（英文）

利用aws和生成式人工智能解开客户情绪并更快地洞察

2024年利用生成式人工智能的价值：第二版：跨行业的顶级用例

2024利用生成式人工智能重塑并购市场：机遇当前研究报告

利用生成式人工智能获得成功

项目光谱：利用生成式人工智能强化通货膨胀临近预报

2024 生成式 AI Copilots 指南 ： 关于务业如如何最大化利用生成式人工智能能

零售媒体网络战略：利用生成式人工智能解锁高利润收入

2024 年重振实业营调研报 ： 利用生成式 AI 动业务激增、激增强战态势

2024 生成式 AI Copilots 指南：关于务业如如何最大化利用生成式人工智能能

2024 年重振实业营调研报：利用生成式 AI 动业务激增、激增强战态势