行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

Textln文档解析与向量化技术加速大模型RAG应用落地

信息技术 2024-10-28 常扬 AiCon silence @^^@💗

RAG技术方案与实践总结

01 RAG背景与问题

RAG技术定位：检索增强生成（Retrieval Augmented Generation）技术，通过检索外部文档提升生成结果质量，是当前大模型应用的关键技术。
大模型应用四大问题：知识数据来源、文档解析、召回结果排序、应用效果。
RAG标准技术流程：文档解析 -> 向量化 -> 生成。
RAG核心问题：文档解析错误、召回排序困难、应用效果不佳。
优化目标：快速、稳定、精准解析文档；高精度、高效率向量检索。
关键点：用最好的模型确定市场需求，避免仅考虑技术；理解技术边界，深度理解业务需求。

02 文档解析技术方案

文档类型：有标记文档（如Markdown）和无标记文档（如PDF、扫描图像）。
解析挑战：PDF文档的非结构化特性导致解析困难，如版式复杂、元素遮盖等。
现有库问题：基于规则或深度学习的开源库存在可用性低、精度不足等问题。
TextIn文档解析：通过物理版面分析和逻辑版面分析，实现更稳、准、快的解析效果。
- 算法框架：物理版面分析（目标检测模型）和逻辑版面分析（Transformer架构）。
- 开源效果：排名第一的版面解析评价基准，工程性能优异。
- 技术特色：支持电子档和扫描件，解决多版式文档解析难题。

03 向量化技术方案

向量化原理：将文本数据转化为向量，利用计算机高效计算文本相似性。
向量模型作用：向量化文档块和问题，召回高相似度文档块，动态更新向量库。
评测标准：MTEB/C-MTEB（覆盖8类任务，58个数据集）。
acge_text_embedding模型：中文榜单第一名，技术特色包括：
- 资源占用少：模型较小，输入长度1024，满足多数场景。
- 可变嵌入维度：采用Matryoshka Representation Learning技术，根据场景调整计算和存储消耗。
- 高精度、高效率：通过对比学习、数据挖掘、多任务混合训练等技术提升模型性能。

04 实际场景产品实践

开放域信息抽取产品：从文本/多文档/票据图像中抽取关键信息，支持三种抽取模式。
分析师知识问答产品：
- 场景：企业财报、金融文档知识库、多文档问答等。
- 价值：提高阅读效率，挖掘文档价值，规避大模型幻觉。
- 系统架构：基于RAG技术，实现知识问答功能。
RAG应用目标：打造可用、好用的技术与产品，理解技术边界，深度理解业务需求。

演讲人：常扬目录 01RAG背景与问题 02文档解析技术方案 04实际场景产品实践 03向量化技术方案 RAG背景与问题01 RAG技术定位大模型应用的四大问题 RAG（Retrieval Augmented Generation）检索增强生成技术，利用检索外部文档提升生成结果质量 LLM应用知识数据来源 RAG标准技术流程 RAG问题：一周快速出Demo，半年产品不好用文档解析问题 LLM RAG产品如何快速达到可用、好用，开始增长？ MVP最小可用产品->PMF产品满足市场需求 PMF：Product Market Fit产品和市场达到最佳契合点，产品满足市场的需求，令客户满意，这是创业成功的第一步，业务增长的起点。大模型RAG项目落地关键点用最好的模型确定产品有市场需求确定技术可以满足避免仅考虑技术业务优先，价值第一AI产品最大失败原因考虑产品壁垒用户/业务壁垒如何抵抗复制理解技术边界避免过于乐观、悲观寻找适合技术的场景深度理解业务用户需求是关键技术来服务业务 RAG本质问题细节文档存在太多Corner Case 文档内容解析出错召回结果排序困难 RAG优化目标一：快速、稳定、精准解析文档大语言模型（LLM）驱动的检索增强生成（RAG）技术中确保能够从源文档中快速、精准地提取内容，对于提高最终输出的质量至关重要。在实际工作场景中，非结构化数据远比结构化数据丰富。但如果这些海量数据不能被解析，其巨大价值将无法发掘，其中PDF文档尤为突出。 RAG优化目标二：高精度、高效率向量检索大语言模型（LLM）驱动的检索增强生成（RAG）技术中嵌入式模型的作用是确保能够从源文档中快速、精准地提取内容。高效的处理能力是实现快速响应用户查询的关键，识别并提取与用户查询高度相关的文档片段，从而生成更准确、更相关的输出。研究方向：文档解析技术与向量化技术 TextIn通用文档解析 acge_text_embedding向量化模型将任意格式、版式的文档（图片、PDF、Doc/Docx等）高效、精准解析为Markdown格式，开源版面解析评价基准，排名第一在CMTEB文本嵌入基准上对6个任务的中文综合评估超越其他模型，排名第一 TextIn通用文档解析02 计算机视角下两种类型的文档有标记文档无标记文档扫描文档图像计算机视角下无标记的文档：计算机视角下有标记的文档： #有标记文档MarkDown示例##第一部分###子标题|表格列1 |表格列2|表格列3||-------|-------|-------|正文：有标记的文档指的是可以直接用计算机处理，结构化文档 %PDF-1.04 0 obj <>stream 1. 0. 0. 1. 50. 700. cmBT /F0 36. Tf (Hello, World!) TjET endstreamendobj PDF文件格式显示不受设备、软件或系统的影响 PDF文件：一系列显示打印指令的集合，非数据结构化格式。 PDF(Portable Document Format便携式文档格式)，独立于应用程序、硬件和操作系统呈现文档的文件格式，能够完全保留原文档的格式。非结构化文档、不具备可编辑性文本的位置、字体、间距、缩放比例、页边距等所有属性在文件格式中限定死，让软件没有自由发挥的空间。解析PDF文档的挑战、让计算机可以获得PDF信息准确提取整个页面的布局，并将所有内容（包括表格、标题、文本段落和图像）转化为结构化数据形式。 MarkDown文件格式 MarkDown文件：关注内容而非打印格式，表示文档元素。 “优雅、简约、统一”表达多种形式的数据被互联网世界接受，充斥在各种数据中可以被大模型所理解文档多版式示例多栏的影响文档解析典型技术难点复杂版式：双栏、跨页、三栏合并单元格识别表格内公式元素遮盖重叠元素本身有多样性无线表格识别单行公式与行内公式页眉形式1 4 6 文档解析库尚未解决的问题基于规则的开源库基于深度学习/大模型的开源库 UnstructuredLayout-parserPP-StructureV2PDF-Extract-Kitpix2textMinerUmarkerGptpdf PDF扫描件不支持无法支持全部版式文档多页可用性低阅读顺序无法还原文档解析精度较低速度慢不满足需求 pyPDF2PyMuPDFpdfminerpdfplumberpapermage TextIn文档解析 TextIn文档解析解析更稳、识别更准、性能更快电子档、扫描件 TextIn文档解析算法框架Pipeline TextIn版面分析算法框架版面分析算法–物理版面分析与逻辑版面分析检测模型的发展FasterRCNN/YOLO->DETR/DINO在产业落地时，综合考虑任务难度和推理速度，我们选用：单阶段的检测模型，更多关注数据和模型小规模调优 •物理版面分析-聚合侧重于视觉特征。主要任务是把相关性高的文字聚合到一个区域，比如一个段落等。 •物理版面分析-布局选用目标检测任务进行建模，使用基于回归的单阶段检测模型进行拟合，从而获得文档中各种各样的布局方式。 •逻辑版面分析侧重于语义特征。主要任务是把不同的文字块根据语义建模，比如通过语义的层次关系形成一个树状结构。版面分析算法–物理版面分析通过检测获得各个布局要素之后，我们可以建立文档的布局关系。例如，一个双栏的节（section）通常包括两个栏（column）。版面分析算法–逻辑版面分析算法核心：通过Transformer架构，预测旁系类型与父子类型预测每个段落和上一个段落的关系，分为子标题、子段落、合并、旁系、主标题、表格标题如果是旁系类型，则再往上找父节点，并判断其层级关系，直到找到最终的父节点最新研究方向–真实世界中更丰富布局的版面分析 TextIn开源文档解析效果测试基准及工具 TextIn文档解析可视化效果 TextIn文档解析工程性能 TextIn文档解析技术定量测试向量化技术方案03 向量化Embedding技术原理 Embedding/嵌入/向量化将海量的文本数据转化为一个有方向有数值的列表（向量），利用计算机高效率计算文本相似性 RAG系统中向量模型的作用 1.对文档块(Documentschunk)进行向量化表示2.对问题(query)进行向量化表示，查询高文本相似度的文档块(chunk)召回3.文档块向量库实时动态更新，低成本高扩展4.数据向量化处理后保证了数据安全性文本嵌入模型效果评测标准MTEB&C-MTEB 覆盖8类任务，58个数据集：文本分类，聚类，成对分类，重排序，检索，语义文本相似性，摘要、判别应用中向量化Embedding Model的选择结合业务选择合适的向量模型，MTEB/C-MTEB作为参考 acge_text_embedding模型技术特色 •与其他开源模型相比，acge模型较小，占用资源少；•模型输入文本长度为1024，满足绝大部分场景的需求•acge模型支持可变嵌入维度，让企业能够根据具体场景去合理分配资源。 acge_text_embedding高精度、高效率 Massive Text Embedding Benchmark (MTEB)中文榜单（C-MTEB）第一名的成绩(20240311-20240514) (1)对比学习技术，通过最小化正对之间的距离和最大化负对之间的距离来呈现文本语义表示(2)数据挖掘，构造多场景、数量庞大的数据集提升模型泛化能力，挑选高质量数据集加快模型收敛(3)多任务混合训练，多loss适配场景，适应各种下游任务(4)MRL训练，训练可变维度的嵌入，提高了处理速度，降低了存储需求(5)持续学习,改善引入新数据后模型灾难性遗忘问题 acge_text_embedding模型可变嵌入维度俄罗斯套娃Matryoshka Representation Learning技术，让文本嵌入模型在推理时具备可变Embedding大小的能力，可以根据企业场景采用不同的计算和存储消耗。实际场景产品实践04 开放域信息抽取产品介绍【信息抽取任务】需要开发人员有丰富的算法经验新样本如语句变化则将难以确保效果从以下资讯文本/多文档/票据图像中抽取出关键信息翔鹭钨业(9.500,0.12,1.28%)：股东众达投资854.68万股股份解 Prompt提示词请从如下文本中判断出事件类型和相应的事件要素，结果按照results_style形式进行呈现：翔鹭钨业(9.500,0.12,1.28%)：股东众达投资854.68万股来源：每日经济新闻每经AI快讯，翔鹭钨业2，... •普通员工会写提示词prompt即可•模型对语句变化后的自适应性强开放域信息抽取产品模式三种抽取模式 •智能解读业务文件，完成非结构化的关键信息提取，提高阅读效率，挖掘文档价值分析师知识问答—场景及价值企业财报（年报、季报、半年报）知识库信息检索通过自然语言问答，精准检索知识库中相关内容；金融文档知识库多文档问答行业/公司研报（行业分析、个股深度分析）支持多源信息检索及对比，洞察潜在趋势； •专注有效信息阅读•提高案头分析效率•分析师个人投研助手信息来源可靠有效规避大模型幻觉，完整展示真实可靠来源；其他公告（招股说明书、业绩预告、股权变动等）关键内容总结个人知识库提炼文档重点内容，提高信息筛选效率；非公开文档（专家调研报告、会议纪要等）投研知识管理重点内容问询、标记、收藏，构建投研知识库；分析师知识问答产品效果分析师问答产品系统架构设计 RAG应用目标：可用、好用的技术与产品理解技术边界，深度理解业务，打造产品壁垒，用最好的模型，避免仅考虑技术单击此处编辑母版标题样式 THANKS 智能未来，探索AI无限可能Intelligent Future, Exploring theBoundless Possibilities of AI

点击免费查看完整报告

Textln文档解析与向量化技术加速大模型RAG应用落地

RAG技术方案与实践总结

01 RAG背景与问题

02 文档解析技术方案

03 向量化技术方案

04 实际场景产品实践

你可能感兴趣

常扬-文档解析技术加速大模型训练与应用

计算机行业大模型应用落地的重要软件基础设施：向量数据库助推RAG加速大模型应用

戴尔Dell最新财报中明确提及AI带来的业绩增益；全球首部AI长篇电影即将首映，模态大模型快速更迭加速AI应用落地，该公司在动画电影《雄狮少年》制作中已开始尝试与相关AI技术的融合-20240304

国君计算机向量数据库助推RAG加速大模型应用向量数据库专

国君计算机|向量数据库助推RAG加速大模型应用

mPLUG：多模态对话大模型技术与应用解析

【风口研报·公司】跻身AI视频浪潮加速商业化落地，这家公司“多媒体大模型”能力曝光具备一键成片、AI美术设计、文生音乐等核心能力，有望跟随Adobe以“数据模型应用”AI技术栈构筑核心壁垒

大语言模型在投研中的应用：DeepSeek、QwQ-32B与Manus技术解析、投研场景与量化应用

2025从技术突破到场景落地大模型发展图谱与DeepSeek创新应用报告

从技术突破到场景落地：大模型发展图谱与DeepSeek创新应用-中山大学