您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[极客传媒]:阿里云AI搜索RAG大模型优化实践 - 发现报告
当前位置:首页/行业研究/报告详情/

阿里云AI搜索RAG大模型优化实践

信息技术2024-10-28欧明栋极客传媒s***
阿里云AI搜索RAG大模型优化实践

阿⾥云AI搜索RAG⼤模型优化实践 欧明栋 阿⾥云AI搜索RAG⼤模型算法负责⼈ RAG背景 ⼤模型知识问答 ⼤模型直答⼤模型微调RAG(检索增强⽣成) LLM 问题回答问题 问题 LLM + 领域知识 LLM 回答+回答 检索知识 外在幻觉 多 中 少 领域知识 ⽆ 有 有 实时信息 ⽆ ⽆ 有 可溯源 ⽆ ⽆ 有 成本 低 ⾼ 低 语义切⽚ 混合索引向量+⽂本 ⽂档解析 RAG架构 LLM服务 query改写扩展 检索服务混合索引+重排 问题回答 ⽂档 RAG的效果问题及归因 ⽂档解析及切⽚ Query理解&检索服务 LLM 幻觉 切⽚截断⽂档解析错误 模型⽣成幻觉 拒答 检索结果不相关&不完整 模型未理解内容 回答不完整 切⽚不完整 检索结果不相关&不完整 模型总结不完整 回答不相关 模型理解出错 响应速度慢 模型参数量⼤ RAG效果关键点 ⽂档解析准确 切⽚语义完整 信息召回完整 ⼤模型推理总结准确 RAG架构-⼤模型优化 检索信息不完整时 LLMAgent 检索服务混合索引+重排 query改写扩展 问题回答/意图澄清 在线 离线 ⽂档解析 ⽂档 层级抽取 语义切⽚ 微调⼤模型评测⼤模型 混合索引向量+⽂本 效果评测 第三⽅开源⼤模型 ⼤模型服务 SFT数据⽣成 训练服务(PAI) 推理服务(PAI-EAS) ⼤模型评测服务 数据源 MaxCompute HDFS OSS RDS Hologres ⽂本切⽚ 数据提取 多粒度切分 层次切分 语义切分 ⽂本提取 OCR 视觉模型 拼写纠错 指代消解 多轮对话 Qwen系列⼤模型 数据湖 NL2SQL RAG模块架构:阿⾥云AI搜索开发平台 组件编排 阿⾥云SDK OpenAISDK LangChain LlamaIndex 搜索组件 Query理解 Query改写 Query分词 实体识别 意图识别 在线引擎 Havenask Elasticsearch 离线服务 向量化 sgpt-bloom stella bge-m3 数据层 数据格式 Paimon、Hudi PDF、Word、PPT Excel、CSV JSON、HTML、Markdown ⽂档结构化 ⽂档切⽚问题 PDF、纯⽂本等⽂件类型⽆法直接解析语义层级,导致切⽚语义不完整 切⽚截断 ⼤模型幻觉补全 切⽚不完整 回答不完整 回答 要修改云盘的UUID,请按照以下步骤操作: 1.登录到云盘服务的管理控制台。 2.寻找并进⼊“存储”或“磁盘管理”相关的设置⻚⾯。 …… 幻觉 上下⽂ 已知信息: [⽂档1] 修改云盘的UUID步骤如下, 根据已知信息回答问题,确保只使⽤已知信息中的内容回答问题,问题:'''如何修改云盘的UUID''' 回答 要修改云盘的UUID,请按照以下步骤操作: 1.远程连接ECS实例。 不完整 上下⽂ 已知信息: [⽂档1] 修改云盘的UUID步骤如下: 1.远程连接ECS实例。 根据已知信息回答问题,确保只使⽤已知信息中的内容回答问题,问题:'''如何修改云盘的UUID''' ⽂档切⽚-语义层级抽取模型 ⼤模型抽取⽂档语义层级 保证切⽚语义完整 实现基于语义层级的内容摘要,回答全局(超⻓上下⽂)问题 公开数据集 纯⽂本 Word PDF 数据增强 纯⽂本 噪声混⼊ 层级合并 模型训练 StepDPO SFT 后处理策略 ⻓⽂切分 递归抽取 层级定位 语义层级抽取模型-数据增强 层级合并 噪声混⼊ 纯⽂本构造 不同层级标题合并到相同层级 基于业务数据构造噪声 删除所有格式信息,转为纯⽂本 … 标题换⾏ 假标题引⼊ 语义层级抽取模型-模型训练 SFT StepDPO 基于qwen2-1.5B,约5万训练样本 基于SFT模型预测错误样本构造,只优化第⼀个出错的层级 Input Output [ "h1":"Opensearch产品架构", "substructure":[ ["h2":"搜索开发⼯作台","substructure":[]], ["h2":"LLM智能问答版","substructure":[]] ] ] Input Chosen Reject [ [ "h1":"Opensearch产品架构","h1":"Opensearch产品架构", "substructure":["substructure":[ ["h2":"搜索开发⼯作台"["h2":"Opensearch版本包括" 语义层级切⽚ ⼀级标题 ⼆级标题1 ⼆级标题2 段落1 段落2 段落3 段落4 切⽚ ⻓上下⽂ v.s. 耗时&成本 语义层级 低⾼ LostintheMiddle 少多 ⼀级标题 ⼀级标题 当前⽅案:适当增加切⽚⻓度更优⽅案? 切⽚ 信息完整度 ⼀级标题 ⼆级标题1 段落1/摘要 ⼀级标题 ⼆级标题1 段落2/摘要 ⼆级标题2 段落3/摘要 ⼆级标题2 段落4/摘要 中⾼ ⼤模型微调&Agent探索 幻觉 不完整 ⼤模型⽣成问题 RAG实际应⽤中模型幻觉率仍偏⾼, 幻觉率:GPT4~7%,14B及以下模型普遍20+% 上下⽂ … 复杂答案中容易遗漏部分内容 回答(fromGPT4) 创建云数据库RDS的数据库⽅法分为RDSPostgreSQL数据库和RDSMySQL数据库两种情况: …… 缺少RDSSQLServer 上下⽂ … RDSPostgreSQL实例创建数据库 … 创建RDSMySQL实例、数据库和账号 … 快速创建RDSSQLServer实例 根据已知信息回答问题,确保只使⽤已知信息中的内容回答问题,问题:'''rds创建数据库⽅法''' AnalyticDBMySQL版有多种删除数据的⽅式,建议如下: *数据删除频率低、基于主键为条件的删除,可通过DELETE删除数据。 *数据删除频率低、基于任意条件的删除,可通过DELETE删除数据。 *通过TRUNCATETABLE删除指定⼆级分区。 回答(fromGPT4) AnalyticDBMySQL版清除过期的⼆级分区可以通过以下⽅式进⾏1.基于主键为条件的删除,可以使⽤DELETE的⽅式删除数据。…… 幻觉 根据已知信息回答问题,确保只使⽤已知信息中的内容回答问题,问题:'''analyticdbmysql怎么清除过期的⼆级分区''' : 效果评测Model-as-Judge 问题 回答 检索结果 评测指标(类似RAGAS) •幻觉 •编造:基于检索结果-回答,回答中是否存在检索结果之外的信息 •混淆:基于检索结果-问题-回答,回答中是否使⽤了检索结果中与问题⽆关的信息回答问题 •完整性:基于检索结果-问题-回答,回答中是否遗漏检索结果中的关键信息 •相关性:基于问题-回答,回答中是否存在于不回答问题的表述 评测⼯作流 初评反思 修正 67% 83% 95%100% ⼈⼯单prompt⼯作流⼯作流+⼈⼯ ⼤模型微调 数据来源 合成问题+搜索引擎结果 公开数据 数据构造 多轮对话 领域多样性 拒答数据 指令构造 ⻛格⾃定义 富⽂本⽣成 引⽤溯源 幻觉控制 样本筛选 模型训练 规则筛选 DPO 模型评测 SFT 样本混合 模型效果 •基于Qwen1.5-14B微调后,14B模型基本达到了72B模型效果,且幻觉率更优 •实际业务场景⽐公开数据集更复杂,微调模型在复杂场景中表现更突出 GPT4-o Qwen1.5-72B-Chat Qwen1.5-14B-Chat OpenSearch-Qwen-SFT OpenSearch- Qwen-DPO 综合评分 幻觉率 综合评分 幻觉率 综合评分 幻觉率 综合评分 幻觉率 综合评分 幻觉率 简单场景 RGB 0.955 6.0% 0.917 11.7% 0.931 6.5% 0.954 4.2% CRUD 0.966 3.0% 0.965 11.0% 0.963 5.0% 0.975 5.0% 复杂场景 DuReader 0.963 5.0% 0.923 17.0% 0.891 20.5% 0.904 13.1% 0.937 9.0% 业务场景 0.938 7.1% 0.869 15.7% 0.820 30.0% 0.862 10.0% 0.882 9.0% RAG场景中的复杂问题 •复杂问题需要通过多步推理和多轮搜索才能最终解答,导致传统RAG系统⽆法处理复杂问题。 问题:⻄班⽛获得欧洲杯次数最多球员是谁? 回答 ⽆法回答该问题。已知⻄班⽛国家队获得过1964年、2008年 、2012年、2024年欧洲杯冠军,但⽆法判断哪位球员获得的冠军数最多。 上下⽂ ⻄班⽛国家男⼦⾜球队_百度百科 … ⻄班⽛2⽐1击败英格兰第四次捧起奖杯 … ⻄班⽛历史性第四次夺得欧洲杯冠军,创下最多夺冠次数纪录! … 问题:黎曼的⽣肖是什么? 回答 抱歉⽆法回答该问题。 上下⽂ 伯恩哈德·黎曼(德国数学家)_百度百科 … 最具独创精神的数学家 … ⻄班⽛历史性第四次夺得欧洲杯冠军,创下最多夺冠次数纪录! … AgenticRAG 搜索服务 总结Agent 规划Agent 搜索服务 问题回答 问题:⻄班⽛获得欧洲杯次数最多球员是谁? 总结:⻄班⽛获得1964、2008、2012、2024欧洲杯冠军 规划:缺少1964、2008、2012、2024⻄班⽛欧洲杯参赛名单 搜索:1964欧洲杯⻄班⽛参赛名单、2008欧洲杯⻄班⽛参赛名单… 总结:伊涅斯塔、哈维、卡⻄利亚斯…获得了 2008、2012欧洲杯冠军,是⻄班⽛获得欧洲杯最多的球员 问题:黎曼的⽣肖是什么? 总结:黎曼出⽣于1826年 规划:1826年对应的⽣肖未知 搜索:1826年对应的⽣肖 总结:黎曼出⽣于1826年,⽣肖是狗。 Agent效果&挑战 效果 挑战 •先搜索再由PlannerAgent推理调度,可显著减少推理步数 解答率 搜索次数 RAG 78% 1 ReAct 85% 1.7 Search-FirstReAct 90% 1.2 •仍有近30%的复杂问题⽆法解答 •时延⾼ •推理步数⻓,多次调⽤LLM,耗时不可控 •成本⾼ •多步推理和搜索积累数据, 每步的token数显著增加,成本线性上升 •推理⽅向不准确 •模型多步推理误差累积,导致拒答、幻觉,推理步数越多拒答率、幻觉率越⾼ RAG应⽤实践 RAG典型场景 •⽤户选品、直播答疑 •商品售前咨询,售后服务 •提升购物互动体验、销量转化 电商场景 •IT、⽂娱等个性化信息检索 •提升检索效率、⽤户粘性、活跃度、业务转化 内容场景 •企业内部资料 •产品⽂档、技术资料等 •提升企业信息检索效率 企业知识库 •搜题⽣成答案,知识总结 •提升学习效率,⽤户粘性、活跃度、业务转化 教育搜题 RAG客户场景-基于阿⾥云AI搜索开发平台 RAG客户场景-离线⽂档结构化 ⽂档解析 营养咨询 离线 PDFMarkDown 结构化语义 https://opensearch.console.aliyun.com/cn-shanghai/rag/server-market RAG客户场景-离线切⽚&索引 创建索引 语义切⽚ ⽂档解析 营养咨询 离线 MarkDown 切⽚1 切⽚2 切⽚⽂本混合索引 https://opensearch.console.aliyun.com/cn-shanghai/rag/server-market