您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[极客传媒]:大模型金融支付类企业ToC应用探索与落地 - 发现报告
当前位置:首页/行业研究/报告详情/

大模型金融支付类企业ToC应用探索与落地

信息技术2024-07-15-极客传媒等***
AI智能总结
查看更多
大模型金融支付类企业ToC应用探索与落地

⼤模型⾦融⽀付类企业ToC应⽤探索与落地 平安壹钱包—王良 OPENAIchatGPT ChatGPT 2个⽉ TikTokinstagramWhatsAPP Twitter 9个⽉ 2.5年 3.5年 5.5年 100000000+ 2个⽉⽤户破亿 ⼿机16年 电话75年 80% 到2026年,接⼊⽣成式AI或⼤模型的企业 前期调研 确定未来 AI⼤模型未来的前景是明确的AI必然会重构世界 确定现在 要想不掉队就必须现在进⼊ 不确定落地 选择什么场景?解决什么需求? 降本增效还是扩⼤收益? ⽤什么技术?开源闭源? 。。。。。。 找落地场景 找落地场景的思路 从最熟悉的领域⼊⼿ 让AI学习最优秀员⼯的能 ⼒,再让它辅助其他员 ⼯,实现降本增效 “⽂本”进 —> “⽂本”出 不要求⼤⽽全,将任务拆解,先解决⼩任务,⼩场景 制定落地⽅案 理解⼤模型原理,不懂原理就不会举⼀反三,⾛不了太远 ⼀定要有实践经验,没有实践就只能纸上谈兵,做事不落地 认知要⾼,认知不⾼就 ⽆法做出最优决策,天花板太低 理解⼤模型原理,不懂原理就不会举⼀反三,⾛不了太远 ⼀定要有实践经验,没有实践就只能纸上谈兵,做事不落地 认知要⾼,认知不⾼就 ⽆法做出最优决策,天花板太低 选择模型 在线⼤模型开源⼤模型 API调⽤私有化部署 在线模型普遍性能更强,调⽤时 技术⻔槛和硬件⻔槛更低,配套模型⽣态和服务更加完善,不需要维护 模型⽂件、项⽬⽂件、还有 模型权重、等等在本地部署,因此可以更好的确保数 据安全性 需求国外⼤模型国内⼤模型开源⼤模型 国内2C国内2G国内2B出海 数据安全 合规要求 国徽 《⽣成式⼈⼯智能服务安全基本要求》 提供者在向相关主管部⻔提出⽣成式⼈⼯智能服务上线的备案申请前应按照本⽂件中各项要求逐条进⾏安全性评估,并将评估结果以及证明材料在备案时提交 《⽣成式⼈⼯智能服务管理暂⾏办法》 已经2023年5⽉23⽇国家互联⽹信息办公室2023年第12次室务会会议审议通过,并经国家发展和改⾰委员会、教育部、科学技术部.⼯业和信息化部、公安部、国家⼴播电视总局同意,⾃2023年8⽉15⽇起施⾏ 《⽣成式⼈⼯智能服务管理暂⾏办法》 明确,提供者违反本办法规定的,由有关主管部 ⻔依照《中华⼈⺠共和国⽹络安全法》、《中华⼈⺠共和国数据安全法》、《中华⼈⺠共和国个⼈信息保护法》、《中华⼈⺠共和国科学技术进步法》等法律⾏政法规的规定予以处罚;法律、⾏政法规没有规定的,由有关主管部⻔依据职责予以警告、通报批评,责令限期改正;拒不改正或者情节严重的,责令暂停提供相关服务。构成违反治安管理⾏为的,依法给予治安管理处罚;构成犯罪的,依法追究刑事责任 报备经验分享 评估 结论为符合的 评估 结论为不符合的 评估 结论为不适⽤的 应具有充分的证明材料应说明不符合的原因,采 ⽤其他技术或管理措施能达到同样安全效果的,应详细说明并提供措施有效性的证明 应说明不适⽤理由 落地场景介绍 视频展示 知识库(资料库、官⽹、⾏业规范、操作⼿册) ⽂本分割 ⽂本区块chunk 提取⽂本划分段落区块 ⽤户 输⼊⼀个问题 ⽂本嵌⼊ 问题⽂本的嵌⼊向量 ⽂本嵌 ⼊ 0.7 -0.1 0.4 0.3 -0.4 -0.1 -0.3 向 相似匹配量 库 ⽣成答案反馈 平安GPT 提示词Prompt (包含原⽂和问题) 匹配K段和问题相关知识库原⽂ 什么是向量化 serpentinesidekicks Text Text asvector anatineamigos 0.004 0.003 0.002 —— 0.014 Text 0.027 0.001 0.020 —— 0.023 Text asvector 将⽂本转化为固定⻓度的稠密向量,实现⽂本在向量空司的映射 Embedding的本质是⽤⼀串数字代表⽂本,从⽽让计算机认识⽂本 Embedding在⽤户意图认\别以及私有知识库搭建⽅⾯发挥着⾄关重要的作⽤ 独热编码(One-hotEncoding) 这是⼀种将每个词表示为唯⼀的向量的⽅法。向量的维度等于⽂本中不同词的数量,对于给定的词,它在向量中的值为1,其余位置均为0。这种表示⽅法简单直观,但⽆法表示词与词之间的语义关系。 狗 猫 ⻢ ⽺ 狗 1 0 0 0 猫 0 1 0 0 ⻢ 0 0 1 0 ⽜ 0 0 0 0 词嵌⼊模型(WordEmbedding) Word2Vec和GloVe等,它们利⽤深度学习⽅法,通过训练⼤规模语料库学习词的向量表示。这些模型能够捕捉词的语义和语法信息,使得语义上相似的词在向量空间中的位置相近 句⼦向量化 是将整个句⼦转换为⼀个数值向量的过程,以便计算机和机器学习模型能 够理解和处理句⼦级别的⽂本信息 ⽂档向量化 为什么⽤RAG ⼤模型的局限RAG能提供什么 模型训练数据cut-off真实信息 私有数据、保密数据、新数据更新 可解释性、幻觉问题 私有信息 及时与动态信息 Fine-tuning(微调)和RAG 投产⽐不⾼可控 改变模型权重不改变模型的权重 技术实⼒不⾜会有副作⽤技术难度⼩ RAG落地过程中需要关注的事项 挑战01挑战02挑战03挑战04 数据源加载与处理数据切分难检索效果不好检索结果过多或过⻓ 挑战05挑战06挑战07挑战08 可解释性与鲁棒性复杂query的处理⾃动化的问题反馈、评估与迭代 01:数据源加载与处理 数据源多样复杂数据结构解析问题 1.txt 2.chm 3.csv 4.markdown 5.⽹⻚ 6.PDF 7.excel 8.Doc 1.标题 2.列表 3.表格 4.⻚眉 5.⻚脚 6.阅读顺序 7.图表 1.扫描⽂件 2.动态⽹⻚ 3.数据同步 02:数据切分难 indexingTimeRetrivalTimeGenerationTime •embedding输⼊⻓度限制 •影响embedding效果 •⽆法定位到关键区域•context_size有限 chunk_size⼤⼩选择? •TextSplitter试验 •Chunking解耦:IndexingTime和GenerationTime 常⻅五种技术的实现⽅式 0102030405 系统消息内输⼊外部⽂本 ⾼效但受限的 ⽆损信息传递 ⼿动切分与 Embedding匹配 灵活⾼效的短⽂本传递策略 利⽤LangChain等⼯具 固定化的 ⻓⽂本读取⽅ ⼤模型 微调与知识灌注 ⾼⻔槛的 ⻓期知识注⼊ 利⽤OpenAIAssistantAPI进 ⾏⻓⽂本读取 ⽆损的 ⼤规模⽂档处理 03:检索效果 ⽆法检索 到有⽤的信息 •语义相似度问题 •切分问题 •元数据检索 包含 ⽆效信息 •邮件、聊天记录等 •使⽤摘要 •相关性过滤 04:检索结果过多或过⻓ 01.切分阶段02.检索阶段03.后处理阶段04.答案合成阶段 •更⼩的chunk_size •按sentence切分 •提取原chunk摘要 •⽣成元数据过滤 •⽣成top_k •关键字过滤 •相关性过滤 •业务逻辑过滤 •不相关句⼦移除 •重排 •Compact/stuff •lterativeRefine •单独回答+总结 •对chunk做摘要 •⾃定义合成策略 05:可解释性与鲁棒性 数据•在必要的时候引⽤ 引⽤•在准确的位置引⽤ •querygeneration ⾃举 •self-consistency •self-correcting 06:复杂query 简单query •去年东⽅航空财报基本情况? •李⽩的主要经历? 复杂query •对⽐19~23年东⽅航空财报税前利润总额对⽐ •今年东航、南航的营收情况对⽐ •李⽩在当官之前、和之后的⼼态变化 07:⾃动化 Agent ALLToolsReActFunctioncallingDataAgent 08:反馈、评估与迭代 反馈评估迭代 •收集反馈数据 •tracing. •IR评估 •端到端评估 •整理数据 •尝试Fine-tuning RAGfeedback 收集多维度反馈 回答质量 e2emetrics 检索质量 IRmetrics 引⽤质量 引⽤不完全 引⽤了不想关的⽂档 问题⽣成质量 diversity 上⼿实践 •RAG是⼀个复杂的系统,使⽤low-levelAPI拆解成⼩的步骤 •给LLM写prompt,帮助我们解决各步骤中的问题 •让LLM⽣成数据来帮助我们训练或评估 •让LLM来做规划 •使⽤⾃⼰熟悉的数据跑通RAG流程 •评估真实场景下的表现 •从数据源加载、索引构建、检索、答案合成等分步骤进⾏casestudy 标注平台 导⼊数据 数据清洗 选择标注类型 智能预标注 分配标注任务 机器学习 输出数据审查 智能质检 ⼈⼯标注 Functioncalling&Agent 基础类AlAgent项⽬ Functioncalling+OpenWeatherFunctioncalling+邮箱API 智能查询天⽓信息应⽤智能收发邮件应⽤ 进阶类AlAgent项⽬ Functioncalling+搜索API+爬⾍Functioncalling+pymysql+MySQL 智能搜索问答机器⼈定制化SQL代码解释器 Functioncalling+PythonFunctioncalling+Python+算法库 代码解释器机器学习&深度学习Agent ⼤模型浪潮下的未来趋势 脱离“信息茧房”给出客观全⾯的建议 将每个⾏业最顶尖的能⼒赋予给每个普通个体 程序员之间的差距会缩⼩,程序员和⾮程序员的差距会拉⼤ 每个⾏业都值得⽤⼤模型重做⼀遍 “⼩⽽美”创业团队的重⼤机遇 ⼤模型应⽤架构师的职责是什么 怎么更准确 怎样更省钱 系统好维护 Thanks 平安壹钱包—王良