您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[Alibaba::DataFun.]:面向企业数字化的文档智能技术与应用-王梦佳 - 发现报告
当前位置:首页/行业研究/报告详情/

面向企业数字化的文档智能技术与应用-王梦佳

面向企业数字化的文档智能技术与应用-王梦佳

面向企业数字化的文档智能技术与应用 演讲人-王梦佳-阿里巴巴-企业智能-高级算法专家 DataFunSummit#2023 01背景介绍 目录 CONTENT 03大模型之下的文档智能 02文档智能技术04面向企业数字化的文档智能应用 01 背景介绍 DataFunSummit#2023 分析:版面分析 信息抽取文档分类文档比对文档问答 文档生成 理解:多模态预训练 统一文档表示 阅读: 文档解析与结构化 文档智能DocumentAI 企业级文档 合同文书 协议文书 发票收据 行业应用 合同要素抽取合同审查 合同搜索合同比对合同起草 企业级应用 知识抽取 知识搜索 知识问答 文档搜索 文档问答 通用文档智能 文档解析 表格理解 文档树 文档纠错 政策文档 个人简历 产品文档 文档格式多 Word/图片/pdf/html 统一文档表示 内容元素种类多 段落/表格/目录/图形 多模态识别文档理解预训练 需求场景多&标注数据少 合同/协议/表单/文档 小样本学习 领域自学习for业务定制 02 文档智能技术 DataFunSummit#2023 文档智能技术演进 单一模态 大规模标注数据驱动的特定任务设计 版面分析&文档图像分类 图像任务,文档图像的物体检测,检测和识别文档中的标题,段落和表格等 信息抽取&文档问答 文档解析为纯文本,NLP文本任务,序列标注,NER等 文档理解预训练 大规模无标注数据 文本单一模态 文本+布局Layout联合 多模态大一统 文本+布局Layout+图像 文本+布局Layout+图像image 预训练任务设计,跨模态对齐 MLVMMDC Text-Image对齐 …… 下游任务,预训练+微调 信息抽取文档分类版面分析 文档视觉问答 …… 合同抽取合同审查 合同搜索 合同比对 合同起草 文档解析 文档树 表格理解文档纠错 OCR 表格 版面分析 布局 ApachePOI 文本 统 图像 信息抽取 知识抽取文档问答 知识搜索文档搜索文档问答 —多模态文档理解 文文 XML Parser 文档分类 档档 目录 表树 文档问答 示 公式 … … PDFParser 行业预训练 文档解析文档理解文档分析 通用能力企业级应用垂直领域解决方案 上层应用 合同文书 文档理解DI 版面分析 通用文档 信息抽取 实体 文本分类其他 文档比对 文档纠错 预训练+微调 … 小样本 零样本 文档知识块 文档层级树 领域自学习 文档问答 … 关系 事件 咨询报告 制度文件 文档树 通用文档理解领域预训练 合同预训练Contract-BERT 法务预训练Legal-BERT 文本+布局+视觉联合训练LayoutLM 文本预训练StructBERT 多模态文档理解 文档解析 文档树 文档纠错 表格理解 文档问答 知识抽取 知识搜索 知识推荐 合同抽取 合同审查 合同比对 合同起草 多模态文档解析 底层技术 Word 文字检测结构化检测 HTML JPG PPT Excel PDF OCR 手写检测 文字识别 语义分析 词法分析 NLP 文本分析 句法分析 Markdown …… 预训练 文本+布局 文本文本+布局+视觉 统一文档表示 •文本信息 •富文本meta信息(字体,字号,加粗,对齐…) •逻辑结构信息 type string paragraph:正文,title:标题,image:图片,table:表格 text string 文本信息 fontSize double 字体大小 fontName string 字体名称,"华文仿宋" bold boolean 是否加粗 tableInfoDTO dict 表格结构信息 autoNumbering boolean 是否自动编号 index int 段落索引 pageNo int 页码 alignment string 对齐,left/center/right/unknown style string 段落样式 indent int 段落索引 userid:444287,docid:155422,date:2024-05-19,sgpjbg.com 文档层级树 03 大模型之下的文档智能 DataFunSummit#2023 合同要素抽取 合同条款抽取 合同起草 合同审查 合同文本比对 合规风险检测 领域大模型 LegalBert Token-level Sentence-level MLMWWMNWM 合同信息抽取任务 合规文本分类任务 大模型底座 合同管理 领域数据 合同文书 协议文书 签章 档案 争议管理 诉讼案件 竞争管理 项目管理 …… 风险管理 外部渠道 合规管理 版权 商标 知识产权 专利创新提案 多任务预训练 …… 维权 StructBERT 行业应用 …… 专利查重查新 行业预训练(PreTrain):法务行业文档密集型,四大领域数据和知识,在通用基础模型基础上构建行业知识预训练模型 •基础模型:阿里巴巴达摩院开源的预训练模型StructBERT •数据:合同域(200W+),合规管理域 (100W+),知识产权域(100W+),争议管理域(100W+) 多任务预训练: •通用自监督Token-level:MLM,WWM •通用自监督Token-level:NWM,法务行业词典分词 •领域预训练任务:合同要素信息抽取 •领域预训练任务:合规文本分类 DownstreamTasks [CLS] 项目 采购 合同 甲方 : 浙江 向阳 公司 TransformerEncoderLayers E([CLS])E(项目) E(采购) E(合同)E(甲方) E(:) E(浙江) E(向阳) E(公司) E(0) E(x01) E(x02) E(x03) E(x04) E(x05) E(x06) E(x07) E(x08) E(0) E(y01) E(y01) E(y01) E(y02) E(y02) E(y02) E(y02) E(y02) OCR E(maxW)E(x11) E(x12) E(x13) E(x14) E(x15) E(x16) E(x17) E(x18) E(maxH) E(y11) E(y11) E(y11) E(y12) E(y12) E(y12) E(y12) E(y12) 多模态预训练 Text+LayoutEmbeddings •Text——Text+Layout 模型结构 •BERTbackbone TextEmbeddings •Text+2DPositionembeddings PositonEmbeddingsx0 预训练任务 PositonEmbeddingsx1 PositonEmbeddingsy0 •自监督任务:MVLM-保持坐标输入,mask文字并且预测文字(与MLM一致) PositonEmbeddingsy1 •监督任务:合同类型分类预测 多模态预训练 •Text+Layout——Text+Layout+image Visual/TextRepresentation 模型结构 Task3:Text-ImageMatchingMatchedTask2:Text-ImageAlignmentTask1:MVLM Covered CoveredCoveredNotT2T4 NotCovered NotCovered NotCovered •Transformer •Self-Attention V1V2V3V4 <CLS> T1<MASK>T3 <MASK> T5T6T7T8 <SEP> 1DPositionEmbedding •Text+2DPosition+imageembeddings Multi-ModalTransformerEncoderLayers 𝑥𝑣1:𝑦𝑣1 𝑥𝑣$:𝑦𝑣$ 𝑥𝑣3:𝑦𝑣3 𝑥𝑡0:𝑦𝑡0 𝑥𝑡1:𝑦𝑡1 𝑥𝑡$:𝑦𝑡$ 𝑥𝑡3:𝑦𝑡3 𝑥𝑡4:𝑦𝑡4 𝑥𝑡(:𝑦𝑡( 𝑥𝑡):𝑦𝑡) 𝑥𝑣0:𝑦𝑣0 1 2 3 0 1 2 3 4 5 6 0 7 8 9 2DPositionEmbedding 预训练任务 𝑥𝑡* :𝑦𝑡* 𝑥𝑡+ :𝑦𝑡+ 𝑥𝑡9 :𝑦𝑡9 •MVLM •Text-ImageAlignment •Text-ImageMatching Visual/TextEmbedding FeatureMap <CLS>项目采购合同甲方:浙江向阳 Text 公司<SEP> VisualEncoder OCR parser Layout TextEncoder LayoutEncoder VisualEncoder 行业大模型微调 高质量行业数据进行有监督SFT 行业精标数据 合同审查项合同模板合同分类 合同要素/条款 业务价值奖励对齐精调 业务回流强化学习RM和RLBF 业务回流数据 法务专家业务反馈结果排序 法务行业大模型/合同大模型 行业预训练模型 •法务行业数据和知识,在通用基础模型基础上,构建行业知识预训练模型 行业预训练模型 通用大模型之上行业知识增强 行业预训练数据 合同/合规/知识产权/争议管理 •合同域(200W+),合规管理域(100W+),知识产权域(100W+),争议管理域 (100W+) 行业业务微调 •高质量法务行业标注数据,对行业预训练模型进行有监督微调,优化业务效果 •合同审查(4大类审查项,60+审查点),合同要素抽取(6大通用合同要素,18类领域要素),合同条款抽取(20大类条款) 业务反馈精调 通义千问 •业务回流数据进一步将SFT的行业模型做业务价值对齐精调 •合同起草(10大类合同模板),合规风险检测 (22类合规风险标注数据) 微调精调 04 面向企业数字化的文档智能应用 DataFunSummit#2023 数智化,可决策 知识化,可管理 结构化,可查看 政策文档 发票收据 协议文书 合同文书 产品文档 个人简历 采购 法务 战略投资 HR 其他 财务 公共事务 DocumentAI 行政 降本 •合同解析 •合同要素提取 •法务智能问答 提效 •合同起草&分类 •合同比对 •专利查重查新 控风险 •合同审查 •合规风险检测 资产沉淀 •法务条款库 •法务口径库 •政策文档库 合同条款抽取 履约要素结构化履约监控 合同条款搜索 合同模板推荐 合同要素审查 合同条款审查 合同知识库 合同搜索推荐 合同全生命周期管理 合同智能起草 合同风险评估 起草 提交 审查/审批 签署 归档 履约 合同解析 合同要素抽取 合同文本比对 用印比对 ChatContract-和合同对话 •合同要素抽取任务 •合同条款抽取任务 •合同审查类任务 •合同起草类任务 •合同摘要生成类任务 信息抽取 文档审查 文档分类 文本摘要 文档生成 …… 法务生成式问答 Query 相关性排序 意图理解 知识抽取 QA 关键词检索 法律法规业务指引制度… 文档解析 Text 文档 切分TextChucks 向量表征 向量检索 Query理解与扩展 向量表征 Prompt生成 业务干预 知识增强 生成质量评估 法务LLM 业务场景定制 •数据标注-模型训练-模型优化-模型部署全链路,满足业务定制化需求,实现更多业务场景覆盖 模型训练服务部署 多场景覆盖 •合同要素提取(信息抽取)场景实现内外部20+细分场景落地 •合同审查(文档审查)实现10+细分场景落地 •合规风险检测(小样本文本分类)实现10+细分场景落地 iTAG模板配置,样本标注,样本质检 模型