您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[Alibaba::DataFun.]:面向企业数字化的文档智能技术与应用-王梦佳 - 发现报告

面向企业数字化的文档智能技术与应用-王梦佳

AI智能总结
查看更多
面向企业数字化的文档智能技术与应用-王梦佳

演讲人-王梦佳-阿里巴巴-企业智能-高级算法专家 DataFunSummit#2023 目录CONTENT 01背景介绍03大模型之下的文档智能 02文档智能技术04面向企业数字化的文档智能应用 01背景介绍 DataFunSummit#2023 背景介绍 文档智能DocumentAI 行业应用 合同要素抽取合同搜索合同审查合同比对合同起草 版面分析信息抽取文档分类文档比对文档问答文档生成 企业级应用 知识抽取知识搜索知识问答文档搜索文档问答 通用文档智能 文档解析表格理解文档树文档纠错 技术挑战 需求场景多&标注数据少 内容元素种类多 文档格式多 Word/图片/pdf/html 多模态识别文档理解预训练 小样本学习领域自学习for业务定制 02文档智能技术 DataFunSummit#2023 文档智能技术演进 多模态大一统文本+布局Layout+图像 文本+布局Layout+图像image 文档理解预训练大规模无标注数据 单一模态大规模标注数据驱动的特定任务设计 版面分析&文档图像分类 预训练任务设计,跨模态对齐 图像任务,文档图像的物体检测,检测和识别文档中的标题,段落和表格等 MLVMMDCText-Image对齐…… 文本+布局Layout联合 信息抽取&文档问答 下游任务,预训练+微调 文档解析为纯文本,NLP文本任务,序列标注,NER等 信息抽取文档分类版面分析文档视觉问答…… 文档智能技术 文档智能技术 文档智能技术 统一文档表示 •文本信息•富文本meta信息(字体,字号,加粗,对齐…)•逻辑结构信息 文档智能技术 文档层级树 03大模型之下的文档智能 DataFunSummit#2023 行业预训练模型-LegalBert 行业预训练(PreTrain):法务行业文档密集型,四大领域数据和知识,在通用基础模型基础上构建行业知识预训练模型 •基础模型:阿里巴巴达摩院开源的预训练模型StructBERT•数据:合同域(200W+),合规管理域(100W+),知识产权域(100W+),争议管理域(100W+) 多任务预训练: •通用自监督Token-level:MLM,WWM•通用自监督Token-level:NWM,法务行业词典分词•领域预训练任务:合同要素信息抽取•领域预训练任务:合规文本分类 多模态文档理解大模型 多模态预训练 •Text——Text+Layout 模型结构 •BERTbackbone•Text+2DPositionembeddings 预训练任务 •自监督任务:MVLM-保持坐标输入,mask文字并且预测文字(与MLM一致)•监督任务:合同类型分类预测 多模态文档理解大模型 多模态预训练 模型结构 多模态文档理解大模型 法务行业大模型-从PLM到LLM 行业预训练模型 •法务行业数据和知识,在通用基础模型基础上,构建行业知识预训练模型•合同域(200W+),合规管理域(100W+),知识产权域(100W+),争议管理域(100W+) 行业业务微调 •高质量法务行业标注数据,对行业预训练模型进行有监督微调,优化业务效果•合同审查(4大类审查项,60+审查点),合同要素抽取(6大通用合同要素,18类领域要素),合同条款抽取(20大类条款) 业务反馈精调 •业务回流数据进一步将SFT的行业模型做业务价值对齐精调•合同起草(10大类合同模板),合规风险检测(22类合规风险标注数据) 面向企业数字化的文档智能应用 DataFunSummit#2023 文档智能助力企业数字化 文档智能+法务数字化 降本 •合同解析•合同要素提取•法务智能问答 提效 •合同起草&分类•合同比对•专利查重查新 控风险 •合同审查•合规风险检测 资产沉淀 •法务条款库•法务口径库•政策文档库 文档智能+法务数字化 合同全生命周期管理 文档智能+LLM+法务数字化 ChatContract-和合同对话 •合同要素抽取任务•合同条款抽取任务•合同审查类任务•合同起草类任务•合同摘要生成类任务 文档智能+LLM+法务数字化 文档智能+业务定制全链路 业务场景定制 •数据标注-模型训练-模型优化-模型部署全链路,满足业务定制化需求,实现更多业务场景覆盖 多场景覆盖 •合同要素提取(信息抽取)场景实现内外部20+细分场景落地•合同审查(文档审查)实现10+细分场景落地•合规风险检测(小样本文本分类)实现10+细分场景落地 文档智能助力企业数字化 欢迎交流探讨合作! 感谢观看