大语言模型在 法律领域的应用探索 演讲人:蔡华 华院计算/大模型算法负责人 CONT目E录NTS 01 技术背景 02 训练和评估 03 应用框架 04 应用案例 法律大语言模型的相关背景 1.法律大模型|语言模型发展阶段 统计语言模型 神经语言模型 预训练语言模型 大规模语言模型 第一阶段 第二阶段 第三阶段 第四阶段 20世纪中叶开始发展,在七八十年代达到鼎盛 20世纪末自神经网络发展以来不断发展,包括RNN以及LSTM 2017年前后,Transformer架构的发布成了BERT、GPT等许多预训 练模型的基础 2020年前后,OpenAI发布了包含1750亿参数的GPT-3模型,展现了卓越的能力 ONETWO THREE FOUR 1.法律大模型|语言模型发展阶段 统计语言模型 神经语言模型 预训练语言模型 N-gram RNN GPT •这是文字这是文字 •这是文字这是文字 •这是文字这是这是文字 •这是文字这是文字 THREE ONET ChatGPT在两项试题达到了合格率,其中一项还跟人类水平持平。 W 1.法律大模型|大语言模型在法律领域的表现 GPT-4表现“可与人类相媲美”,其在律师资格考试(UBE)分数超过90%考生。 1.法律大模型|法律大语言模型 2023年8月,浙江大学、阿里巴巴达摩院和华院计算联合发布了法律大模型。 1.法律大模型|挑战 知识融合不足 法律任务通常需要数据驱动 和知识指导相结合,通用的大模型在这方面的能力尚显不足。 可解释性欠缺 在法律人工智能中,模型的 可解释性至关重要。然而,大模型往往是“黑箱”操作,难以让用户理解其决策过程。 “幻觉” 模型有时会生成不真实或虚构的法律内容和案例,误导用户。 领域知识融合 知识图谱关联 知识检索增强 法律大语言模型的训练和评估 2.训练与评估|领域数据收集 •收集了多源异构知识数据,不仅包含6种类型的知识:法条类、案例类、模板类、书籍类、法律考试类、法律 日常问答类,我们还以法条和案件为 中心节点构建了它们的关系图谱数据。 2.训练与评估|领域数据清洗 规则去重语义去重 内容过滤 敏感信息 01 数据去重 02 数据筛选数据改造 罪名法条 01 多样化指令 刑期预测 法考题解释法院意见 案件事实摘要 人工审查 质量管控 03 02 多轮对话 庭审问答 文本抽取 结构化 角色扮演 标准规范化上下文信息 2.训练与评估|领域知识融入模型训练 法律大模型 C为Decoder类模型所需计算量,N为模型参数量,D为数据量 2.训练与评估|参数调优和资源需求 资源需求分析 高效参数微调 资源需求平衡 •微调训练需要大量计算资源 •合理规划资源提升训练效率 •提升模型性能和泛化能力 •缓解模型的灾难性遗忘 •找到资源需求的平衡点 •获得最佳模型性能和资源利用效率 微调训练方法 重新参数化 网络带宽 模型基座选择 增加部分参数 存储设备 训练数据选择 冻结部分参数 显卡集群 2.训练与评估|法律大语言模型评测指标体系 法律大模型评估指标体系 性能指标 有效性 相关度 完整度 正确性 并发路数 处理效率 首字响应时间 F1 质量指标 可维护性 可靠性 法律文书检查法律要素抽取 法律文书摘要 功能指标 法律文书生成 安全性指标 问题项内容 禁止项内容 办案报告生成结构化文书生成 法律法规问答 案件咨询问答 司法程序问答 证据链分析 案情分析 司法决策推理 01语言理解 03 法律咨询 法律文书检查案件要素抽取法律文书摘要 法律法规问答案件咨询问答司法程序问答 02内容生成 04 逻辑推理 法律文书生成办案报告生成 结构化文本生成 证据链分析 案情分析 司法决策推理 2.训练与评估|法律大语言模型能力体系 法律大语言模型的应用框架 大语言模型 特定领域 通用领域 UniLaw大模型6-72B大模型 国内主流大模型GPT4-API 检索召回模型 BGE向量模型 关键词召回模型 多模态理解模型 ReRank模型 文档解析模型 版面分析文字识别 表格识别 图文多模态摘要 模型协同 3.应用框架|系统架构 应用场景 群众端 业务端 社会治理中心 党群服务中心 法院 业务全流程智慧赋能助手 AI政务顾问 AI调解员 AI律师 场景适配 检索设定 关键词检索语义检索 多模态图片检索 层次检索 场景逻辑设定 知识库配置 模型配置 prompt场景设定 响应策略设定 业务协同 意图识别 调度编排 agent插件 NL2SQL 知识管理 文档解析 40种格式解析 复杂表格处理 图片摘要汇总 知识图谱解读 知识组织 问答对自动抽取 问答对问法拓展 语义文本切分 层次化知识管理 业务插件 法条法规 政策文件 法律书籍 司法案件 3.应用框架|华院RAG平台——本地专有知识融合 3.应用框架|华院RAG平台——性能优化 推理设计 根据应用场景的不同设计实时推理、批量推理以及异步推理,利用缓存策略和预计算来减少重复计算,提高系统响应速度。 可解释性 提供推理结果的可溯源,便于用户理解和信任模型的输出。 认知推理引擎 模块化 数据处理模块、模型推理模块、知识管理模块、用户交互模块等。以确保系统的可扩展性和可维护性。 交互反馈 用户友好的交互界面,使用户能够提供有效反馈,将用户的反馈融入模型迭代和优化中,进一步提升模型的实用性和准确性。 分布式 可调度的分布式计算资源来处理海量数据和高并发请求 3.应用框架|华院RAG平台——知识创建管理 word excel pdf 图片 40种格式 文字识别 固定大小 版面分析 智能文档解析 文本切分 语法特征 表格解析 内容意义 关键词检索 多向量语义检索 混合检索 多栏通用场景精准识别支持简体中文/繁体中文 /英文/数字等主流语言 图片、公式、 流程图等富文本识别 跨页表头、索引列、复杂表格增强解析 通用文本切分场景多层知识体系 完整语句/片段场景 存在目录/层级结构的场景 知识导入 知识检索 知识融合 答案生成 3.应用框架|华院法律大模型——RAG知识检索增强 法律大模型 •将法条库、案例库、工作条例、相关政策等本地多源数据导入知识库,自动理解学习沉淀为知识,借助混合知识检索和大模型总结归纳的能力,精准回答特定业务场景的问题。 3.应用框架|华院RAG平台——本地专有知识融合 •利用认知智能引擎支撑检索知识增强(RAG)模块化、流程化,实现模型的快速迭代优化,对本地 知识进行导入,理解,沉淀和管理,借助大模型总结归纳的能力,精准回答特定业务场景的问题。 •常用问答FAQ库 •主流通用大模型接口 •本地专有大模型 •结构化知识图谱 •文档知识库 知识选择 网页UI 多模态输入 RAG平台 10min编排应用1s超快响应 应用发布 多元化输� 模型选择 •专属微调定制模型 •智能文档解析模型 •语义向量模型 •二次重排序模型 终端APP •MySQL数据库 •在线网络数据 平台bot 二次开发API 3.应用框架|华院法律大语言模型 拴绳遛狗时,其他人逗狗,结果伤了人,狗主人该赔偿吗? 法律大模型 拴绳遛狗时,如果其他人逗狗导致狗伤人,狗主人是否需要赔偿,需要根据具体情况分析。以下是一般情况下可能涉及的法律问题和责任划分: 1.狗主人的管理责任... 2.第三方的过错... 3.责任比例划分... 一般情况下仍需承担一定的赔偿责任,但具体责任比例可能因第三方过错的存在而减轻。 法律大语言模型的应用案例 4.应用案例介绍|研发理念 基础算力 智慧信访 智慧矛调 智慧审判 法律数字服务 法治业务 以信息化、数字化技术推动区域司法行政效率与公共法律服务水平提升,落实法治政府、法治社会 数字化赋能 法治 法治决策 以智能化、数字化技术推动法治运行态势的可知、可视、可析、可测,赋能区域法治问题的发现与施策 全域法治监督 审判问题研判 基层矛盾预警 社会问题研判 应用能力 4.应用案例介绍|赋能社会治理 法律大语言模型赋能 案情分析 根据案件描述,结合知识库进行案情分析 法条推荐 根据案件描述,推荐相关的法条 法律文书生成 根据案件描述,快速生成准确的法律文书 法律问答 满足法律咨询等日常场景 4.应用案例介绍|类案推荐 发挥已完结案件剩余价值,将过往依托于工作人员办理的“经验之谈”转化为可全员可用的“利器”,依托数字档案中的“案例库”,借助自然语言处理和智能搜索技术,为基层工作人员提供 相似案例作为参考依据,并利用大模型分析总结 当前案例和推送案例的异同点,提高工作处理的效率和准确率。 4.应用案例介绍|判决文书生成 案例背景 法院案多人少,案件审理周期长,每个法官都有多个案件并行审理,法官庭审结束不能及时制作判决书,容易遗漏庭审细节。 解决方案 导入起诉状、答辩状、证据证物等材料,借助文本抽取算法理解材料内容,最终通过大模型总结归纳的能力,生成判决书。 华院法律大模型 庭审细节 判决文书 价值成效 只需小幅修改,即可发布正式判决书,在提升精度的同时,大幅提升工作人员效率。 4.应用案例介绍|法条推荐 基层工作人员在办理过程中相对缺乏全面的法律知识,存在事项责任不清,办理效果不佳的情况,法律大模型可基于案件办理登记的案件细节,进行深度法律分析推理,给予相关智能法条推荐,同时也支持工作人员进行自定义法条检索,增强办理人员的权威性。 4.应用案例介绍|法律AI助手 •以法律大模型为大脑,数字人为载体,构建普及法律、化解矛盾、答疑解惑的法律AI助手。 华院法律大模型 垂直大模型底座本地业务知识学习 数字人智能对话 热点问答 权威性:法律大模型全面收录了3189部法律、50504部法规,并在20个司法子任务中使用10万条指令进行训练。 e.g.“请问违章搭建去哪里反映?” 知识图谱/表 e.g.办理事项与窗口关系表.xlsx 非结构化文档 e.g.当地政策文件.docx 针对性:借助RAG能力,轻松让大模型理解本地业务文档和知识,精准回答特定场景问题。 请问违章搭建去哪里反映? 如果您发现存在违章搭建行为,可以向以下相关部门反映: 1.城市管理部门(城管局)... 2.城乡规划部门... 3.国土资源部门(自然资源局) 4.... 举报后,相关部门会根据举报内容进行调查核实,如确属违章搭建,将依法进行处理。 交互性:低延迟流式生成的数字人,支撑顺畅又智能的对话体验。 搭载多样终端,带来更大想象空间。 4.应用案例介绍|小雪人法律智能助手 总结展望 01 02 03 内容总结 回顾了语言模型的发展:介绍法律大语言模型的训练评估、应用框架和应用案例; 技术发展 大法律语言模型将更加智能化和个性化,为法律领域提供更精准的解决方案,提高法律服务的效率。 隐私安全 在训练和使用大语言模型过程中,如何保护用户数据的隐私和安全是一个重要的挑战,需要采取有效的措施来应对。 华院计算技术(上海)股份有限公司 算法实验室行业场景 •以算法研究和创新应用为核心,着力发展认知智能技术,为社会治理,工业制造,生物医药,金融零售等行业提供智能化的产品和服务,推动行业智能化的转型和升级。 •致力于数学应用与计算技术发展,提供底层智能引擎,引领算法自主创新,实现数据的价值化,世界智能化。